Google nimmt gescannte Dokumente in seinen Index auf

Google hat damit begonnen, digitalisierte Dokumente in seinen Suchindex aufzunehmen. Mittels Optical Character Recognition (OCR) erfasst der Suchanbieter ab sofort Texte, die als Bilder gescannt und im PDF-Format im Internet veröffentlicht wurden. „Dank OCR können wir ein Bild, das tausend Worte enthält, in tausend durchsuchbare Wörter umwandeln“, erklärt Google-Produktmanager Evin Levey in einem Blogeintrag.

Als Beispiele nennt Levey offizielle Regierungsberichte oder wissenschaftliche Abhandlungen. „Solche Dokumente haben eines gemeinsam: Jemand ist davon ausgegangen, dass die enthaltenen Informationen wichtig genug sind, um sie im Internet zu veröffentlichen.“

Bei der Erkennung der Texte habe Google jedoch mit einigen Schwierigkeiten zu kämpfen, so Levey. „Das gescannte Bild eines Textes entspricht nicht immer dem Original.“ Einige Dokumente enthielten Rückstände von Druckertinte oder Falten im Papier. „Man stelle sich einen Kreis vor. Handelt es sich dabei um einen Fleck von einer Kaffeetasse, den Buchstaben ‚O‘ oder die Ziffer Null? Menschen können diese Frage sehr schnell beantworten, aber für einen Computer ist das ein aufwendiger und mit Fehlern behafteter Prozess.“

ZDNet.de Redaktion

Recent Posts

Studie: Sorge über Cyberangriff auf eigenes Auto

Laut CAM-Studie sehen 40 Prozent der Autofahrer vernetzte Fahrzeuge mit Software-Updates als Bedrohung an.

2 Tagen ago

Wahlen in Gefahr: KI ermöglicht maßgeschneiderte Desinformation im großen Stil

Wahlen in mehr als 60 Ländern und rund 2 Milliarden potenziellen Wählern, ist ein gefundenes…

2 Tagen ago

Firefox 131 führt temporäre Website-Berechtigungen ein

Sie verfallen spätestens nach einer Stunde. Firefox 131 enthält zudem Fixes für 13 Anfälligkeiten, die…

4 Tagen ago

Malware-Kampagne gefährdet Smartphones und Bankkonten

Mobile Malware-Kampagne richtet sich gezielt gegen Banking-Apps.

4 Tagen ago

Microsoft räumt Probleme mit Update für Windows 11 ein

Betroffen ist das Update KB5043145 für Windows 11 23H2 und 22H2. Es löst unter Umständen…

4 Tagen ago

Beispielcode für Zero-Day-Lücke in Windows veröffentlicht

Sie erlaubt eine nicht autorisierte Ausweitung von Benutzerrechten. Microsoft stuft die Anfälligkeit bisher nicht als…

5 Tagen ago