Google nimmt gescannte Dokumente in seinen Index auf

Google hat damit begonnen, digitalisierte Dokumente in seinen Suchindex aufzunehmen. Mittels Optical Character Recognition (OCR) erfasst der Suchanbieter ab sofort Texte, die als Bilder gescannt und im PDF-Format im Internet veröffentlicht wurden. „Dank OCR können wir ein Bild, das tausend Worte enthält, in tausend durchsuchbare Wörter umwandeln“, erklärt Google-Produktmanager Evin Levey in einem Blogeintrag.

Als Beispiele nennt Levey offizielle Regierungsberichte oder wissenschaftliche Abhandlungen. „Solche Dokumente haben eines gemeinsam: Jemand ist davon ausgegangen, dass die enthaltenen Informationen wichtig genug sind, um sie im Internet zu veröffentlichen.“

Bei der Erkennung der Texte habe Google jedoch mit einigen Schwierigkeiten zu kämpfen, so Levey. „Das gescannte Bild eines Textes entspricht nicht immer dem Original.“ Einige Dokumente enthielten Rückstände von Druckertinte oder Falten im Papier. „Man stelle sich einen Kreis vor. Handelt es sich dabei um einen Fleck von einer Kaffeetasse, den Buchstaben ‚O‘ oder die Ziffer Null? Menschen können diese Frage sehr schnell beantworten, aber für einen Computer ist das ein aufwendiger und mit Fehlern behafteter Prozess.“

ZDNet.de Redaktion

Recent Posts

SEO-Beratung von Spezialisten wie WOXOW: Deshalb wird sie immer wichtiger

Wer bei Google mit den passenden Suchbegriffen nicht in den Top-Rankings gefunden wird, der kann…

23 Stunden ago

Umfrage: Weniger als die Hälfte der digitalen Initiativen sind erfolgreich

Unternehmen räumen der Entwicklung technischer und digitaler Führungskompetenzen ein zu geringe Priorität ein. Gartner fordert…

1 Tag ago

Google schließt zwei Zero-Day-Lücken in Android

Betroffen sind Android 12, 13, 14 und 15. Google sind zielgerichtete Angriffe auf die beiden…

2 Tagen ago

Gefährliche Weiterentwicklung der APT36-Malware ElizaRAT

Schadprogramm der pakistanischen Hackergruppe APT36 weitet seine Aktivitäten aus und verbessert seine Techniken.

2 Tagen ago

Google schließt weitere schwerwiegende Sicherheitslücken in Chrome 130

Tenable vergibt für beide Schwachstellen einen CVSS-Basis-Score von 9,8. Zwei Use-after-free-Bugs erlauben möglicherweise das Einschleusen…

2 Tagen ago

Microsoft nennt weitere Details zu kostenpflichtigen Patches für Windows 10

Erstmals liegen Preise für Verbraucher vor. Sie zahlen weniger als Geschäftskunden. Dafür beschränkt Microsoft den…

3 Tagen ago