Google nimmt gescannte Dokumente in seinen Index auf

Google hat damit begonnen, digitalisierte Dokumente in seinen Suchindex aufzunehmen. Mittels Optical Character Recognition (OCR) erfasst der Suchanbieter ab sofort Texte, die als Bilder gescannt und im PDF-Format im Internet veröffentlicht wurden. „Dank OCR können wir ein Bild, das tausend Worte enthält, in tausend durchsuchbare Wörter umwandeln“, erklärt Google-Produktmanager Evin Levey in einem Blogeintrag.

Als Beispiele nennt Levey offizielle Regierungsberichte oder wissenschaftliche Abhandlungen. „Solche Dokumente haben eines gemeinsam: Jemand ist davon ausgegangen, dass die enthaltenen Informationen wichtig genug sind, um sie im Internet zu veröffentlichen.“

Bei der Erkennung der Texte habe Google jedoch mit einigen Schwierigkeiten zu kämpfen, so Levey. „Das gescannte Bild eines Textes entspricht nicht immer dem Original.“ Einige Dokumente enthielten Rückstände von Druckertinte oder Falten im Papier. „Man stelle sich einen Kreis vor. Handelt es sich dabei um einen Fleck von einer Kaffeetasse, den Buchstaben ‚O‘ oder die Ziffer Null? Menschen können diese Frage sehr schnell beantworten, aber für einen Computer ist das ein aufwendiger und mit Fehlern behafteter Prozess.“

ZDNet.de Redaktion

Recent Posts

Studie: Ein Drittel aller E-Mails an Unternehmen sind unerwünscht

Der Cybersecurity Report von Hornetsecurity stuft 2,3 Prozent der Inhalte gar als bösartig ein. Die…

3 Tagen ago

HubPhish: Phishing-Kampagne zielt auf europäische Unternehmen

Die Hintermänner haben es auf Zugangsdaten zu Microsoft Azure abgesehen. Die Kampagne ist bis mindestens…

4 Tagen ago

1. Januar 2025: Umstieg auf E-Rechnung im B2B-Geschäftsverkehr

Cloud-Plattform für elektronische Beschaffungsprozesse mit automatisierter Abwicklung elektronischer Rechnungen.

4 Tagen ago

Google schließt schwerwiegende Sicherheitslücken in Chrome 131

Mindestens eine Schwachstelle erlaubt eine Remotecodeausführung. Dem Entdecker zahlt Google eine besonders hohe Belohnung von…

4 Tagen ago

Erreichbarkeit im Weihnachtsurlaub weiterhin hoch

Nur rund die Hälfte schaltet während der Feiertage komplett vom Job ab. Die anderen sind…

5 Tagen ago

Hacker missbrauchen Google Calendar zum Angriff auf Postfächer

Security-Experten von Check Point sind einer neuen Angriffsart auf die Spur gekommen, die E-Mail-Schutzmaßnahmen umgehen…

6 Tagen ago