Google hat damit begonnen, digitalisierte Dokumente in seinen Suchindex aufzunehmen. Mittels Optical Character Recognition (OCR) erfasst der Suchanbieter ab sofort Texte, die als Bilder gescannt und im PDF-Format im Internet veröffentlicht wurden. „Dank OCR können wir ein Bild, das tausend Worte enthält, in tausend durchsuchbare Wörter umwandeln“, erklärt Google-Produktmanager Evin Levey in einem Blogeintrag.
Als Beispiele nennt Levey offizielle Regierungsberichte oder wissenschaftliche Abhandlungen. „Solche Dokumente haben eines gemeinsam: Jemand ist davon ausgegangen, dass die enthaltenen Informationen wichtig genug sind, um sie im Internet zu veröffentlichen.“
Bei der Erkennung der Texte habe Google jedoch mit einigen Schwierigkeiten zu kämpfen, so Levey. „Das gescannte Bild eines Textes entspricht nicht immer dem Original.“ Einige Dokumente enthielten Rückstände von Druckertinte oder Falten im Papier. „Man stelle sich einen Kreis vor. Handelt es sich dabei um einen Fleck von einer Kaffeetasse, den Buchstaben ‚O‘ oder die Ziffer Null? Menschen können diese Frage sehr schnell beantworten, aber für einen Computer ist das ein aufwendiger und mit Fehlern behafteter Prozess.“
Bösartige QR-Codes, die per E-Mail versendet werden, eignen sich sehr gut, um Spam-Filter zu umgehen.
Unsichere Websites und Phishing-Mails in Verbindung mit Black Friday können kauffreudigen Konsumenten zum Verhängnis werden.
Malware SmokeLoader wird weiterhin von Bedrohungsakteuren genutzt, um Payloads über neue C2-Infrastrukturen zu verbreiten.
Bankhaus Metzler und Telekom-Tochter MMS testen, inwieweit Bitcoin-Miner das deutsche Stromnetz stabilisieren könnten.
Mit 1,7 Exaflops ist El Capitan nun der dritte Exascale-Supercomputer weltweit. Deutschland stellt erneut den…
Der deutsche Hyperscaler erweitert sein Server-Portfolio um vier Angebote mit den neuen AMD EPYC 4004…