Google hat eine zu seinem Maschinenlernen-Projekt TensorFlow gehörende Technologie zur Texterkennung in Bildern quelloffen gemacht. Sie steht Interessierten nun bei Github zur Verfügung. TensorFlow selbst bietet Google bereits seit 2015 unter der Apache-License an.
Anlässlich der Veröffentlichung geben die Google-Mitarbeiter Julian Ibarz, Software Engineer im Brain Team und Sujoy Banerjee, Product Manager des Ground Truth Team auch Einblicke in die Nutzung der Texterkennungstechnologie durch den Konzern. Ihnen zufolge sammeln die Street-View-Fahrzeuge tagtäglich immer noch Millionen von Bildern. Insgesamt lägen für Street View nun 80 Milliarden hochaufgelöste Aufnahmen vor. Bei solchen Zahlen sei es schlichtweg unmöglich, die Aufnahmen manuell auszuwerten.
Eine der Aufgaben des Google Ground Truth Team sei es daher, Methoden zur automatischen Extraktion von Information aus den mit Geo-Daten versehenen Bildern zu entwickeln und die dann zu nutzen, um Google Maps zu verbessern. Ein wichtiger Bestandteil davon sind Straßennamen, die von Straßenschildern abgelesen werden. Dabei werden jeweils mehrere Aufnahmen herangezogen, um die Genauigkeit zu verbessern, Abweichungen in der Schreibweise zu erkennen und die unterschiedlichen Varianten zu normalisieren. Besonders schwierig scheint das in Frankreich zu sein, deshalb illustrieren die Google-Forscher die Arbeit mit der Software am Beispiel dieses Landes. Der Algorithmus erreiche dort eine Genauigkeit von 84,2 Prozent und sei damit wesentlich leistungsfähiger als frühere Systeme.
Zudem sei er nicht auf Straßennamen beschränkt, sondern lasse sich leicht auf die Extraktion anderer Informationen aus Street-View-Bildern anwenden. Ein Beispiel sei etwa die Erkennung der Namen von Geschäften anhand ihrer Firmenschilder.
Ibarz und Banerjee weisen darauf hin, dass der Schwerpunkt automatischer Texterkennung (OCR) traditionell auf eingescannten Dokumenten gelegen habe. Die Erkennung von Texten aus Aufnahmen „in freier Wildbahn“ stelle die Forscher aber vor ganz andere Aufgaben, da dort Texte teilweise verdeckt oder schlecht lesbar sind, der Aufnahmewinkel für Verzerrung sorgt oder Aufnahmen unscharf sein können.
Mit Arbeiten, diese Aufgaben automatisiert zu bewältigen, begann Google 2008. Anlass war damals die bei Google zunächst nicht sofort auf offene Ohren gestoßene Forderung, in einigen Ländern Gesichter und Kfz-Kennzeichen auf den Street-View-Aufnahmen unkenntlich zu machen. Nachdem dies in Angriff Genomen wurde, hat man aber offenbar die weiteren Möglichkeiten erkannt.
„Wir bemerkten, dass wir mit ausreichend klassifizierten Daten Maschinenlernen nicht nur einsetzen könnten, um die Privatsphäre unserer Nutzer zu schützen, sondern auch Google Maps automatisiert mit relevanten und aktuellen Informationen anreichern könnten“, erklären die Forscher. [Anmerkung der Redaktion: Eigentlich ging es hier nicht um die „Privatsphäre der Nutzer“, sondern um die Privatsphäre zufällig aufgenommener Unbeteiligter, die nicht unbedingt Google-Nutzer sein mussten].
Eines der früheren Ergebnisse war das 2014 vorgestellte System zur Erkennung von Hausnummern. Es sei ein entscheidender Schritt gewesen, um Google Maps genauer zu machen, erklären Ibarz und Banerjee. Bislang sei damit bei über einem Drittel der erfassten Adressen weltweit die Genauigkeit verbessert worden. In einigen Ländern, darunter Brasilien, liege der Prozentsatz der nun genauer zugeordneten Adressen sogar bei 90 Prozent.
Die Technologie wurde dann anhand einer Datenbank mit über einer Millionen Straßennamen aus Frankreich auf angewandt. Im Gegensatz zur Hausnummernerkennung sei es bei der Erkennung von Straßennamen unter Umständen erforderlich, Daten aus mehreren Bildern sinnvoll zusammenzuführen. Außerdem müssen variabler Text (etwa Straße oder Str.) sowie Zusätze (etwa Angaben zu den Hausnummern) und Abkürzungen (etwa Bgm.-Fritz-Müller-Straße bei der Bürgermeister Fritz-Müller-Straße) als solche erkannt und der richtigen Straße einheitlich zugeordnet werden.
Das neue System erlaube es zusammen mit der Hausnummernerkennung Adressen in Google Maps, bei denen vorher entweder der zugehörige Straßennamen oder die Hausnummer nicht bekannt waren, direkt aus den Bildern zu erstellen. „Wenn nun ein Street-View-Auto auf einer neu gebauten Straße fährt, kann unser System die Zehntausende aufgenommenen Bilder analysieren, Straßennamen und Hausnummern extrahieren und ordnungsgemäß neue Adressen erstellen und geographisch korrekt zuordnen“, so die Forscher.
Dies wurde auch auf die Erkennung von Firmennamen anhand der Fassade von Ladengeschäften erweitert. Die Aufgabe hier war es, aus der Vielzahl an Informationen (etwa Herstellern dort angebotener Produkte, Hinweise auf Aktionen etc.) den Namen zu ermitteln. Das gelinge aber mittlerweile zufriedenstellend – auch deshalb, weil man bei der im Hintergrund verwendeten Computing-Power noch einmal aufgerüstet habe.
Ziel dieses Ratgebers ist es, SAP-Nutzern, die sich mit SAP S/4HANA auseinandersetzen, Denkanstöße zu liefern, wie sie Projektrisiken bei der Planung Ihres SAP S/4HANA-Projektes vermeiden können.
Bankhaus Metzler und Telekom-Tochter MMS testen, inwieweit Bitcoin-Miner das deutsche Stromnetz stabilisieren könnten.
Mit 1,7 Exaflops ist El Capitan nun der dritte Exascale-Supercomputer weltweit. Deutschland stellt erneut den…
Der deutsche Hyperscaler erweitert sein Server-Portfolio um vier Angebote mit den neuen AMD EPYC 4004…
Beim Online-Gaming kommt es nicht nur auf das eigene Können an. Auch die technischen Voraussetzungen…
Fast jedes zweite Unternehmen bietet keinerlei Schulungen an. In den übrigen Betrieben profitieren oft nur…
Huawei stellt auf der Connect Europe 2024 in Paris mit Xinghe Intelligent Network eine erweiterte…