Categories: ForschungInnovation

Google verbessert Spracherkennung

Google hat in einem Blog Verbesserungen seiner Spracherkennung angekündigt, die in den Such-Apps für Android und iOS Verwendung findet. Dank neuer Akustikmodelle ist die Erkennung demnach besser geworden – besonders in Umgebungen mit lauten Hintergrundgeräuschen.

Zugleich erfordern die neuen Algorithmen weniger Rechenaufwand, was bei häufigem Einsatz von Spracherkennung für verlängerte Akkulaufzeit sorgen könnte. Die Apps versuchen in Echtzeit zu verstehen, was der Anwender sagt, und daraus Suchanfragen abzuleiten.

Googles Erklärung steckt voll linguistischer Fachterminologie. Das grundsätzliche Verfahren wird dort als „Recurrent Neural Network“ oder RNN bezeichnet. Am Beispiel des Worts „Museum“ beschreiben die Google-Forscher, wie ihr Algorithmus nicht unbedingt jeden Laut zu erkennen versucht. Die englische Aussprache dieses Worts umschreibt Google „/m j u z i @ m/“. In der Praxis müsse man aber nicht unbedingt erkennen, wo der Laut „/j/“ endet und der Laut „/u/“ beginnt, heißt es.

Zugleich berücksichtigt das Verfahren, dass die Aussprache eines Lauts von den vorangegangenen abhängig ist. „Wenn der Anwender im Beispiel /u/ sagt, kommt sein Lautbildungsapparat von einem /j/-Laut und von einem ihm vorausgehenden /m/ her. RNN kann dies erfassen“, schreiben die Forscher.

Dass die Erkennung zur Echtzeit erfolge, sei aber eine zusätzliche Herausforderung, wenn man versuche, ganze Lautblöcke auf einmal zu erfassen. Nach vielen Anläufen habe man einen Kompromiss gefunden, der größere Blöcke als konventionelle Modelle verwende, aber dennoch weniger Berechnungen erfordere. „Dadurch haben wir die Berechnungen drastisch reduziert und die Erkennung deutlich beschleunigt. Wir haben außerdem künstlich Rauschen und Echos hinzugefügt, um die Erkennung robuster für Umgebungsgeräusche zu machen.“

Als letztes Problem benennen die Google-Forscher, dass ihr selbstlernender Algorithmus „die Vorhersage folgender Phoneme um etwa 300 Millisekunden verzögerte“, um zu besseren Ergebnissen zu kommen. „Das war klug, bedeutete aber zusätzliche Latenz für unsere Nutzer, was wir nicht akzeptieren konnten.“ Dem Modell wurde letztlich beigebracht, seine Prognosen früher zu liefern.

Zuletzt hatte Google mehrfach jene Algorithmen verbessert, die für den eigentlichen Dialog mit dem Nutzer verantwortlich sind. So ist es in den Such-Apps seit Frühjahr 2014 möglich, zu einem Thema nachzuhaken, ohne das Objekt der Suche in Folgefragen noch einmal zu erwähnen. Mit der neuen Spracherkennung wendet das Unternehmen sich nun wieder den Grundlagen zu.

Hintergrund ist in beiden Fällen der aktuelle Konkurrenzkampf im Bereich Sprachassistenten. Während sich Google Now zuletzt offenbar aufgrund interner Probleme nicht so schnell weiterentwickelte wie erhofft, konnte sich Microsoft mit Bing Snapshots unter Android profilieren. Und auch Apple hat seinen Sprachassistenten Siri gerade mit iOS 9 um einen großen Schritt nach vorn gebracht.

[mit Material von Liam Tung, ZDNet.com]

Tipp: Wie gut kennen Sie Google? Testen Sie Ihr Wissen – mit dem Quiz auf silicon.de.

Florian Kalenda

Seit dem Palm Vx mit Klapp-Tastatur war Florian mit keinem elektronischen Gerät mehr vollkommen zufrieden. Er nutzt derzeit privat Android, Blackberry, iOS, Ubuntu und Windows 7. Die Themen Internetpolitik und China interessieren ihn besonders.

Recent Posts

Apple meldet Rekordumsatz im vierten Fiskalquartal

Die Einnahmen klettern auf fast 95 Milliarden Dollar. Allerdings belastet der Steuerstreit mit der EU…

2 Tagen ago

Microsoft steigert Umsatz und Gewinn im ersten Fiskalquartal

Das stärkste Wachstum verbucht die Cloud-Sparte. Microsoft verpasst bei der Umsatzprognose für das laufende Quartal…

2 Tagen ago

Bezahlkarten: Infineon verspricht weniger Plastikmüll

Ein Coil-on-Module-Package integriert Chip und Antenne, was den Kartenkörper fast vollständig recycelbar machen soll.

3 Tagen ago

Firefox 132 schließt elf Sicherheitslücken

Mindestens eine Anfälligkeit erlaubt das Einschleusen von Schadcode. Außerdem erweitern die Entwickler den Support für…

3 Tagen ago

Telekom nennt Termin für 2G-Ende

Zum 30. Juni 2028 soll das 2G-Netz komplett abgeschaltet werden und den Weg für schnellere…

3 Tagen ago

Alphabet übertrifft die Erwartungen im dritten Quartal

Gewinn und Umsatz legen deutlich zu. Zum Wachstum tragen auch die Sparten Cloud und Abonnements…

3 Tagen ago