Im Dialog mit dem Auto: Neuste Trends bei der Sprachsteuerung

Voicebox hat kürzlich einen großen Vertrag mit XM Satellite Radio über die Integration der Sprachsuchfähigkeit in das vielfältige Radioprogramm unterzeichnet. Dieses Programm erreicht in den USA über sechs Millionen Zuhörer, viele davon im Auto. Darüber hinaus hat sich Voicebox mit Johnson Controls, einem der größten Technologielieferanten der Autoindustrie, zusammengetan. Ein erster Erfolg dieser Zusammenarbeit ist ein Zugang, über den man im Auto sprachgesteuert auf dem Apple Ipod nach Musik suchen kann. Das Produkt soll noch in diesem Jahr lieferbar sein.

Veerender Kaul, Industrieanalyst für hoch entwickelte Autotechnik beim Unternehmensberatungsunternehmen Frost & Sullivan, erklärte hierzu: „Immer, wenn eine große Auswahl an Dateien zur Verfügung steht, egal, ob das nun Song-Dateien, Telefonkontakte oder lokale Verzeichnisse sind, dann ist Sprachtechnologie ein Muss.“

Auf jeden Fall gibt es sie schon seit einigen Jahren bei Navigationssystemen für Autos wie auch für Call-Center. Viele Fahrzeuge der mittleren und oberen Preisklasse, wie etwa die Lexus-Modelle und der Honda Acura, werden mit Sprachsteuerungsfunktionen für Wegebeschreibungen geliefert. Durch das begrenzte Befehlsvokabular und die schlechte Erkennung von Synonymen und Dialekten haben diese Technologien jedoch für etliche frustrierende Erlebnisse bei den Verbrauchern gesorgt. „Das Hauptproblem ist, dass die meisten sprachbasierten Systeme bisher nicht gerade zuverlässig gewesen sind“, so Thilo Koslowski, Vice President und Lead Auto Analyst im Marktforschungsunternehmen Gartner.

Die Techniker bei Voicebox sind der Meinung, dass sie das ändern können. Das Unternehmen wurde 2001 von Prof. Dr. Bob Kennewick von der Harvard University gegründet. Der Volkswirt und Informatiker erkannte ein grundlegendes Problem bei der bestehenden Spracherkennungstechnologie. Programmierer waren gezwungen, spezielle Wörterbücher für eine bestimmte Gruppe von Daten zu erstellen und dann das Gesprochene einem Text zuzuordnen. Die Benutzer mussten jedoch genau das Richtige sagen, damit es funktionierte. Auch Hintergrundgeräusche konnten die Übersetzung beeinträchtigen.

Er wollte eine Technologie entwickeln, die den sprachlichen Zusammenhang erkennen und dabei in einer Unterhaltung die richtigen Signale aufnehmen und wie ein Mensch antworten könnte. Eine Aufforderung wie etwa „Lass mich Cisco hören“ könnte von der Technologie so verstanden werden, dass man den Sänger Cisco hören, den Aktienkurs des Unternehmens Cisco erfahren oder sich das Lied „Cisco Spilling Station“ von Johnny Cash anhören will. Die von Kennewick entwickelte Technologie reagiert auf eine solche Aufforderung damit, dass sie nachfragt, welche dieser drei Alternativen man hören möchte.

Page: 1 2 3 4

ZDNet.de Redaktion

Recent Posts

Lags beim Online-Gaming? DSL-Vergleich und andere Tipps schaffen Abhilfe

Beim Online-Gaming kommt es nicht nur auf das eigene Können an. Auch die technischen Voraussetzungen…

2 Tagen ago

GenKI-Fortbildung immer noch Mangelware

Fast jedes zweite Unternehmen bietet keinerlei Schulungen an. In den übrigen Betrieben profitieren oft nur…

2 Tagen ago

Netzwerk-Portfolio für das KI-Zeitalter

Huawei stellt auf der Connect Europe 2024 in Paris mit Xinghe Intelligent Network eine erweiterte…

2 Tagen ago

Internet-Tempo in Deutschland: Viel Luft nach oben

Höchste Zeit für eine schnelle Kupfer-Glas-Migration. Bis 2030 soll in Deutschland Glasfaser flächendeckend ausgerollt sein.

2 Tagen ago

Erste Entwickler-Preview von Android 16 verfügbar

Schon im April 2025 soll Android 16 den Status Plattformstabilität erreichen. Entwicklern gibt Google danach…

2 Tagen ago

Kaspersky warnt vor Cyberangriff auf PyPI-Lieferkette

Die Hintermänner setzen KI-Chatbot-Tools als Köder ein. Opfer fangen sich den Infostealer JarkaStealer ein.

2 Tagen ago