Categories: KomponentenWorkspace

Google gibt Lyra frei

Um den allzu bekannten abgehackten, roboterhaften Sprachanrufen bei geringer Bandbreite ein Ende zu setzen, hat Google Lyra freigegeben, einen neuen Audio-Codec, der maschinelles Lernen nutzt, um qualitativ hochwertige Anrufe zu produzieren, selbst bei einer zweifelhaften Internetverbindung.

Das KI-Team von Google stellt Lyra für Entwickler zur Integration in ihre Kommunikations-Apps zur Verfügung. Das neue Tool ermöglicht Audioanrufe in ähnlicher Qualität wie die gängigsten bestehenden Codecs und benötigt dabei 60 % weniger Bandbreite.

Audiocodecs sind heute für die internetbasierte Echtzeitkommunikation weit verbreitet. Die Technologie besteht aus der Komprimierung einer Eingabe-Audiodatei in ein kleineres Paket, das weniger Bandbreite für die Übertragung benötigt, und der anschließenden Dekodierung der Datei zurück in eine Wellenform, die über den Telefonlautsprecher eines Zuhörers wiedergegeben werden kann.

Je stärker die Datei komprimiert ist, desto weniger Daten werden benötigt, um die Audiodaten an den Hörer zu senden. Aber es gibt einen Kompromiss: Die am stärksten komprimierten Dateien sind in der Regel auch schwieriger zu rekonstruieren und neigen dazu, in weniger verständliche, roboterhafte Sprachsignale dekomprimiert zu werden.

„Eine ständige Herausforderung bei der Entwicklung von Codecs, sowohl für Video als auch für Audio, besteht darin, mit weniger Daten eine höhere Qualität zu erzielen und die Latenz für die Echtzeitkommunikation zu minimieren“, schreiben Andrew Storus und Michael Chinen, beide Software-Ingenieure bei Google, in einem Blogbeitrag.

Die Ingenieure stellten Lyra erstmals im Februar letzten Jahres als eine mögliche Lösung vor. Im Grunde funktioniert Lyra ähnlich wie herkömmliche Audiocodecs: Das System besteht aus zwei Teilen, einem Encoder und einem Decoder. Wenn ein Anwender in sein Telefon spricht, identifiziert und extrahiert der Encoder Attribute aus seiner Sprache, die so genannten Features, in Abschnitten von 40 Millisekunden, komprimiert die Daten und sendet sie über das Netzwerk an den Decoder, der sie an den Empfänger ausliest.

Um den Dekodierer zu verbessern, haben die KI-Ingenieure von Google das System mit einem speziellen Machine-Learning-Modell ausgestattet. Der Algorithmus wird als generatives Modell bezeichnet und wurde mit Tausenden von Stunden an Daten trainiert. Er ist in der Lage, eine vollständige Audiodatei selbst aus einer begrenzten Anzahl von Merkmalen zu rekonstruieren.

Während herkömmliche Codecs lediglich Informationen aus Parametern extrahieren können, um ein Stück Audio zu rekonstruieren, kann ein generatives Modell also Merkmale auslesen und neue Klänge auf der Basis einer kleinen Menge von Daten generieren.

Generative Modelle standen in den letzten Jahren im Mittelpunkt vieler Forschungen, und verschiedene Unternehmen haben sich für diese Technologie interessiert. Ingenieure haben bereits hochmoderne Systeme entwickelt, angefangen mit DeepMinds WaveNet, das Sprache erzeugen kann, die die menschliche Stimme nachahmt.

Ausgestattet mit einem Modell, das Audio mit minimalen Datenmengen rekonstruiert, kann Lyra daher sehr komprimierte Dateien mit niedrigen Bitraten beibehalten und trotzdem eine hochwertige Dekodierung am anderen Ende der Leitung erreichen.

Storus und Chinen verglichen die Leistung von Lyra gegenüber Opus, einem Open-Source-Codec, der für die meisten Voice-over-Internet-Anwendungen genutzt wird. Wenn Opus in einer Umgebung mit hoher Bandbreite verwendet wird, mit Audio bei 32 kbps, ist er dafür bekannt, dass er eine Audioqualität ermöglicht, die vom Original nicht zu unterscheiden ist; aber wenn er in Umgebungen mit eingeschränkter Bandbreite bis hinunter zu 6 kbps eingesetzt wird, beginnt der Codec, eine verminderte Audioqualität zu zeigen.

Im Vergleich dazu komprimiert Lyra Roh-Audio bis auf 3 kbit/s. Basierend auf dem Feedback von Experten und Hörern fanden die Forscher heraus, dass die Audioqualität der Ausgabe mit der von Opus vergleichbar ist. Gleichzeitig zeigten andere Codecs, die in der Lage sind, mit vergleichbaren Bitraten wie Lyra zu arbeiten, wie z. B. Speex, alle die schlechtesten Ergebnisse, gekennzeichnet durch unnatürlich und roboterhaft klingende Stimmen.

„Lyra kann überall dort eingesetzt werden, wo die Bandbreitenbedingungen für höhere Bitraten unzureichend sind und bestehende Codecs mit niedriger Bitrate keine ausreichende Qualität liefern“, so Storus und Chinen.

Die Idee wird den meisten Anwendern gefallen, die sich vor allem im letzten Jahr während der COVID-19-Pandemie bei der Arbeit von zu Hause aus mit unzureichender Bandbreite konfrontiert sahen. Seit Beginn der Krise ist die Nachfrage nach Breitband-Kommunikationsdiensten sprunghaft angestiegen, wobei einige Betreiber einen Anstieg des Internetverkehrs um bis zu 60 % im Vergleich zum Vorjahr verzeichneten – was zu Netzwerküberlastungen und den eingefroreren Telefonkonferenzen führte. Lyra verbessert auch die Archivierung großer Sprachmengen, die Einsparung von Akkus oder die Entlastung des Netzwerks in Notfallsituationen.

Entwickler können auf den Code von Lyra auf GitHub zugreifen, wo die Kern-API zusammen mit einer Beispiel-App bereitgestellt wird, die zeigt, wie nativer Lyra-Code in eine Java-basierte Android-App integriert werden kann.

Kollaborationsplattform Slack: Effizient arbeiten – egal von wo

Vor COVID-19 war Remote-Work für viele Unternehmen fast undenkbar. Heute haben sie erkannt, dass es sehr gut funktionieren kann, wenn die Rahmenbedingungen stimmen. Erfahren Sie in diesem Webinar, wie Sie mit der Kollaborationslösung Slack auf die veränderten Arbeitsbedingungen optimal reagieren können.

Jetzt registrieren und Aufzeichnung ansehen.

ZDNet.de Redaktion