Categories: ForschungInnovation

Google DeepMind meldet Durchbruch bei sprechendem Computersystem

Googles britisches Labor für Künstliche Intelligenz namens DeepMind meldet eine deutliche Verbesserung im Bereich computergenerierter Sprache. Sein System WaveNet übertreffe bisherige Text-to-Speech-Systeme (TTS) von Google um etwa 50 Prozent und verringere damit den Unterschied zu echten Menschen deutlich.

Diese Erfolge wies DeepMind sowohl für die englische Sprache wie auch Hochchinesisch (Mandarin) nach. Zudem könne sein System nahtlos zwischen Stimmen wechseln und auch Musik realistisch imitieren.

Auf einer Skala von 1 bis 5 klingt WaveNet natürlicher als konkatenative und parametrische TTS-Systeme von Google (Bild: DeepMind).

In dem neuen Forschungsbericht heißt es, die derzeit besten TTS-Systeme seien nach allgemeiner Ansicht die der Kollegen von Google. Sie basierten auf „Sprachfragmenten“ eines einzelnen menschlichen Sprechers, die dann zu computergenerierten Äußerungen verbunden würden. Dieser Ansatz, der auch als TTS durch Konkatenation oder Verkettung bezeichnet wird, kann zwar natürlich klingende gesprochene Sprache produzieren, ist aber typischerweise auf eine einzige Stimme beschränkt. Diese Limitierung versucht so genanntes parametrisches TTS zu überwinden, das auf einem Codec-Synthesizer basiert. Es gilt bisher aber als weniger echt klingend.

WaveNet verwendet hingegen einen Maschinenlernen-Ansatz: Es wird mit Audio-Rohdaten mehrerer Sprecher geschult. Als neuronales Netz modelliert es diese Signale zu synthetischen Äußerungen um. „Die Verwendung von Rohdaten der Tonschwingungen ergibt nicht nur natürlicher klingende Sprache, sie führt auch dazu, dass WaveNet jede Art Audio nachmodellieren kann, einschließlich Musik“, schreibt DeepMind in einem Blogbeitrag.

WaveMind könne auch die Eigenheiten einzelner Sprecher samt Atmung und Mundbewegungen nachbilden und sowohl mit männlichen wie auch weiblichen Stimmen sprechen, heißt es. In seinem Blog legt das Forschungslabor einige Hörproben vor, und zwar in Englisch und Hochchinesisch.

ANZEIGE

So lassen sich Risiken bei der Planung eines SAP S/4HANA-Projektes vermeiden

Ziel dieses Ratgebers ist es, SAP-Nutzern, die sich mit SAP S/4HANA auseinandersetzen, Denkanstöße zu liefern, wie sie Projektrisiken bei der Planung Ihres SAP S/4HANA-Projektes vermeiden können.

Die Forscher schreiben auch, sie hätten das Netzwerk auf die Identität bestimmter Sprecher hin konditioniert, damit es immer wisse, welche Stimme es verwenden solle. Das Training mit Material unterschiedlicher Sprecher habe aber die Qualität auch bei der Modellierung einer einzelnen Stimme verbessert. „Das legt eine Art Transferdenken nahe“, heißt es.

Vorerst benötigt WaveNet gewaltige Datenmengen und Rechenkraft. Für die Modellierung von Audio-Rohdaten setzt DeepMind mindestens 16.000 Samples pro Sekunde an. Dieser Ansatz sei aber für ein realistisches Ergebnis nötig gewesen. Die Forscher hoffen, ihren Ansatz mit geringer Mühe auf Musik und Spracherkennung übertragen zu können.

[mit Material von Liam Tung, ZDNet.com]

Tipp: Wie gut kennen Sie Google? Testen Sie Ihr Wissen – mit dem Quiz auf silicon.de.

Florian Kalenda

Seit dem Palm Vx mit Klapp-Tastatur war Florian mit keinem elektronischen Gerät mehr vollkommen zufrieden. Er nutzt derzeit privat Android, Blackberry, iOS, Ubuntu und Windows 7. Die Themen Internetpolitik und China interessieren ihn besonders.

Recent Posts

Black Friday: Vorsicht vor schädlichen QR-Codes

Bösartige QR-Codes, die per E-Mail versendet werden, eignen sich sehr gut, um Spam-Filter zu umgehen.

2 Tagen ago

Black Friday: Zahl der ominösen Shopping-Websites steigt

Unsichere Websites und Phishing-Mails in Verbindung mit Black Friday können kauffreudigen Konsumenten zum Verhängnis werden.

2 Tagen ago

SmokeBuster bekämpft SmokeLoader

Malware SmokeLoader wird weiterhin von Bedrohungsakteuren genutzt, um Payloads über neue C2-Infrastrukturen zu verbreiten.

2 Tagen ago

Taugen Kryptowährungen als Unterstützer der Energiewende?

Bankhaus Metzler und Telekom-Tochter MMS testen, inwieweit Bitcoin-Miner das deutsche Stromnetz stabilisieren könnten.

3 Tagen ago

Supercomputer-Ranking: El Capitan überholt Frontier und Aurora

Mit 1,7 Exaflops ist El Capitan nun der dritte Exascale-Supercomputer weltweit. Deutschland stellt erneut den…

3 Tagen ago

Ionos führt neue AMD-Prozessoren ein

Der deutsche Hyperscaler erweitert sein Server-Portfolio um vier Angebote mit den neuen AMD EPYC 4004…

3 Tagen ago