Categories: ForschungInnovation

Facebook stellt M2-M100 vor

Facebook AI hat einen neuen Meilenstein für M2M-100 angekündigt und öffnet es der der Open Source Community. M2M-100 MMT gilt als genauer als andere Übersetzungsmodelle, weil es nicht Englisch als Vermittler verwenden muss.

In der Regel sind die Modelle auf Englisch zentriert. Die Übersetzung von Chinesisch ins Französische oder Chinesisch ins Spanische würde also vor dem endgültigen Bestimmungsort eine Übersetzung ins Englische erfordern.

Facebook argumentiert, dass direkte Übersetzungen zwischen Sprachen mehr Bedeutung erfassen und englisch-zentrierte Systeme beim Bilingual Evaluation Understudy (BLEU) Score um zehn Punkte übertreffen.

M2M-100 wird in 2.200 Sprachrichtungen trainiert. Wie Facebook mitteilte, wird es das Modell, das Training und die Evaluierungseinrichtung für M2M-100 auch für andere Forscher freigeben.

Facebook AI beschreibt das Verfahren so: „Um die Sprachen der verschiedenen Gruppen miteinander zu verbinden, haben wir eine kleine Anzahl von Brückensprachen identifiziert, bei denen es sich in der Regel um ein bis drei Hauptsprachen jeder Gruppe handelt. Im obigen Beispiel wären Hindi, Bengali und Tamil Brückensprachen für indoarische Sprachen. Dann haben wir parallele Trainingsdaten für alle möglichen Kombinationen dieser Brückensprachen ermittelt. Mit dieser Technik ergab unser Trainingsdatensatz am Ende 7,5 Milliarden parallele Datensätze, die 2.200 Richtungen entsprachen.“

Facebook hat in seinem Netzwerk maschinelle Übersetzung eingesetzt, aber die Erstellung separater KI-Modelle für jede Sprache und Aufgabe hat sich nicht verkauft. Immerhin führt Facebook jeden Tag 20 Milliarden Übersetzungen im Facebook News Feed aus.

Um das MMT-Modell zu trainieren, musste Facebook qualitativ hochwertige Satzpaare in mehreren Sprachen ohne Englisch neufassen. Es gibt mehr Übersetzungen ins Englische als direkt zwischen den Sprachen.

Letztendlich erstellte Facebook einen MMT-Datensatz von 7,5 Milliarden Satzpaaren in 100 Sprachen. Von da an schränkte Facebook die Paare auf qualitativ hochwertige und hohe Datenpaare ein. Statistisch seltene Übersetzungspaare wurden vermieden.

ANZEIGE

So reagieren Sie auf die gestiegene Nachfrage von Online-Videos – Wichtige Erkenntnisse und Trends

Der von zahlreichen Ländern wegen der Coronakrise eingeführte Lockdown und die damit verbundene soziale Distanzierung haben neue Rekorde im Online-Videoverkehr gebracht. Erfahren Sie in diesem Webinar, wie Sie Daten untersuchen und quantifizieren, um die Belastung von Netzwerken und CDNs einzuschätzen.

ZDNet.de Redaktion

Recent Posts

Microsoft nennt weitere Details zu kostenpflichtigen Patches für Windows 10

Erstmals liegen Preise für Verbraucher vor. Sie zahlen weniger als Geschäftskunden. Dafür beschränkt Microsoft den…

15 Stunden ago

Microsoft verschiebt erneut Copilot Recall

Die Entwickler arbeiten noch an weiteren „Verfeinerungen“. Windows Insider erhalten nun wohl eine erste Vorschau…

1 Tag ago

GenKI im Job: Mitarbeitende schaffen Tatsachen

Laut Bitkom-Umfrage werden in jedem dritten Unternehmen in Deutschland private KI-Zugänge genutzt. Tendenz steigend.

1 Tag ago

97 Prozent der Großunternehmen melden Cyber-Vorfälle

2023 erlitten neun von zehn Unternehmen in der DACH-Region Umsatzverluste und Kurseinbrüche in Folge von…

1 Tag ago

„Pacific Rim“-Report: riesiges, gegnerisches Angriffs-Ökosystem

Der Report „Pacific Rim“ von Sophos beschreibt Katz-und-Maus-Spiel aus Angriffs- und Verteidigungsoperationen mit staatlich unterstützten…

2 Tagen ago

DeepL setzt erstmals auf NVIDIA DGX SuperPOD mit DGX GB200-Systemen

NVIDIA DGX SuperPOD soll voraussichtlich Mitte 2025 in Betrieb genommen und für Forschungsberechnungen genutzt werden.

2 Tagen ago