EU-Sprachdatenbestand wird frei zugänglich

Die EU-Kommission will ihren Sprachdatenbestand frei zugänglich machen, um computergestützte Übersetzungen zu verbessern. Die Sammlung umfasst über eine Million Sätze und deren Übersetzung in 22 der 23 EU-Amtssprachen.

Mithilfe der Daten können maschinelle Übersetzungssysteme lernen, wie Wörter und Sätze im Zusammenhang richtig zu übertragen sind. Auch bei der Entwicklung anderer Sprachsoftware sind solche Daten hilfreich, beispielsweise für Programme zur Grammatik- und Rechtschreibprüfung, Online-Wörterbücher und mehrsprachige Textklassifizierungssysteme.

„Mit dieser Initiative möchte die Europäische Kommission die Sprachtechnologien voranbringen, die Mehrsprachigkeit fördern und die computergestützte Übersetzung einfacher, billiger und leichter zugänglich machen“, sagte Leonard Orban, EU-Kommissar für Mehrsprachigkeit. Die Bürger, die kleineren Sprachgemeinschaften angehörten, erhielten so einen leichteren Zugang zu Dokumenten und Webseiten, die es oft nur in den häufig verwendeten Sprachen gebe.

Die EU-Organe verfügen über mehr multilinguale Texte als jede andere Organisation, weil die EU-Vorschriften in allen 23 Amtsprachen vorliegen müssen. Ihre Übersetzungsdienste produzieren jährlich etwa 1,5 Millionen Seiten.

ZDNet.de Redaktion

Recent Posts

Microsoft verschiebt erneut Copilot Recall

Die Entwickler arbeiten noch an weiteren „Verfeinerungen“. Windows Insider erhalten nun wohl eine erste Vorschau…

15 Stunden ago

GenKI im Job: Mitarbeitende schaffen Tatsachen

Laut Bitkom-Umfrage werden in jedem dritten Unternehmen in Deutschland private KI-Zugänge genutzt. Tendenz steigend.

17 Stunden ago

97 Prozent der Großunternehmen melden Cyber-Vorfälle

2023 erlitten neun von zehn Unternehmen in der DACH-Region Umsatzverluste und Kurseinbrüche in Folge von…

17 Stunden ago

„Pacific Rim“-Report: riesiges, gegnerisches Angriffs-Ökosystem

Der Report „Pacific Rim“ von Sophos beschreibt Katz-und-Maus-Spiel aus Angriffs- und Verteidigungsoperationen mit staatlich unterstützten…

21 Stunden ago

DeepL setzt erstmals auf NVIDIA DGX SuperPOD mit DGX GB200-Systemen

NVIDIA DGX SuperPOD soll voraussichtlich Mitte 2025 in Betrieb genommen und für Forschungsberechnungen genutzt werden.

21 Stunden ago

Latrodectus: Gefährlicher Nachfolger von IcedID

Latrodectus, auch bekannt als BlackWidow, ist auch unter dem Namen LUNAR SPIDER bekannt.

21 Stunden ago