Categories: KIWorkspace

KIT entwickelt KI-gestützte Transkription

Automatische Spracherkennungs- und Übersetzungssysteme wie der Lecture Translator des Karlsruher Instituts für Technologie (KIT) können das Gesprochene in Vorträgen oder Vorlesungen in Echtzeit in einen Text in mehreren Sprachen umwandeln. Damit verbessern solche Systeme den Zugang zu Informationen für Studierende mit Behinderungen und ausländische Studierende.

Sie fördern aber auch allgemein ein schnelleres Arbeiten und Lernen durch eine intelligente Nachbereitung und Archivierung von gesprochenen Texten. Um dies weiter voranzutreiben, haben Forschende des KIT den Lecture Translator um neue Funktionen erweitert. Automatische Erkennung des Gesprochenen in mehreren Sprachen gleichzeitig, Textsegmentierung und Titelgenerierung in Echtzeit, Zusammenfassungen und Verlinkungen zu Fachbegriffen und Abfragen des Gehörten vereinfachen nun das Verstehen und effiziente Aufarbeiten von Vorlesungen.

Bessere Übersicht in Dokumenten

„Mit der automatischen Simultanübersetzung des Lecture Translators haben wir gesprochene Vorträge einem internationalen Publikum nähergebracht. Dieses macht aber in der Regel nur 15 Prozent der Zuhörerschaft aus. Mit den neuen KI-Werkzeugen wollen wir nicht nur Sprach-, sondern auch Verständnisbarrieren abbauen“, sagt Alexander Waibel, Professor für Informatik am KIT.

Oft seien automatisch transkribierte Texte von gesprochener Sprache schwer zu lesen, so Waibel weiter, da sie zu schnell fortlaufend ohne Absätze und Zwischenüberschriften als langer Text erscheinen – eben genau so, wie der Vortrag oder die Vorlesung mündlich vorgetragen wurde. Auch die Aufarbeitung der Vorlesung sei mühsam, da man die Vorlesung nach Verständnislücken durchsuchen müsse, so Waibel.

Die Weiterentwicklung des Lecture Translators soll hier Abhilfe schaffen. Die Forschenden haben dazu mehrere neue automatische Funktionen wie „Smart Chaptering“, Summarization“, „Q&A“ oder „Auto-Links“ entwickelt. Dabei verwandelt eine neuartige Künstliche Intelligenz (KI), die automatisch die Sprache erkennt, den gesprochenen Text in ein Transkript in mehreren Sprachen und identifiziert automatisch Absätze, Kapitelüberschriften sowie wichtige Kernpunkte.

Darüber hinaus erstellt sie eine akustische Wiedergabe, bei der Nutzerinnen und Nutzer eine von 18 Sprachen auswählen können. Außerdem zeigt das Programm automatisch Links als Querverweise zu relevanten Quellen in Vorlesungsskripten oder Wikipedia an, mit deren Hilfe die Studierenden die Vorlesung besser aufarbeiten können. „Mit unseren neuen KI-Modellen können Gespräche und Vorlesungen besser strukturiert und sogar Videos in leicht navigierbare Kapitel eingeteilt werden“, so Waibel. Somit sei ein besseres Verständnis nicht nur während, sondern auch nach der Vorlesung möglich.

18 Sprachen

Die Arbeiten hat das Forschungsteam in den Lecture Translator integriert, mit dem am KIT Vorlesungen in Echtzeit automatisch transkribiert werden. Kapiteleinteilung, Titelgenerierung, Absatzgestaltung, Zusammenfassungen mit Verlinkungen – auch jeweils online und offline anwendbar – erweitern nun den Service des Lecture Translators und vereinfachen die Arbeit mit dem Material.

Konkrete Anwendungsmöglichkeiten findet die Technologie für Content Creator, Studierende, Lehrende und Podcaster, die ihre Audio- und Videoinhalte erstmals strukturieren können. „Nutzerinnen und Nutzer können effizienter durch Videos und Vorträge navigieren, relevante Abschnitte schneller finden und wichtige Kerninhalte kompakt und effizient erfassen – sie haben insgesamt eine viel bessere grobe Übersicht sowie schnelleren Zugriff auf die Details“, sagt Waibel.

Die Forschung fand im Projekt „How is AI Changing Science?“ statt und wurde für vier Jahre von der Volkswagenstiftung gefördert. Projektbeteiligte waren neben dem KIT die Universität Bonn sowie die Universität Wien.

Manuel

Recent Posts

Microsoft nennt weitere Details zu kostenpflichtigen Patches für Windows 10

Erstmals liegen Preise für Verbraucher vor. Sie zahlen weniger als Geschäftskunden. Dafür beschränkt Microsoft den…

15 Stunden ago

Microsoft verschiebt erneut Copilot Recall

Die Entwickler arbeiten noch an weiteren „Verfeinerungen“. Windows Insider erhalten nun wohl eine erste Vorschau…

1 Tag ago

GenKI im Job: Mitarbeitende schaffen Tatsachen

Laut Bitkom-Umfrage werden in jedem dritten Unternehmen in Deutschland private KI-Zugänge genutzt. Tendenz steigend.

1 Tag ago

97 Prozent der Großunternehmen melden Cyber-Vorfälle

2023 erlitten neun von zehn Unternehmen in der DACH-Region Umsatzverluste und Kurseinbrüche in Folge von…

1 Tag ago

„Pacific Rim“-Report: riesiges, gegnerisches Angriffs-Ökosystem

Der Report „Pacific Rim“ von Sophos beschreibt Katz-und-Maus-Spiel aus Angriffs- und Verteidigungsoperationen mit staatlich unterstützten…

2 Tagen ago

DeepL setzt erstmals auf NVIDIA DGX SuperPOD mit DGX GB200-Systemen

NVIDIA DGX SuperPOD soll voraussichtlich Mitte 2025 in Betrieb genommen und für Forschungsberechnungen genutzt werden.

2 Tagen ago