Categories: Open SourceSoftware

Google macht Parser für die englische Sprache quelloffen

Google hat ein Framework für die Analyse von Sätzen natürlicher Sprache und ein zugehöriges Plug-in speziell für die englische quelloffen gemacht. Da ein Programm zum Verständnis natürlicher Sprache Parser heißt, nennt es die Komponente fürs Englische Parsey McParseface. Das Framework heißt SyntaxNet.

SyntaxNet nutzt die Technik künstlicher neuronaler Netze, wie Google sie in TensorFlow implementiert hat. Der veröffentlichte Code ermöglicht es Entwicklern, durch Selbstlernmechanismen neue SyntaxNet-Modelle zu entwickeln. Durch Parsey McParseface können sie englische Texte auch umgehend zu analysieren beginnen.

Google schreibt, SyntaxNet sei die Grundlage interner Systeme, um gesprochene Sprache zu verstehen, darunter die Sprachsteuerung von Google Now. Und Parsey McParseface nutze konkret Algorithmen für Maschinelles Lernen, um die grammatische Funktion jedes Worts und Wortblocks eines Satzes zu verstehen.

ANZEIGE

Interview mit Samsungs SSD-Spezialist Marcel Binder

Im Interview mit ZDNet erläutert Marcel Binder, Technical Product Manager Marketing bei Samsung, die Vorteile durch den Einsatz von SSDs. Dabei geht er auch auf aktuelle Schnittstellen, Speicherdichten sowie Samsung V-NAND-Technik ein.

„Eines der Hauptprobleme, die das Parsen so herausfordernd machen, ist die bemerkenswerte Mehrdeutigkeit der menschlichen Sprache“, heißt es in einem Blogbeitrag. „Es ist nicht ungewöhnlich, wenn ein Satz mittlerer Länge – etwa mit 20 oder 30 Wörtern – hunderte, tausende oder gar zehntausende mögliche syntaktische Strukturen haben kann. Ein Parser für natürlich Sprache muss irgendwie all diese Möglichkeiten durcharbeiten und aus dem Kontext die plausibelste Struktur ermitteln.“

Zwei Möglichkeiten, einen einfachen Satz zu parsen (Bild: Google)

Laut Google schafft Parsey McParseface bei der Analyse englischer Nachrichtentexte 94 Prozent Treffergenauigkeit. Das sei zwar nicht perfekt, aber doch für eine ganze Reihe Anwendungsfälle gut genug. Ohne korrekte Analyse könne ein Computer nicht richtig auf eine Sprachanweisung reagieren. Die Erfolgsquote von Menschen beim parsen von Sätzen schätzt Google auf 96 bis 97 Prozent.

Das Machine-Learning-System TensorFlow setzt Google auch in Webanwendungen wie Fotos und Suche ein. Im November 2015 wurde es unter Apache-2.0-Lizenz freigegeben. Google erhofft sich davon, mehr Entwickler zu gewinnen – und eine weitere Verbreitung der Technik. TensorFlow lässt sich sowohl auf Desktops und Servern als auch auf Mobilgeräten einsetzen. Seit Version 0.8 vom April 2016 lässt sich die Trainingssoftware für Maschinenlernen auf „hunderten Maschinen“ parallel betreiben, um die Rechenzeit im Idealfall von Wochen auf Stunden zu verkürzen. Zudem können Entwickler TensorFlow seither auf eigener Hardware laufen lassen.

[mit Material von Natalie Gagliordi, ZDNet.com]

Tipp: Kennen Sie die größten Technik-Flops der IT-Geschichte? Überprüfen Sie Ihr Wissen – mit 14 Fragen auf silicon.de.

Florian Kalenda

Seit dem Palm Vx mit Klapp-Tastatur war Florian mit keinem elektronischen Gerät mehr vollkommen zufrieden. Er nutzt derzeit privat Android, Blackberry, iOS, Ubuntu und Windows 7. Die Themen Internetpolitik und China interessieren ihn besonders.

Recent Posts

Black Friday: Vorsicht vor schädlichen QR-Codes

Bösartige QR-Codes, die per E-Mail versendet werden, eignen sich sehr gut, um Spam-Filter zu umgehen.

2 Tagen ago

Black Friday: Zahl der ominösen Shopping-Websites steigt

Unsichere Websites und Phishing-Mails in Verbindung mit Black Friday können kauffreudigen Konsumenten zum Verhängnis werden.

2 Tagen ago

SmokeBuster bekämpft SmokeLoader

Malware SmokeLoader wird weiterhin von Bedrohungsakteuren genutzt, um Payloads über neue C2-Infrastrukturen zu verbreiten.

3 Tagen ago

Taugen Kryptowährungen als Unterstützer der Energiewende?

Bankhaus Metzler und Telekom-Tochter MMS testen, inwieweit Bitcoin-Miner das deutsche Stromnetz stabilisieren könnten.

3 Tagen ago

Supercomputer-Ranking: El Capitan überholt Frontier und Aurora

Mit 1,7 Exaflops ist El Capitan nun der dritte Exascale-Supercomputer weltweit. Deutschland stellt erneut den…

4 Tagen ago

Ionos führt neue AMD-Prozessoren ein

Der deutsche Hyperscaler erweitert sein Server-Portfolio um vier Angebote mit den neuen AMD EPYC 4004…

4 Tagen ago