Soundex ist ein Algorithmus, der Wörter in ihrer Aussprache entsprechende Zeichenfolgen umwandelt. Das eröffnet die Möglichkeit, Wörter auf der Grundlage ihrer Aussprache und nicht nach ihren binären Übereinstimmungen zu vergleichen. Soundex wurde für englische Wörter entwickelt, erzielt aber auch im Deutschen in vielen Fällen gute Ergebnisse, wie Wikipedia bestätigt.
Im Englischen werden beispielsweise Zach und Zack genau gleich ausgesprochen. Doch die Zeichenfolge „Zach“ und die Zeichenfolge „Zack“ sind nicht identisch. Das heißt, eine normale Abfrage würde bei diesem Paar keine Übereinstimmung feststellen. Laufen jedoch „Zach“ und „Zack“ durch Soundex, so fällt auf, dass sie eine identische Kodierung aufweisen:
Das Ganze funktioniert nach folgendem Prinzip: Zuerst wird die Zeichenfolge in einzelne Zeichen aufgebrochen. Dann wird jedem Zeichen ein Wert zugeordnet. Der Algorithmus arbeitet dabei nach diesen Regeln:
Hier einige Beispiele für Kodierungen, die mit diesem Algorithmus erstellt wurden:
Es bleibt zu erwähnen, dass Soundex nicht zwischen Groß- und Kleinschreibung unterscheidet. Die Codierungen von „ZACH“ und „zAcH“ sind also identisch.
Lösung soll den Aufbau des EuroStacks unterstützen, der Europas souveräne digitale Infrastruktur werden soll.
Auszeichnung unterstreicht das Engagement von FlexiSpot für nachhaltiges und ergonomisches Design sowie seinen Beitrag zur…
Der Büro- und Gamerstuhl erkennt Gewicht der Nutzer und unterstützt Lendenwirbel und Nacken in jeder…
Der Analyst Ming-Chi Kuo geht von einem Preis zwischen 2000 und 2500 Dollar aus. Trotzdem…
Kaspersky meldet starke Zunahme mobiler Banking-Trojaner. Insgesamt 33,3 Millionen Angriffe auf mobile Nutzer im Jahr…
Optische Schalter mit Flüssigkristallspiegeln sollen die Datenpakete so stark verkleinern, dass mehr Daten durchs Netz…