Categories: BrowserWorkspace

Wie funktionieren eigentlich Suchmaschinen?

Hinter den Suchergebnissen, die in Sekundenbruchteilen für den Nutzer visualisiert werden, verbergen sich Algorithmen, Crawler und künstliche Intelligenz. Der technische Aufwand, aus Hunderten Milliarden Webseiten jene mit den relevantesten und nützlichsten Informationen herauszufiltern, ist enorm.

Quelle: Ranking Road Ltd

Die Vielfalt der Suchmaschinen

Google ist unbestritten der Inbegriff der Suchmaschine. Tatsächlich trat der Gigant jedoch erst 1997 auf die Bildschirme – vier Jahre nach der Entwicklung des ersten Suchbots am MIT und zwei Jahre, nachdem die ersten kommerziellen Internet-Suchmaschinen an den Start gingen. Heute kommt Google auf einen recht konstanten Marktanteil von knapp 92 % weltweit. Mit großem Abstand folgen bing mit 2,8 % und Yahoo! mit 1,5 %.

Trotz der Dominanz dürfen die vielen weiteren Suchmaschinen nicht vergessen werden, die international zum Teil wichtige Nischen besetzen. Dazu zählen zum Beispiel Baidu, der chinesische Suchindex und Web-Crawler, sowie YANDEX aus Russland. Grüne Suchmaschinen wie Ecosia, die sich umweltfreundlich positionieren und Werbeeinnahmen in Klimaprojekte investieren, werden ebenfalls immer bedeutender.

Wie funktioniert die Suchmaschine?

Suchmaschinen lassen sich grundsätzlich in drei Arten unterscheiden: Volltextsuchmaschinen, Metasuchmaschinen und Webverzeichnisse.

  • Volltextsuchmaschinen sind Google, bing, Yahoo! und Co. Für den normalen Nutzer haben sie die größte Relevanz.
  • Metasuchmaschinen wie MetaGer verfügen meist nicht über eigene Datenbanken, sondern nutzen andere Suchmaschinen und Indexe für die Bereitstellung der Suchergebnisse.
  • Webverzeichnisse beruhen auf Datenbanken, die manuell (nicht durch Bots) durchsucht werden. Sie sind nur noch für Nischenthemen interessant.

Da die wichtigsten Suchmaschinen nach dem Volltextprinzip arbeiten, ist deren Funktionsweise und Technik am interessantesten. Damit die Informationen von Webseiten, öffentlichen Datenbanken, Nutzerinhalten sowie aus vielen weiteren Quellen für die Internetsuche herangezogen werden können, gibt es drei Phasen: zunächst das Crawling, dann die Indexierung und zum Abschluss die Aufnahme in die Suchergebnisse bzw. das Ranking. Diese drei Schritte zeigen, wie eine Suchmaschine funktioniert.

1. Crawling

Automatische Programme, die Crawler, Spider oder Bots genannt werden, durchsuchen das Internet ständig nach neuen oder aktualisierten Informationen, die in Form von Content oder strukturierten Daten vorliegen. Beim Crawling werden bisher unbekannte oder überarbeitete URLs zunächst in einer Liste mit Suchbegriffen gesammelt und für den späteren Zugriff gespeichert. Dann werden die Seiten aufgerufen und analysiert – gecrawlt. Dabei geht es um textbasierte und nicht textbasierte Inhalte sowie das visuelle Gesamtpaket.

2. Indexierung

Die Indexierung schließt sich unmittelbar an das Crawling an, denn nun befasst sich die Suchmaschine mit dem Inhalt einer Seite und versucht, zu verstehen, worum es geht. Dabei erfolgt auch eine Katalogisierung von Foto- und Videodateien. Alle gesammelten Informationen werden im Index gespeichert. So entsteht eine riesige Datenbank, die die Grundlage für alle Suchergebnislisten bildet. Bei einer Anfrage wird also nicht das gesamte World Wide Web durchstöbert, sondern lediglich der angelegte Index.

3. Ranking

Sind die Informationen erst einmal in der Datenbank für die Suchergebnisse aufgenommen, erfolgt das Ranking automatisch. Sobald die Suchmaschine eine Suchanfrage erhält, greift sie auf den Index zu, um die relevanteste Antwort zu finden und bereitzustellen. Dabei spielen unter anderem die Sprache des Nutzers, sein Standort und sein verwendetes Gerät (Desktop oder mobil) eine entscheidende Rolle. Die Rankingfaktoren sind extrem vielfältig und berücksichtigen beispielsweise Semantik, Verlinkungen und Aktualität.

Die Macht der Algorithmen

Dem Ranking liegen Suchalgorithmen zugrunde, die eine Vorsortierung ermöglichen und Qualität sowie Relevanz gewährleisten sollen. Google zählt zu den Schlüsselfaktoren unter anderem diese drei:

  • Wortanalyse: Sprachmodelle versuchen, die Suchintention zu entschlüsseln, erkennen Rechtschreibfehler, wissen um mehrere Bedeutungen, Synonyme sowie aktuelle Trendwörter.
  • Nützlichkeit: Die Algorithmen sollen Spam identifizieren und nur vertrauenswürdige, nutzerfreundliche und aktuelle Suchergebnisse liefern.
  • Kontextbezug: Dabei werden der aktuelle Standort, die letzten Suchanfragen und die Sucheinstellungen berücksichtigt. Die Personalisierung der Google-Suche kann deaktiviert werden.

Verschiedene Formate der Suchergebnisse

Google und weitere Suchmaschinen bereiten die Suchergebnisse für den Nutzer unterschiedlich auf. Neben den klassischen Suchergebnislisten in Textform finden sich beispielsweise Karten mit Wegbeschreibungen, hervorgehobene Snippets, ein Knowledge Graph und Rich Lists. Die Algorithmen werden immer weiter verbessert, um die Suchintention des Nutzers bestmöglich zu verstehen und zu befriedigen.

ZDNet.de Redaktion

Recent Posts

Microsoft nennt weitere Details zu kostenpflichtigen Patches für Windows 10

Erstmals liegen Preise für Verbraucher vor. Sie zahlen weniger als Geschäftskunden. Dafür beschränkt Microsoft den…

3 Stunden ago

Microsoft verschiebt erneut Copilot Recall

Die Entwickler arbeiten noch an weiteren „Verfeinerungen“. Windows Insider erhalten nun wohl eine erste Vorschau…

21 Stunden ago

GenKI im Job: Mitarbeitende schaffen Tatsachen

Laut Bitkom-Umfrage werden in jedem dritten Unternehmen in Deutschland private KI-Zugänge genutzt. Tendenz steigend.

23 Stunden ago

97 Prozent der Großunternehmen melden Cyber-Vorfälle

2023 erlitten neun von zehn Unternehmen in der DACH-Region Umsatzverluste und Kurseinbrüche in Folge von…

23 Stunden ago

„Pacific Rim“-Report: riesiges, gegnerisches Angriffs-Ökosystem

Der Report „Pacific Rim“ von Sophos beschreibt Katz-und-Maus-Spiel aus Angriffs- und Verteidigungsoperationen mit staatlich unterstützten…

1 Tag ago

DeepL setzt erstmals auf NVIDIA DGX SuperPOD mit DGX GB200-Systemen

NVIDIA DGX SuperPOD soll voraussichtlich Mitte 2025 in Betrieb genommen und für Forschungsberechnungen genutzt werden.

1 Tag ago