Hinter den Suchergebnissen, die in Sekundenbruchteilen für den Nutzer visualisiert werden, verbergen sich Algorithmen, Crawler und künstliche Intelligenz. Der technische Aufwand, aus Hunderten Milliarden Webseiten jene mit den relevantesten und nützlichsten Informationen herauszufiltern, ist enorm.
Google ist unbestritten der Inbegriff der Suchmaschine. Tatsächlich trat der Gigant jedoch erst 1997 auf die Bildschirme – vier Jahre nach der Entwicklung des ersten Suchbots am MIT und zwei Jahre, nachdem die ersten kommerziellen Internet-Suchmaschinen an den Start gingen. Heute kommt Google auf einen recht konstanten Marktanteil von knapp 92 % weltweit. Mit großem Abstand folgen bing mit 2,8 % und Yahoo! mit 1,5 %.
Trotz der Dominanz dürfen die vielen weiteren Suchmaschinen nicht vergessen werden, die international zum Teil wichtige Nischen besetzen. Dazu zählen zum Beispiel Baidu, der chinesische Suchindex und Web-Crawler, sowie YANDEX aus Russland. Grüne Suchmaschinen wie Ecosia, die sich umweltfreundlich positionieren und Werbeeinnahmen in Klimaprojekte investieren, werden ebenfalls immer bedeutender.
Suchmaschinen lassen sich grundsätzlich in drei Arten unterscheiden: Volltextsuchmaschinen, Metasuchmaschinen und Webverzeichnisse.
Da die wichtigsten Suchmaschinen nach dem Volltextprinzip arbeiten, ist deren Funktionsweise und Technik am interessantesten. Damit die Informationen von Webseiten, öffentlichen Datenbanken, Nutzerinhalten sowie aus vielen weiteren Quellen für die Internetsuche herangezogen werden können, gibt es drei Phasen: zunächst das Crawling, dann die Indexierung und zum Abschluss die Aufnahme in die Suchergebnisse bzw. das Ranking. Diese drei Schritte zeigen, wie eine Suchmaschine funktioniert.
1. Crawling
Automatische Programme, die Crawler, Spider oder Bots genannt werden, durchsuchen das Internet ständig nach neuen oder aktualisierten Informationen, die in Form von Content oder strukturierten Daten vorliegen. Beim Crawling werden bisher unbekannte oder überarbeitete URLs zunächst in einer Liste mit Suchbegriffen gesammelt und für den späteren Zugriff gespeichert. Dann werden die Seiten aufgerufen und analysiert – gecrawlt. Dabei geht es um textbasierte und nicht textbasierte Inhalte sowie das visuelle Gesamtpaket.
2. Indexierung
Die Indexierung schließt sich unmittelbar an das Crawling an, denn nun befasst sich die Suchmaschine mit dem Inhalt einer Seite und versucht, zu verstehen, worum es geht. Dabei erfolgt auch eine Katalogisierung von Foto- und Videodateien. Alle gesammelten Informationen werden im Index gespeichert. So entsteht eine riesige Datenbank, die die Grundlage für alle Suchergebnislisten bildet. Bei einer Anfrage wird also nicht das gesamte World Wide Web durchstöbert, sondern lediglich der angelegte Index.
3. Ranking
Sind die Informationen erst einmal in der Datenbank für die Suchergebnisse aufgenommen, erfolgt das Ranking automatisch. Sobald die Suchmaschine eine Suchanfrage erhält, greift sie auf den Index zu, um die relevanteste Antwort zu finden und bereitzustellen. Dabei spielen unter anderem die Sprache des Nutzers, sein Standort und sein verwendetes Gerät (Desktop oder mobil) eine entscheidende Rolle. Die Rankingfaktoren sind extrem vielfältig und berücksichtigen beispielsweise Semantik, Verlinkungen und Aktualität.
Dem Ranking liegen Suchalgorithmen zugrunde, die eine Vorsortierung ermöglichen und Qualität sowie Relevanz gewährleisten sollen. Google zählt zu den Schlüsselfaktoren unter anderem diese drei:
Google und weitere Suchmaschinen bereiten die Suchergebnisse für den Nutzer unterschiedlich auf. Neben den klassischen Suchergebnislisten in Textform finden sich beispielsweise Karten mit Wegbeschreibungen, hervorgehobene Snippets, ein Knowledge Graph und Rich Lists. Die Algorithmen werden immer weiter verbessert, um die Suchintention des Nutzers bestmöglich zu verstehen und zu befriedigen.
Der Cybersecurity Report von Hornetsecurity stuft 2,3 Prozent der Inhalte gar als bösartig ein. Die…
Die Hintermänner haben es auf Zugangsdaten zu Microsoft Azure abgesehen. Die Kampagne ist bis mindestens…
Cloud-Plattform für elektronische Beschaffungsprozesse mit automatisierter Abwicklung elektronischer Rechnungen.
Mindestens eine Schwachstelle erlaubt eine Remotecodeausführung. Dem Entdecker zahlt Google eine besonders hohe Belohnung von…
Nur rund die Hälfte schaltet während der Feiertage komplett vom Job ab. Die anderen sind…
Security-Experten von Check Point sind einer neuen Angriffsart auf die Spur gekommen, die E-Mail-Schutzmaßnahmen umgehen…