Es wäre natürlich unpraktisch, für jede Abfrage den Algorithmus für jede Seite einmal auszuführen, weswegen Google den Vorgang aufteilt.
Wenn das System eine Abfrage erhält, wird diese zu Index-Servern geschickt, auf denen sich ein Index des Web befindet. Dieser Index ist eine Zuordnung einzelner Wörter zu allen Seiten, die dieses Wort enthalten. So zeigt zum Beispiel das Wort „Imperial“ auf eine Liste von Dokumenten, die dieses Wort enthalten. Das Gleiche gilt für „College“. Bei einer Suche nach „Imperial College“ führt Google eine Boolesche „UND“-Verknüpfung der beiden Wörter durch, um eine Liste der „Wortseiten“ (Hölzle) zu erhalten.
„Wir berücksichtigen auch zusätzliche Daten, zum Beispiel, wo das Wort auf der Seite vorkommt – im Titel oder in der Fußzeile -, ob es fett gedruckt ist, und so weiter…“
Jeder Index-Server indiziert nur einen Teil des Web, da das ganze Web nicht auf einen einzigen Rechner passt und schon gar nicht auf die Sorte Rechner, die Google verwendet. Googles Webindex ist über viele Rechner verteilt und die Abfrage wird an viele von ihnen geschickt, wobei jeder seinen eigenen Teil der Aufgabe bearbeitet.
Google berechnet die circa 1000 besten Ergebnisse, die dann als Dokument-IDs statt als Text ausgegeben werden. Als nächster Schritt werden Dokumentenserver eingesetzt, die einen Schnappschuss des Web enthalten, der den Moment wiedergibt, in dem es von Googles Spidern durchsucht wurde. Auch hier wird das Web im Grunde zerhackt, so dass jeder Rechner einen Teil davon enthält. Wird eine Übereinstimmung gefunden, wird diese an den Ad-Server geschickt, der die Werbebanner zuordnet und die allgemein bekannte Ergebnisseite erstellt.
Googles Geschäftsmodell funktioniert, da das Ganze auf preiswerter Hardware läuft, so dass das Unternehmen den Suchdienst für Anwender kostenlos zur Verfügung stellen kann, wobei lediglich für Werbung Gebühren erhoben werden.
Neueste Kommentare
1 Kommentar zu Googles Technologien: Von Zauberei kaum zu unterscheiden
Kommentar hinzufügenVielen Dank für Ihren Kommentar.
Ihr Kommentar wurde gespeichert und wartet auf Moderation.
Örks.
Habe fertig. Dazu fällt mir nichts mehr ein.
Petabyte, Google File System, 1k-Abfragen pro Sekunde, 60.000 PC’s…
…….>
Endlich ist es soweit: Die netten vollbärtigen Physiker, die Frauenversteher, die Geeks und die Nerds übernehmen in Kürze die Weltherrschaft. @Hölzle und Co: Bitte bleibt sauber und lasst euch nicht von den Bush’s und $$$’s und all‘ den anderen Anfechtungen vom rechten Weg abbringen!