Google indexiert mehr als vier Milliarden Webseiten mit einer durchschnittlichen Größe von 10 KByte, insgesamt also ungefähr 40 Terabyte. Google wird jeden Tag über eintausend Mal pro Sekunde aufgefordert, diese Daten zu durchsuchen, und liefert die Ergebnisse normalerweise in Sekundenbruchteilen. Geht etwas schief, so Hölzle, „kann man das System nicht einfach ab- und wieder einschalten.“
Die Aufgabe wird durch die Natur des Internets nicht einfacher gemacht. „In der akademischen Welt“, so Hölzle, „existiert der Bereich Information-Retrieval schon seit Jahren, doch füllt dieser allenfalls die Bücher in den Bibliotheken. Im Web ist der Content nicht gut geschrieben und seine Qualität ist sehr unterschiedlich.“
Mancher Content, bemerkte er, beinhalte möglicherweise nicht einmal Text. „Sie denken vielleicht, dass wir über diesen Content ohnehin nicht Bescheid wissen müssen. Das stimmt aber nicht – es könnte z. B. die Homepage eines sehr großen Unternehmens sein, dessen Webmaster sich dafür entschied, alles grafisch zu gestalten. Und es kann durchaus sein, dass der Name des Unternehmens nicht einmal auf der Seite erscheint.“
Google wird mit solchen Seiten fertig, indem es das Web nicht als eine Sammlung von Textdokumenten betrachtet, sondern als eine Sammlung verlinkter Textdokumente, wobei jeder Link wertvolle Informationen beinhaltet.
Hölzle dazu: „Nehmen wir mal einen Link zur Homepage der Stanford University. Dieser sagt uns einiges: Erstens, dass jemand offensichtlich der Meinung ist, dass ein Verweis auf Stanford wichtig ist. Der Text im Link gibt uns auch eine Vorstellung davon, was sich auf der verlinkten Seite befindet. Wenn wir etwas über die Seite wissen, die den Link enthält, können wir auch etwas über die Qualität der verlinkten Seite folgern.“
Dieses Know-how ist in Googles berühmtem Pagerank-Algorithmus eingebettet, der nicht nur die Anzahl der Links zu einer Seite, sondern auch die Qualität beziehungsweise die Gewichtung solcher Links betrachtet und so bestimmt, welche Seite am wahrscheinlichsten von Nutzen ist. Diese erscheint dann an der Spitze der Liste, wenn dem Benutzer die Suchergebnisse angezeigt werden. Laut Hölzle ist der Pagerank-Algorithmus „relativ“ widerstandsfähig gegen Spam. Wer sich dafür interessiert, wie der Algorithmus genau funktioniert, findet hier weitere Informationen.
Neueste Kommentare
1 Kommentar zu Googles Technologien: Von Zauberei kaum zu unterscheiden
Kommentar hinzufügenVielen Dank für Ihren Kommentar.
Ihr Kommentar wurde gespeichert und wartet auf Moderation.
Örks.
Habe fertig. Dazu fällt mir nichts mehr ein.
Petabyte, Google File System, 1k-Abfragen pro Sekunde, 60.000 PC’s…
…….>
Endlich ist es soweit: Die netten vollbärtigen Physiker, die Frauenversteher, die Geeks und die Nerds übernehmen in Kürze die Weltherrschaft. @Hölzle und Co: Bitte bleibt sauber und lasst euch nicht von den Bush’s und $$$’s und all‘ den anderen Anfechtungen vom rechten Weg abbringen!