Google indexiert mehr als vier Milliarden Webseiten mit einer durchschnittlichen Größe von 10 KByte, insgesamt also ungefähr 40 Terabyte. Google wird jeden Tag über eintausend Mal pro Sekunde aufgefordert, diese Daten zu durchsuchen, und liefert die Ergebnisse normalerweise in Sekundenbruchteilen. Geht etwas schief, so Hölzle, „kann man das System nicht einfach ab- und wieder einschalten.“
Die Aufgabe wird durch die Natur des Internets nicht einfacher gemacht. „In der akademischen Welt“, so Hölzle, „existiert der Bereich Information-Retrieval schon seit Jahren, doch füllt dieser allenfalls die Bücher in den Bibliotheken. Im Web ist der Content nicht gut geschrieben und seine Qualität ist sehr unterschiedlich.“
Mancher Content, bemerkte er, beinhalte möglicherweise nicht einmal Text. „Sie denken vielleicht, dass wir über diesen Content ohnehin nicht Bescheid wissen müssen. Das stimmt aber nicht – es könnte z. B. die Homepage eines sehr großen Unternehmens sein, dessen Webmaster sich dafür entschied, alles grafisch zu gestalten. Und es kann durchaus sein, dass der Name des Unternehmens nicht einmal auf der Seite erscheint.“
Google wird mit solchen Seiten fertig, indem es das Web nicht als eine Sammlung von Textdokumenten betrachtet, sondern als eine Sammlung verlinkter Textdokumente, wobei jeder Link wertvolle Informationen beinhaltet.
Hölzle dazu: „Nehmen wir mal einen Link zur Homepage der Stanford University. Dieser sagt uns einiges: Erstens, dass jemand offensichtlich der Meinung ist, dass ein Verweis auf Stanford wichtig ist. Der Text im Link gibt uns auch eine Vorstellung davon, was sich auf der verlinkten Seite befindet. Wenn wir etwas über die Seite wissen, die den Link enthält, können wir auch etwas über die Qualität der verlinkten Seite folgern.“
Dieses Know-how ist in Googles berühmtem Pagerank-Algorithmus eingebettet, der nicht nur die Anzahl der Links zu einer Seite, sondern auch die Qualität beziehungsweise die Gewichtung solcher Links betrachtet und so bestimmt, welche Seite am wahrscheinlichsten von Nutzen ist. Diese erscheint dann an der Spitze der Liste, wenn dem Benutzer die Suchergebnisse angezeigt werden. Laut Hölzle ist der Pagerank-Algorithmus „relativ“ widerstandsfähig gegen Spam. Wer sich dafür interessiert, wie der Algorithmus genau funktioniert, findet hier weitere Informationen.
Betroffen sind Chrome für Windows, macOS und Linux. Das von den Anfälligkeiten ausgehende Risiko stuft…
Der Gerichtshof der Europäischen Union entscheidet „endgültig“ über den Rechtsstreit. Dem Urteil zufolge sind von…
Sie betrifft ältere Versionen von Windows 10. Ein weiterer kritischer Bug steckt aber auch in…
Der Downloader nimmt Windows-Rechner ins Visier. RansomHub festigt seine Position als führende Ransomware-Gruppe weltweit.
Britische Bestattungsunternehmen haben bereits reagiert und weisen darauf hin, dass ihre Beerdigungen nicht gelivestreamt werden.
Der neue Apple-Prozessor A18 basiert auf einem 3-Nanometer-Verfahren. Apple verspricht mehr Leistung und eine höhere…