Categories: Unternehmen

Googles Technologien: Von Zauberei kaum zu unterscheiden

Google indexiert mehr als vier Milliarden Webseiten mit einer durchschnittlichen Größe von 10 KByte, insgesamt also ungefähr 40 Terabyte. Google wird jeden Tag über eintausend Mal pro Sekunde aufgefordert, diese Daten zu durchsuchen, und liefert die Ergebnisse normalerweise in Sekundenbruchteilen. Geht etwas schief, so Hölzle, „kann man das System nicht einfach ab- und wieder einschalten.“

Die Aufgabe wird durch die Natur des Internets nicht einfacher gemacht. „In der akademischen Welt“, so Hölzle, „existiert der Bereich Information-Retrieval schon seit Jahren, doch füllt dieser allenfalls die Bücher in den Bibliotheken. Im Web ist der Content nicht gut geschrieben und seine Qualität ist sehr unterschiedlich.“

Mancher Content, bemerkte er, beinhalte möglicherweise nicht einmal Text. „Sie denken vielleicht, dass wir über diesen Content ohnehin nicht Bescheid wissen müssen. Das stimmt aber nicht – es könnte z. B. die Homepage eines sehr großen Unternehmens sein, dessen Webmaster sich dafür entschied, alles grafisch zu gestalten. Und es kann durchaus sein, dass der Name des Unternehmens nicht einmal auf der Seite erscheint.“

Google wird mit solchen Seiten fertig, indem es das Web nicht als eine Sammlung von Textdokumenten betrachtet, sondern als eine Sammlung verlinkter Textdokumente, wobei jeder Link wertvolle Informationen beinhaltet.

Hölzle dazu: „Nehmen wir mal einen Link zur Homepage der Stanford University. Dieser sagt uns einiges: Erstens, dass jemand offensichtlich der Meinung ist, dass ein Verweis auf Stanford wichtig ist. Der Text im Link gibt uns auch eine Vorstellung davon, was sich auf der verlinkten Seite befindet. Wenn wir etwas über die Seite wissen, die den Link enthält, können wir auch etwas über die Qualität der verlinkten Seite folgern.“

Dieses Know-how ist in Googles berühmtem Pagerank-Algorithmus eingebettet, der nicht nur die Anzahl der Links zu einer Seite, sondern auch die Qualität beziehungsweise die Gewichtung solcher Links betrachtet und so bestimmt, welche Seite am wahrscheinlichsten von Nutzen ist. Diese erscheint dann an der Spitze der Liste, wenn dem Benutzer die Suchergebnisse angezeigt werden. Laut Hölzle ist der Pagerank-Algorithmus „relativ“ widerstandsfähig gegen Spam. Wer sich dafür interessiert, wie der Algorithmus genau funktioniert, findet hier weitere Informationen.

Page: 1 2 3 4 5 6

ZDNet.de Redaktion

Recent Posts

Google stopft weitere fünf Löcher in Chrome 128

Betroffen sind Chrome für Windows, macOS und Linux. Das von den Anfälligkeiten ausgehende Risiko stuft…

3 Tagen ago

Steuerstreit mit der EU: Apple muss 13 Milliarden Euro nachzahlen

Der Gerichtshof der Europäischen Union entscheidet „endgültig“ über den Rechtsstreit. Dem Urteil zufolge sind von…

4 Tagen ago

September-Patchday: Microsoft schließt kritische Zero-Day-Lücke in Windows Update

Sie betrifft ältere Versionen von Windows 10. Ein weiterer kritischer Bug steckt aber auch in…

4 Tagen ago

CloudEye für 18 Prozent aller Malware-Infektionen in Deutschland verantwortlich

Der Downloader nimmt Windows-Rechner ins Visier. RansomHub festigt seine Position als führende Ransomware-Gruppe weltweit.

4 Tagen ago

Funeral Scams: Neue perfide Online-Betrugsmasche auf Facebook

Britische Bestattungsunternehmen haben bereits reagiert und weisen darauf hin, dass ihre Beerdigungen nicht gelivestreamt werden.

5 Tagen ago

Apple stellt iPhone 16 und iPhone 16 Pro vor

Der neue Apple-Prozessor A18 basiert auf einem 3-Nanometer-Verfahren. Apple verspricht mehr Leistung und eine höhere…

5 Tagen ago