Categories: Unternehmen

Googles Technologien: Von Zauberei kaum zu unterscheiden

Google indexiert mehr als vier Milliarden Webseiten mit einer durchschnittlichen Größe von 10 KByte, insgesamt also ungefähr 40 Terabyte. Google wird jeden Tag über eintausend Mal pro Sekunde aufgefordert, diese Daten zu durchsuchen, und liefert die Ergebnisse normalerweise in Sekundenbruchteilen. Geht etwas schief, so Hölzle, „kann man das System nicht einfach ab- und wieder einschalten.“

Die Aufgabe wird durch die Natur des Internets nicht einfacher gemacht. „In der akademischen Welt“, so Hölzle, „existiert der Bereich Information-Retrieval schon seit Jahren, doch füllt dieser allenfalls die Bücher in den Bibliotheken. Im Web ist der Content nicht gut geschrieben und seine Qualität ist sehr unterschiedlich.“

Mancher Content, bemerkte er, beinhalte möglicherweise nicht einmal Text. „Sie denken vielleicht, dass wir über diesen Content ohnehin nicht Bescheid wissen müssen. Das stimmt aber nicht – es könnte z. B. die Homepage eines sehr großen Unternehmens sein, dessen Webmaster sich dafür entschied, alles grafisch zu gestalten. Und es kann durchaus sein, dass der Name des Unternehmens nicht einmal auf der Seite erscheint.“

Google wird mit solchen Seiten fertig, indem es das Web nicht als eine Sammlung von Textdokumenten betrachtet, sondern als eine Sammlung verlinkter Textdokumente, wobei jeder Link wertvolle Informationen beinhaltet.

Hölzle dazu: „Nehmen wir mal einen Link zur Homepage der Stanford University. Dieser sagt uns einiges: Erstens, dass jemand offensichtlich der Meinung ist, dass ein Verweis auf Stanford wichtig ist. Der Text im Link gibt uns auch eine Vorstellung davon, was sich auf der verlinkten Seite befindet. Wenn wir etwas über die Seite wissen, die den Link enthält, können wir auch etwas über die Qualität der verlinkten Seite folgern.“

Dieses Know-how ist in Googles berühmtem Pagerank-Algorithmus eingebettet, der nicht nur die Anzahl der Links zu einer Seite, sondern auch die Qualität beziehungsweise die Gewichtung solcher Links betrachtet und so bestimmt, welche Seite am wahrscheinlichsten von Nutzen ist. Diese erscheint dann an der Spitze der Liste, wenn dem Benutzer die Suchergebnisse angezeigt werden. Laut Hölzle ist der Pagerank-Algorithmus „relativ“ widerstandsfähig gegen Spam. Wer sich dafür interessiert, wie der Algorithmus genau funktioniert, findet hier weitere Informationen.

Page: 1 2 3 4 5 6

ZDNet.de Redaktion

NextWurm-Programmierung: Teenager muss hinter Gitter »

Previous « Schneller A3+-Fotodrucker: Canon i9950

Published by

ZDNet.de Redaktion

Tags: IT-BusinessStrategien

20 Jahren ago

Googles Technologien: Von Zauberei kaum zu unterscheiden

Recent Posts

Google stopft weitere fünf Löcher in Chrome 128

Steuerstreit mit der EU: Apple muss 13 Milliarden Euro nachzahlen

September-Patchday: Microsoft schließt kritische Zero-Day-Lücke in Windows Update

CloudEye für 18 Prozent aller Malware-Infektionen in Deutschland verantwortlich

Funeral Scams: Neue perfide Online-Betrugsmasche auf Facebook

Apple stellt iPhone 16 und iPhone 16 Pro vor

Googles Technologien: Von Zauberei kaum zu unterscheiden

Related Post

Recent Posts

Google stopft weitere fünf Löcher in Chrome 128

Steuerstreit mit der EU: Apple muss 13 Milliarden Euro nachzahlen

September-Patchday: Microsoft schließt kritische Zero-Day-Lücke in Windows Update

CloudEye für 18 Prozent aller Malware-Infektionen in Deutschland verantwortlich

Funeral Scams: Neue perfide Online-Betrugsmasche auf Facebook

Apple stellt iPhone 16 und iPhone 16 Pro vor