„Obwohl es eine große Aufgabe ist“, so Hölzle, „ist sie durchaus zu bewältigen – nicht nur in technischer, sondern auch in wirtschaftlicher Hinsicht. Man kann sehr kostengünstige Hardware einsetzen, doch muss man die richtige Software dafür haben.“
Google betreibt seine Systeme auf preiswerten, 1U- und 2U-Servern von No-Name-Anbietern – so preiswert, dass Google sie als PCs bezeichnet. Schließlich besitzt jeder dieser Server einen normalen x86 PC-Prozessor, eine normale IDE-Festplatte und normale PC-Zuverlässigkeit, was bedeutet, dass er erwartungsgemäß alle drei Jahre ausfällt.
Bei einem Heim-PC ist das für viele Leute akzeptabel (schon allein, weil sie es nicht anders gewohnt sind), doch in dem Rahmen, in dem Google arbeitet, werden diese Ausfälle zu einem wirklichen Problem: In einem Cluster mit tausend PCs kann man davon ausgehen, dass im Schnitt ein PC pro Tag ausfällt. „Bei unserer Größe kann man diese Störungen nicht manuell beseitigen“, erklärte Hölzle. „Wir haben unsere Software daher so geschrieben, dass sie stets mit einem Komponentenausfall rechnet, den wir dann einfach umgehen können. Der Erfolg ist dieser Software zu verdanken.“
Ein Schlüsselbegriff lautet Replikation. „Von einem Server, der einen bestimmten Abschnitt des Web beinhaltet, gibt es zwei oder vielleicht sogar zehn“, sagte Hölzle. „Das mag zwar teuer klingen, doch wenn man einen volumenstarken Dienst anbietet, braucht man diese Art von Replikation ohnehin. So bekommt man also Replikation und Redundanz umsonst. Wenn ein Server ausfällt, sinkt die Leistung des Diensts um 10 Prozent – also keine Ausfälle, so lange die Lastverteilung funktioniert. So wird eine Störung zu einem verwaltbaren Vorfall.“
In Wirklichkeit habe Google wahrscheinlich „fünfzig Kopien jedes einzelnen Servers“. Google repliziere Server, Server-Sets und komplette Rechenzentren, fügte Hölzle hinzu, und habe seit Februar 2000 keinen einzigen Systemkomplettausfall zu verzeichnen gehabt. Damals hatte Google nur ein Rechenzentrum; der Hauptswitch fiel aus und setzte dadurch die Suchmaschine für eine Stunde außer Betrieb. Heute spiegele das Unternehmen alles über mehrere unabhängige Rechenzentren und die Fehlertoleranz funktioniere über alle Standorte hinweg: „Wenn wir also in einem Rechenzentrum Daten verlieren, können wir woanders weiterarbeiten – und das geschieht häufiger, als man annehmen würde. Solche Dinge passieren eben und man muss mit ihnen klarkommen.“
Die Inbetriebnahme eines neuen Rechenzentrums dauert weniger als drei Tage. „Unser Rechenzentrum ist jetzt wie ein iMac“, so Schulz. „Man hat zwei Kabel, Strom und Daten. Alles, was man braucht, ist ein LKW, um die Server anzuliefern; das Einbrennen, die Installation des Betriebssystems und die Konfiguration erfolgen automatisch.“
Laut Hölzle ist es ziemlich einfach, sich beim Ausfall preiswerter Hardware zu behelfen. Wird eine Verbindung unterbrochen, bedeutet das, dass der Rechner abgestürzt ist und keine Abfragen mehr an ihn geschickt werden. Erhält eine Abfrage keine Antwort, deutet das auf ein Problem hin, und der Rechner kann aus dem Loop ausgeschlossen werden.
Damit ist das Thema Redundanz abgehakt. Wie sieht es aber mit der Skalierung aus? Das Web wächst wie auch die Anzahl der Web-Benutzer mit jedem Jahr an, und das bedeutet eine immer stärkere Beanspruchung der Google-Server.
Neueste Kommentare
1 Kommentar zu Googles Technologien: Von Zauberei kaum zu unterscheiden
Kommentar hinzufügenVielen Dank für Ihren Kommentar.
Ihr Kommentar wurde gespeichert und wartet auf Moderation.
Örks.
Habe fertig. Dazu fällt mir nichts mehr ein.
Petabyte, Google File System, 1k-Abfragen pro Sekunde, 60.000 PC’s…
…….>
Endlich ist es soweit: Die netten vollbärtigen Physiker, die Frauenversteher, die Geeks und die Nerds übernehmen in Kürze die Weltherrschaft. @Hölzle und Co: Bitte bleibt sauber und lasst euch nicht von den Bush’s und $$$’s und all‘ den anderen Anfechtungen vom rechten Weg abbringen!