„Obwohl es eine große Aufgabe ist“, so Hölzle, „ist sie durchaus zu bewältigen – nicht nur in technischer, sondern auch in wirtschaftlicher Hinsicht. Man kann sehr kostengünstige Hardware einsetzen, doch muss man die richtige Software dafür haben.“
Google betreibt seine Systeme auf preiswerten, 1U- und 2U-Servern von No-Name-Anbietern – so preiswert, dass Google sie als PCs bezeichnet. Schließlich besitzt jeder dieser Server einen normalen x86 PC-Prozessor, eine normale IDE-Festplatte und normale PC-Zuverlässigkeit, was bedeutet, dass er erwartungsgemäß alle drei Jahre ausfällt.
Bei einem Heim-PC ist das für viele Leute akzeptabel (schon allein, weil sie es nicht anders gewohnt sind), doch in dem Rahmen, in dem Google arbeitet, werden diese Ausfälle zu einem wirklichen Problem: In einem Cluster mit tausend PCs kann man davon ausgehen, dass im Schnitt ein PC pro Tag ausfällt. „Bei unserer Größe kann man diese Störungen nicht manuell beseitigen“, erklärte Hölzle. „Wir haben unsere Software daher so geschrieben, dass sie stets mit einem Komponentenausfall rechnet, den wir dann einfach umgehen können. Der Erfolg ist dieser Software zu verdanken.“
Ein Schlüsselbegriff lautet Replikation. „Von einem Server, der einen bestimmten Abschnitt des Web beinhaltet, gibt es zwei oder vielleicht sogar zehn“, sagte Hölzle. „Das mag zwar teuer klingen, doch wenn man einen volumenstarken Dienst anbietet, braucht man diese Art von Replikation ohnehin. So bekommt man also Replikation und Redundanz umsonst. Wenn ein Server ausfällt, sinkt die Leistung des Diensts um 10 Prozent – also keine Ausfälle, so lange die Lastverteilung funktioniert. So wird eine Störung zu einem verwaltbaren Vorfall.“
In Wirklichkeit habe Google wahrscheinlich „fünfzig Kopien jedes einzelnen Servers“. Google repliziere Server, Server-Sets und komplette Rechenzentren, fügte Hölzle hinzu, und habe seit Februar 2000 keinen einzigen Systemkomplettausfall zu verzeichnen gehabt. Damals hatte Google nur ein Rechenzentrum; der Hauptswitch fiel aus und setzte dadurch die Suchmaschine für eine Stunde außer Betrieb. Heute spiegele das Unternehmen alles über mehrere unabhängige Rechenzentren und die Fehlertoleranz funktioniere über alle Standorte hinweg: „Wenn wir also in einem Rechenzentrum Daten verlieren, können wir woanders weiterarbeiten – und das geschieht häufiger, als man annehmen würde. Solche Dinge passieren eben und man muss mit ihnen klarkommen.“
Die Inbetriebnahme eines neuen Rechenzentrums dauert weniger als drei Tage. „Unser Rechenzentrum ist jetzt wie ein iMac“, so Schulz. „Man hat zwei Kabel, Strom und Daten. Alles, was man braucht, ist ein LKW, um die Server anzuliefern; das Einbrennen, die Installation des Betriebssystems und die Konfiguration erfolgen automatisch.“
Laut Hölzle ist es ziemlich einfach, sich beim Ausfall preiswerter Hardware zu behelfen. Wird eine Verbindung unterbrochen, bedeutet das, dass der Rechner abgestürzt ist und keine Abfragen mehr an ihn geschickt werden. Erhält eine Abfrage keine Antwort, deutet das auf ein Problem hin, und der Rechner kann aus dem Loop ausgeschlossen werden.
Damit ist das Thema Redundanz abgehakt. Wie sieht es aber mit der Skalierung aus? Das Web wächst wie auch die Anzahl der Web-Benutzer mit jedem Jahr an, und das bedeutet eine immer stärkere Beanspruchung der Google-Server.
Googles App-Entwickler-Kit dient der Tarnung des schädlichen Codes. Der Sicherheitsanbieter Jamf hält die Schadsoftware für…
Ausgeklügelte Phishing-Kampagne verwendet eine weiterentwickelte Version der Rhadamanthys-Stealer-Malware.
Die EU-Kommission kritisiert die Verknüpfung von Facebook und dem hauseigenen Online-Kleinanzeigendienst. Sie sieht darin einen…
Fast zwei Drittel halten jedoch eine Umsetzung aller Vorgaben von NIS 2 bis Jahresende für…
Mit dem Dekryptor von Bitdefender können Opfer von Attacken mit der Shrinklocker-Ransomware Dateien wiederherstellen.
In der Vorweihnachtszeit ist vor allem Malvertising auf dem Vormarsch. Cyberkriminelle locken Nutzer über schädliche…