Categories: CloudIAAS

Google erklärt weltweiten Ausfall von Compute Engine

Zwei Fehler in der Netzwerk-Management-Software von Google Compute Engine (GCE) haben am Montag für einen weltweiten Ausfall gesorgt. Er dauerte zwar nur 18 Minuten, betraf aber alle weltweiten Regionen von Googles Infrastructure-as-a-Service-Angebot mit seinen virtuellen Servern für Unternehmen und App-Entwickler.

Zahlende Kunden von Compute Engine rechnen eigentlich damit, dass Googles Rechenzentren in verschiedenen Regionen für eine gewisse Ausfallsicherheit sorgen. Benjamin Treynor Sloss, bei Google als Vice President 24×7 für Uptime-Sicherheit zuständig, lieferte deshalb eine besonders ausführliche Erklärung für die kaskadierenden Probleme.

„Wir nehmen alle Ausfälle ernst“, schrieb er. „Aber wir sind besonders besorgt bei Ausfällen, die mehrere Regionen gleichzeitig betreffen, weil es schwierig für unsere Kunden ist, die Folgen solcher Ausfälle abzuschwächen. Dieser Störungsbericht ist sowohl länger als auch detaillierter als üblich, weil wir das Geschehen am 11. April für so bedeutsam einschätzen. Wir wollen, dass Sie verstehen, warum es passiert ist, und was wir nun zu tun gedenken.“

Im wesentlichen war es ein Routing-Problem, das alle GCE-Instanzen in allen Regionen außer Gefecht setzte, außerdem abhängige VPNs und L3-Network-Load-Balancer. Eigentlich betraf der Ausfall nicht die Google Cloud Platform (GCP) selbst, traf jedoch die GCP-Anwendungen. Betroffenen Kunden sicherte Google entsprechende Service-Guthaben zu.

Wie es Sloss beschreibt, lösten letztlich zwei Bugs in der Netzwerk-Management-Software eine Kette von Problemen aus. Ein paar Stunden vor dem Ausfall hatten Googles Entwickler einen unbenutzten GCE-IP-Block aus der Netzwerkkonfiguration genommen, was für sich genommen eine harmlose Änderung gewesen wäre. Die IP-Blöcke erlauben Systemen außerhalb von Googles Netzwerk, GCP-Services zu finden.

WEBINAR

HPE Server der Generation 10 - Die sichersten Industrie-Standard-Server der Welt

Die neuen HPE-Server der Generation 10 bieten einen erweiterten Schutz vor Cyberangriffen. Erfahren Sie in unserem Webinar, warum HPE-Server die sichersten Industrie-Standard-Server der Welt sind und wie Sie ihr Unternehmen zu mehr Agilität verhelfen. Jetzt registrieren und Aufzeichnung ansehen.

Die Entwickler versuchten die neue Konfiguration durchzusetzen, während ihre Software diese jedoch als problematisch aufgrund einer unklaren Timing-Vorgabe für die IP-Block-Entfernung erkannte. Aufgrund des Bugs in der Verwaltungssoftware kehrte diese jedoch nicht zu einer bekannten und sicheren Konfiguration zurück, sondern entfernte alle GCE-IP-Blöcke aus der Konfiguration. Aufgrund eines weiteren Bugs kam nun eine zweite Sicherung nicht zum Zug, die eine neue Konfiguration auf eine Site beschränken sollte, bis sie sich als sicher genug für einen breiteren Rollout bewiesen hatte.

Die Folge war, dass der Traffic aus dem Internet zu GCE rapide einbrach – bis zu einem Verlust von über 95 Prozent. Google gab eine Warnung über „ernsthafte Probleme mit der Netzwerkkonnektivität in allen Regionen“ heraus. Google „Uptime-Zar“ Sloss sagte den Kunden zu, dass die Entwickler in den nächsten Wochen an weiteren Systemen für Prävention, Erkennung und Risikobegrenzung arbeiten werden, um ähnliche Ausfälle zu vermeiden.

[mit Material von Liam Tung, ZDNet.com]

ZDNet.de Redaktion

Recent Posts

Studie: Ein Drittel aller E-Mails an Unternehmen sind unerwünscht

Der Cybersecurity Report von Hornetsecurity stuft 2,3 Prozent der Inhalte gar als bösartig ein. Die…

2 Tagen ago

HubPhish: Phishing-Kampagne zielt auf europäische Unternehmen

Die Hintermänner haben es auf Zugangsdaten zu Microsoft Azure abgesehen. Die Kampagne ist bis mindestens…

2 Tagen ago

1. Januar 2025: Umstieg auf E-Rechnung im B2B-Geschäftsverkehr

Cloud-Plattform für elektronische Beschaffungsprozesse mit automatisierter Abwicklung elektronischer Rechnungen.

3 Tagen ago

Google schließt schwerwiegende Sicherheitslücken in Chrome 131

Mindestens eine Schwachstelle erlaubt eine Remotecodeausführung. Dem Entdecker zahlt Google eine besonders hohe Belohnung von…

3 Tagen ago

Erreichbarkeit im Weihnachtsurlaub weiterhin hoch

Nur rund die Hälfte schaltet während der Feiertage komplett vom Job ab. Die anderen sind…

3 Tagen ago

Hacker missbrauchen Google Calendar zum Angriff auf Postfächer

Security-Experten von Check Point sind einer neuen Angriffsart auf die Spur gekommen, die E-Mail-Schutzmaßnahmen umgehen…

4 Tagen ago