Categories: CloudPAAS

Google erklärt App-Engine-Ausfall mit fehlgeschlagener Automatisierung

Google hat einen Ausfall seiner Platform-as-a-Service namens App Engine am 11. August aufgeklärt und die Ergebnisse veröffentlicht. An diesem Datum war etwa ein Fünftel aller in der Region US Central gehosteten Cloud-Applikationen für fast zwei Stunden ausgefallen.

Googles Erklärung zufolge waren exakt 18 Prozent der Cloud-Apps betroffen. Für sie lag die Fehlerquote zwischen 10 und 50 Prozent, „und drei Prozent aller Anwendungen sahen Fehlerraten über 50 Prozent.“ Für Endanwender resultierte dies in reduzierter Reaktionszeit: Die Latenz erhöhte sich für 37 Prozent aller Anwendungen in der Region auf etwas unter 0,8 Sekunden pro Anfrage. Die restlichen 63 Prozent der Apps waren nicht betroffen.

Google bittet für den Ausfall erneut um Entschuldigung und hat Maßnahmen ergriffen, um eine Wiederholung zu vermeiden. Die Schuld gibt es in seinem von vorbildlicher Transparenz geprägten Bericht sich selbst: Eine routinemäßige Lastverteilung zwischen seinen Rechenzentren war fehlgeschlagen, die Apps normalerweise automatisch zwischen Standorten migriert, um einseitige Überlastung zu vermeiden.

Während die migrierten Apps in solchen Fällen normalerweise auf frisch bereitgestellten Servern neu starten, geriet am 11. August ein Software-Update für seine Router in den Weg. „Dieses Update löste einen reihenweisen Neustart der Traffic-Router aus. Dies reduzierte zeitweise die verfügbare Routerkapazität.“

Dies wiederum erwies sich als besonderes Problem manuell skalierter Anwendungen. Diese senden über die Traffic-Router eine Start-Anfrage von Server. Da die Genehmigung verzögert erfolgte, wurde der Startvorgang wieder und wieder in Angriff genommen, was die Router-CPUs überlastete – und zum Verlust einiger eingehenden Anfragen führte.

Die Kapazität sei insgesamt ausreichend gewesen, schreibt Google. Dass sich die Router nicht sofort erholten, habe aber die Zahl der Anfragen vervielfacht. Als das technische Personal die Änderungen elf Minuten später rückgängig machen wollte, gelang es nicht, die CPU-Überlastung noch auszugleichen. Traffic musste daher teilweise manuell in andere Google-Rechenzentren umverteilt werden.

ANZEIGE

So lassen sich Risiken bei der Planung eines SAP S/4HANA-Projektes vermeiden

Ziel dieses Ratgebers ist es, SAP-Nutzern, die sich mit SAP S/4HANA auseinandersetzen, Denkanstöße zu liefern, wie sie Projektrisiken bei der Planung Ihres SAP S/4HANA-Projektes vermeiden können.

Während der Wiederherstellungsmaßnahmen fiel zusätzlich ein „Konfigurationsfehler“ auf, der „ein Ungleichgewicht des Traffics in den neuen Rechenzentren verursachte.“ Die Traffic-Routing-Kapazität wurde seither erhöht und die Zeitplanung des Automatisierungsprogramms verbessert.

„Wir wissen, dass Sie sich auf unsere Infrastruktur verlassen, um wichtige Arbeitslasten auszuführen, und dass dieser Zwischenfall nicht unseren Anspruch hinsichtlich der Zuverlässigkeit genügt. Dafür bitten wir um Entschuldigung“, schreibt Google.

Es war nicht der erste Ausfall der App Engine: Im Dezember wurde einer durch einen Umzug von Google Accounts auf neue Storage-Hardware ausgelöst. Er führte offenbar auch zu einer Störung des Google-Cloud-Kunden Snapchat. Im April lösten zudem zwei Softwarefehler einen 18-minütigen Ausfall der Compute Engine aus, also des Infrastructure-as-a-Service-Angebots.

[mit Material von Liam Tung, ZDNet.com]

Tipp: Wie gut kennen Sie Google? Testen Sie Ihr Wissen – mit dem Quiz auf silicon.de.

Florian Kalenda

Seit dem Palm Vx mit Klapp-Tastatur war Florian mit keinem elektronischen Gerät mehr vollkommen zufrieden. Er nutzt derzeit privat Android, Blackberry, iOS, Ubuntu und Windows 7. Die Themen Internetpolitik und China interessieren ihn besonders.

Recent Posts

Black Friday: Vorsicht vor schädlichen QR-Codes

Bösartige QR-Codes, die per E-Mail versendet werden, eignen sich sehr gut, um Spam-Filter zu umgehen.

1 Tag ago

Black Friday: Zahl der ominösen Shopping-Websites steigt

Unsichere Websites und Phishing-Mails in Verbindung mit Black Friday können kauffreudigen Konsumenten zum Verhängnis werden.

1 Tag ago

SmokeBuster bekämpft SmokeLoader

Malware SmokeLoader wird weiterhin von Bedrohungsakteuren genutzt, um Payloads über neue C2-Infrastrukturen zu verbreiten.

2 Tagen ago

Taugen Kryptowährungen als Unterstützer der Energiewende?

Bankhaus Metzler und Telekom-Tochter MMS testen, inwieweit Bitcoin-Miner das deutsche Stromnetz stabilisieren könnten.

2 Tagen ago

Supercomputer-Ranking: El Capitan überholt Frontier und Aurora

Mit 1,7 Exaflops ist El Capitan nun der dritte Exascale-Supercomputer weltweit. Deutschland stellt erneut den…

2 Tagen ago

Ionos führt neue AMD-Prozessoren ein

Der deutsche Hyperscaler erweitert sein Server-Portfolio um vier Angebote mit den neuen AMD EPYC 4004…

2 Tagen ago