Google Cloud wegen „menschlichem Versagen“ ausgefallen

Ein Mitarbeiter band eine Ressource von Hand ein. Sie war aber schon vorhanden, schien daher mehr Kapazität aufzuweisen als tatsächlich der Fall und war nach vier Minuten überlastet. Die Systeme standen insgesamt für manche Kunden 70 Minuten lang nicht zur Verfügung.

Menschliches Versagen war der Grund für einen Ausfall der Google-Cloud am Montag vor einer Woche. Ein Ingenieur hatte einen Peering-Link von Hand hinzugefügt, wodurch das System für die automatische Kontrolle solcher Links umgangen wurde.

(Bild: Google)Das Problem betraf die Region europe-west1 der Google Compute Engine und währte etwa 70 Minuten. Manche Kunden konnten nicht auf Cloud-Ressourcen zugreifen – besonders aber Anwender in Osteuropa und dem Nahen Osten.

Das Problem trat begrenzt auf, betraf also etwa keine Instanzen in anderen europäischen Google-Rechenzentren. Auch Datenverkehr innerhalb von Googles Netz funktionierte wie vorgesehen.

Der fehlerhafte Link verwies auf eine weltweit bereits vorhandene Netzwerkressource. Aufgrund der manuellen Einbindung schien dort mehr Kapazität vorhanden als tatsächlich der Fall. Das Cloud-System versuchte, diese Kapazitäten zu nutzen, und schon nach vier Minuten war es überlastet. Zugriffe über diese Verknüpfung funktionierten nicht mehr.

Die Einbindung erfolgte manuell, da das automatische Standard-Verfahren ausgefallen war. Beide Vorfälle standen sonst in keinem Zusammenhang, betont Google. Genau dieses automatische Verfahren soll aber Probleme wie das letztlich aufgetretene verhindern.

Ebenfalls aufgrund des Problems mit der Automatisierung wurde der Ausfall 61 Minuten lang nicht bemerkt. Normalerweise führt die Google-Cloud eine Stunde lang automatisch Tests durch, um die Verfügbarkeit neu eingebundener Systeme sicherzustellen. So erkannte man den Fehler erst, als nach Ablauf dieser Stunde das Standard-Monitoring-System übernahm.

Um eine Wiederholung zu vermeiden, deaktiviert Google ab sofort jede manuelle Einbindung von Ressourcen. Eine solche Verlinkung kann nur noch erfolgen, wenn die Automatisierungssysteme zur Verfügung stehen.

ANZEIGE

MobileIron: Sichere Verwaltung von Android-Geräten

In vielen Unternehmen nutzen Mitarbeiter ihre privaten mobilen Geräte. Unternehmen, die dieser Szenario erlauben, sollten sich Gedanken über eine leistungsfähige Enterprise Mobility Management Suite machen. Nur damit lassen sich Unternehmensdaten gegen nicht autorisierten Zugriff absichern.

Im August 2015 hatte Googles Compute Engine Kundendaten aufgrund von Blitzeinschlägen verloren. Betroffen war das belgische Rechenzentrum europe-west1b.

Um den Standort Belgien zu entlasten, baut Google derzeit ein weiteres Rechenzentrum in der niederländischen Hafenstadt Eemshaven an der Emsmündung in der Provinz Groningen. Es kostet 600 Millionen Dollar und soll 2016 fertig werden. Außerdem unterhält Google europäische Rechenzentren in Dublin (Irland) und Hamina (Finnland), die aber nicht für Compute-Engine-Services angeboten werden.

[mit Material von David Chernicoff, ZDNet.com]

Tipp: Wie gut kennen Sie Google? Testen Sie Ihr Wissen – mit dem Quiz auf silicon.de.

Themenseiten: Ausfall, Cloud-Computing, Google

Fanden Sie diesen Artikel nützlich?
Content Loading ...
Whitepaper

Artikel empfehlen:

Neueste Kommentare 

Noch keine Kommentare zu Google Cloud wegen „menschlichem Versagen“ ausgefallen

Kommentar hinzufügen

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind markiert *