Der Speicherdienst Dropbox hatte am Wochenende mit Ausfällen zu kämpfen. Ursache war nicht etwa ein Hackerangriff, sondern ein fehlerhaftes Update. Ein Bug in einem Upgrade-Script führte dazu, dass eine Reihe Server, über die Datenverkehr für Fotosharing, Kamera-Uploads und einige APIs lief, versehentlich neu installiert wurde, wie das Unternehmen am Sonntag mitteilte.
„Am Freitag um 17.30 Uhr pazifischer Zeit führten wir eine geplante Wartung durch, um das Betriebssystem auf einigen Maschinen zu aktualisieren. Während dieses Prozesses läuft das Upgrade-Script, um sicherzustellen, dass keine aktiven Daten auf der Maschine sind, bevor es das neue OS installiert“, schreibt Akhil Gupta, Head of Infrastructure bei Dropbox. „Ein subtiler Fehler in dem Script führte zu dem Befehl, eine geringe Zahl aktiver Maschinen neu zu installieren. Unglücklicherweise waren davon einige Master-Slave-Paare betroffen, was im Ausfall der Site resultierte.“
Dropbox betont, dass die Daten seiner Nutzer „während des Ausfalls zu keinem Zeitpunkt gefährdet waren“. Laut Gupta konnten mittels Backups die „meisten Funktionen“ innerhalb von drei Stunden wiederhergestellt werden. Aufgrund der Größe der verwendeten MySQL-Datenbanken stünden einige Funktionen aber nach wie vor nicht zur Verfügung. Der Foto-Tab ist aktuell noch abgeschaltet. Hochgeladen Bilder lassen sich aber alternativ über den Reiter „Dateien“ einsehen.
Offenbar war Dropbox überrascht vom langen Zeitraum, den die Wiederherstellung von MySQL-Backups mit Standardwerkzeugen benötigte. Aus diesem Grund habe man ein Tool entwickelt, das die Wiederherstellung durch Parallelisierung des Wiederaufspielens der Binärprotokolle beschleunigt. Das Unternehmen will dieses Tool als Open Source anbieten.
Um zu verhindern, dass ein Update-Script aktive Maschinen in Dropbox‘ Datenbankinfrastruktur neu installiert, ignorieren aktive Maschinen solche Befehle künftig. „In den vergangenen Jahren ist unsere Infrastruktur rapide gewachsen, um Hunderte Millionen Nutzer zu unterstützen. Wir rüsten unsere Maschinen regelmäßig auf und nutzen sie zu anderen Zwecken. Wenn wir das tun, führen wir Scripts aus, die ferngesteuert den Status jeder einzelnen Maschine überprüfen“, erläutert Gupta. „Seit dem jüngsten Vorfall haben wir eine zusätzliche Prüfebene eingefügt, sodass Maschinen ihren Status lokal verifizieren, bevor sie eingehende Befehle ausführen. Das ermöglicht Maschinen, auf denen nach eigener Analyse kritische Prozesse laufen, möglicherweise zerstörerische Operationen abzulehnen.“
[mit Matrial von Chris Duckett, ZDNet.com]
Neueste Kommentare
Noch keine Kommentare zu Fehlerhaftes Update sorgt für Ausfall von Dropbox
Kommentar hinzufügenVielen Dank für Ihren Kommentar.
Ihr Kommentar wurde gespeichert und wartet auf Moderation.