Am 28. und 29. September waren Microsoft-Dienste weltweit von kaskadenartigen Problemen betroffen, die dazu führten, dass viele Kunden keinen Zugang zu ihren Microsoft-Anwendungen und Diensten hatten. Am 1. Oktober veröffentlichte Microsoft Post-Mortem über die Ausfälle, in dem die Geschehnisse und die nächsten Schritte beschrieben wurden, die der Hersteller plant, um diese Art von Problemen in Zukunft zu vermeiden.
Ab Montag, dem 28. September, gegen 23.30 Uhr MESZ berichteten Kunden, dass sie sich bei Anwendungen von Microsoft und Drittanbietern, die Azure Active Directory (Azure AD) zur Authentifizierung verwenden, nicht anmelden konnten. Das betraf Office 365 und andere Cloud-Dienste von Microsoft.
Diejenigen, die bereits angemeldet waren, hatten mit geringerer Wahrscheinlichkeit Probleme. Dem Bericht von Microsoft zufolge waren Benutzer in Nord- und Südamerika und Australien wahrscheinlich stärker betroffen als Benutzer in Europa und Asien.
Microsoft räumte ein, dass es ein Service-Update war, das auf einen internen Validierungstestring abzielte und einen Absturz der Azure AD-Backend-Dienste verursachte. „Ein latenter Code-Defekt im SDP-System (Safe Deployment Process) des Azure AD-Backend-Dienstes führte dazu, dass dieses direkt in unserer Produktionsumgebung eingesetzt wurde, indem es unseren normalen Validierungsprozess durchlief“, so die Aussage.
Azure AD ist so konzipiert, dass es geo-distribuiert und mit mehreren Partitionen über mehrere Datenzentren auf der ganzen Welt eingesetzt werden kann, und ist mit Isolationsgrenzen aufgebaut. Microsoft wendet normalerweise Änderungen über einen Validierungsring an, der keine Kundendaten enthält, gefolgt von vier zusätzlichen Ringen über mehrere Tage hinweg, bevor sie in die Produktion gehen.
Aber diese Woche zielte das SDP aufgrund eines Defekts nicht korrekt auf den Validierungsring ab, und alle Ringe wurden gleichzeitig abgezielt, was zu einer Verschlechterung der Dienstverfügbarkeit führte, heißt es im Bericht von Microsoft.
Das Microsoft-Engineering wusste innerhalb von fünf Minuten, dass etwas nicht in Ordnung war. In den folgenden 30 Minuten begann Microsoft Schritte zur Beschleunigung der Schadensminimierung zu unternehmen, indem einige Azure AD-Dienste skaliert wurden, um die Last zu bewältigen, sobald eine Schadensminimierung angewendet worden wäre, und bestimmte Arbeitslasten in ein Azure AD-Backup-Authentifizierungssystem umgeleitet wurden.
Leider scheiterte Microsofts automatisches Rollback an der Beschädigung von SDP-Metadaten. Daher begann das Team mit der manuellen Aktualisierung der Dienstkonfiguration unter Umgehung des SDP-Systems. Laut Microsoft war der gesamte Vorgang gegen 02.00 Uhr MESZ abgeschlossen. Microsoft sagt, „alle Dienstinstanzen mit Restauswirkungen wurden mehr als zwei Stunden danach wiederhergestellt“.
Laut Microsoft wurde der latenten Codedefekt im Azure AD-Backend-SDP-System behoben, das bestehende Rollback-System repariert und den Umfang und die Häufigkeit der Rollback-Operationsübungen erweitert. Das Team muss das SDP-System von Azure AD noch stärker schützen, um diese Art von Problemen zu verhindern. Es muss auch die Einführung des Azure AD-Backup-Authentifizierungssystems für alle wichtigen Dienste beschleunigen und Azure AD-Szenarien in die automatisierte Kommunikationspipeline einbinden, damit betroffene Kunden innerhalb von 15 Minuten nach dem Crash wissen, was vor sich geht.
In Microsofts Bericht wird ein Schlüsselproblem nicht erwähnt, das diese Woche von einer Reihe von Nutzern auf Twitter erwähnt wurde: Microsofts Admin-Dashboards für Office 365 und Azure erfordern eine Authentifizierung, um sich anzumelden und sie zu sehen. Viele Benutzer, die ausgesperrt waren, konnten die Updates, die Microsoft in den Admin-Portalen zur Verfügung stellte, nicht sehen.
Der Bericht von Microsoft erwähnt auch nicht, dass in den vergangenen Tagen Kunden in verschiedenen Regionen über Probleme mit Exchange Online und Outlook auf ihren mobilen Geräten berichtet haben. Es gab auch eine Störung in SharePoint Online, von der am 30. September einige Benutzer betroffen waren. Microsoft führte dieses Problem auf eine Situation zurück, in der Exchange ActiveSync involviert war. Es handle sich um eine kürzliche Konfigurationsaktualisierung von Komponenten, die Benutzeranfragen weiterleiten als die Ursache dieser Auswirkungen.
Am 1. Oktober verursachten Exchange und Outlook erneut Probleme für Benutzer, die hauptsächlich in Europa ansässig sind. Microsoft-Sprecher nannten eine kürzliche Konfigurationsaktualisierung als Ursache für die heutigen Probleme.
Der von zahlreichen Ländern wegen der Coronakrise eingeführte Lockdown und die damit verbundene soziale Distanzierung haben neue Rekorde im Online-Videoverkehr gebracht. Erfahren Sie in diesem Webinar, wie Sie Daten untersuchen und quantifizieren, um die Belastung von Netzwerken und CDNs einzuschätzen.
OutSystems-Studie: 62 Prozent der Befragten haben Sicherheits- und Governance-Bedenken bei Softwareentwicklung mit KI-Unterstützung.
Der Cybersecurity Report von Hornetsecurity stuft 2,3 Prozent der Inhalte gar als bösartig ein. Die…
Die Hintermänner haben es auf Zugangsdaten zu Microsoft Azure abgesehen. Die Kampagne ist bis mindestens…
Cloud-Plattform für elektronische Beschaffungsprozesse mit automatisierter Abwicklung elektronischer Rechnungen.
Mindestens eine Schwachstelle erlaubt eine Remotecodeausführung. Dem Entdecker zahlt Google eine besonders hohe Belohnung von…
Nur rund die Hälfte schaltet während der Feiertage komplett vom Job ab. Die anderen sind…