Stille Datenverluste aufspüren

Nach jahrelangem Testen verschiedener Ansätze zur Erkennung von stillen Datenfehlern (Silent Data Corruptions, SDCs) hat Meta seinen Ansatz zur Lösung des Hardware-Problems dargelegt.

Daten altern. Bit Rot oder stille Datenkorruption (Silent Data Corruption, SDC)  ist die langsame Verschlechterung der Leistung und Integrität von Daten, die auf Speichermedien gespeichert sind. Das liegt daran, dass eine Festplatte oder ein anderes Speichermedium einen sehr präzisen Stromstoß an einen sehr kleinen Bereich der Platte abgibt, der die gespeicherte Ladung verändert, um die gespeicherten Daten zu kennzeichnen.

Allerdings verlieren diese Bereiche manchmal ihre Ladung oder ändern sie automatisch. Dieses Phänomen wird als „Flipping“ bezeichnet. Sobald der Bereich auf der Festplatte umkippt, werden die Daten in diesem Bereich gelöscht, beschädigt oder unlesbar. Deshalb verlieren Videos oder Fotos auf Speichermedien nach einigen Jahren an Qualität und werden irgendwann unlesbar. Das ist für Privatleute ärgerlich, kann für Unternehmen aber zu einem echten Problem werden.

SDCs sind Datenfehler, die keine Aufzeichnungen oder Spuren in den Systemprotokollen hinterlassen. Zu den Quellen von SDCs gehören unter anderem Datenpfadabhängigkeiten, Temperaturschwankungen und das Alter des Siliziums. Da diese Datenfehler unauffällig sind, können sie innerhalb von Workloads unentdeckt bleiben und sich über mehrere Dienste ausbreiten.

Der Datenfehler kann sich auf den Arbeitsspeicher, den Speicher, das Netzwerk und die Computer-CPUs auswirken und zu Datenverlust und -beschädigung führen.

Die Meta-Ingenieure begannen vor drei Jahren mit den Tests, da es ihnen schwer fiel, SDCs zu erkennen, nachdem die Komponenten bereits in eine ihrer Produktionsrechenzentrumsflotten eingebaut worden waren.

„Wir [brauchten] neuartige Erkennungsansätze, um den Zustand von Anwendungen und die Ausfallsicherheit der Flotte zu erhalten, indem wir SDCs erkennen und in großem Umfang abmildern“, so Meta-Ingenieur Harish Dattatraya Dixit in einem Blogbeitrag.

Laut Tests hat Meta herausgefunden, dass die bevorzugte Methode zur Erkennung von SDCs sowohl Out-of-Production- als auch Ripple-Tests sind.

Out-of-Production-Tests sind eine Methode zur Erkennung von SDCs, die bei Wartungsereignissen wie Systemneustarts, Kernel-Upgrades und Host-Provisioning zum Einsatz kommen. Diese Art von Tests greift auf diese Ereignisse zurück, um längere Laufzeiten zu ermöglichen und so eine „intrusivere Art der Erkennung“ zu ermöglichen.

Beim Ripple-Testing wird eine stille Fehlererkennung in Verbindung mit aktiven Workloads durchgeführt. Dies geschieht durch Schattentests mit Arbeitslasten und durch das zeitweise Einfügen von Bitmustern mit erwarteten Ergebnissen in Flotten und Arbeitslasten, was laut Meta eine schnellere SDC-Erkennung ermöglicht als Tests außerhalb der Produktion.

Diese schnellere Art des Testens zieht sich wie ein roter Faden durch die Infrastruktur von Meta und ermöglicht Testzeiten, die bis zu 1.000 Mal kürzer sind als die Laufzeiten von Out-of-Production-Tests.

Die Meta-Ingenieure stellten jedoch fest, dass bei den Ripple-Tests nur 70 % der Beschädigungen von Flottendaten erkannt wurden, obwohl sie innerhalb von 15 Tagen aufgedeckt werden konnten. Im Vergleich dazu dauerten Out-of-Production-Tests sechs Monate, um die gleichen und andere Fehler zu entdecken.

Bei der Erläuterung dieser Vorteile und Kompromisse empfahl Dattatraya Dixit, dass Unternehmen mit einer großen Infrastruktur beide Ansätze zur Erkennung von SDCs verwenden sollten. „Wir empfehlen die Verwendung und den Einsatz beider Ansätze in einer großen Flotte“, so Dattatraya Dixit.

„Während die Erkennung von SDCs ein schwieriges Problem für große Infrastrukturen ist, haben uns jahrelange Tests gezeigt, dass [Out-of-Production] und Ripple-Tests eine neuartige Lösung für die schnellstmögliche Erkennung von SDCs im großen Maßstab bieten können.“

Als die Meta-Ingenieure beide Tests zur Erkennung von SDCs einsetzten, stellten sie fest, dass alle SDCs letztendlich erkannt werden konnten. Meta sagte, dass 70 % der SDCs nach 15 Tagen durch Ripple-Tests gefunden wurden, Out-of-Production-Tests fingen bis zu 23 % der verbleibenden SDCs in sechs Monaten auf, während die restlichen 7 % durch wiederholte Ripple-Instanzen innerhalb seiner Rechenzentrumsflotten gefunden wurden.

 

Um weitere Innovationen bei der Erkennung von SDCs voranzutreiben, hat Meta außerdem angekündigt, fünf Stipendien im Wert von jeweils rund 50.000 Dollar für akademische Einrichtungen bereitzustellen, die Forschungsvorschläge in diesem Bereich erarbeiten sollen.

Themenseiten: Datenkorruption, Meta

Fanden Sie diesen Artikel nützlich?
Content Loading ...
Whitepaper

Artikel empfehlen:

Neueste Kommentare 

Noch keine Kommentare zu Stille Datenverluste aufspüren

Kommentar hinzufügen

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind markiert *