Bianca Schroeder von der Universität Toronto hat gemeinsam mit den Google-Mitarbeitern Eduardo Pinheiro und Wolf-Dietrich Weber eine über zweieinhalb Jahre angelegt Studie zu den Fehlerraten von DRAM durchgeführt (PDF). Grundlage waren zehntausende von Google-Servern. Das Ergebnis: Im Durchschnitt traten 3,751 korrigierbare Fehler pro DIMM pro Jahr auf. Das klingt nicht nach viel, ist aber zwischen hundert- und tausendmal mehr als bisher angenommen.
Schroeder, Pinheiro und Weber haben mit ihrer Arbeit die erste breit angelegte Untersuchung von RAM-Fehlern in der Praxis vorgelegt. Ausgewertet haben sie Speicher unterschiedlicher Hersteller, Dichte und Bauart, einschließlich DDR1, DDR2 und FB-DIMM. Die untersuchten Google-Server nutzen in der Regel Speicher mit Error Correction Code (ECC), wodurch einfache Bitfehler automatisch korrigiert werden und mehrfache Bitfehler eine Meldung auslösen.
Bei kleineren Servern, Notebooks oder Desktops wird EEC aufgrund der deutlich höheren Kosten kaum verbaut. Es könnte also gut sein, dass Anwender mit Bitfehlern zu kämpfen haben, das aber nicht einmal wissen, weil es das von ihnen benutzte System auch nicht weiß.
Das ist so lange nicht dramatisch, bis die fehlerhaften Daten zu einer falschen Speicherzuweisung, einem falschen Wert oder einem verkehrten Bit beim Schreiben auf die Platte führen. Dann macht sich das Problem entweder mit Meldungen wie „file not found“ oder „file not readable“ bemerkbar. Möglich sind auch die nicht festzustellende Korrumpierung der Daten oder ein unerklärlicher Systemabsturz. Auf den Hinweis „memory error“, der die wahre Ursache aufdecken würde, wartet der Anwender aber vergeblich.
Bisher wurde diese Fehlerquelle für vernachlässigbar gehalten. Die Branche war sich darin einig, dass sogenannte Hard Errors ausgesprochen selten seien. Man machte sich eher Gedanken über die „häufiger“ auftretenden Soft Errors.
IBM etwa gibt bisher an, dass bei einem konstanten Serverbetrieb auf Meereshöhe solch ein Fehler bei einem 128-MByte-PC100-SDRAM-Modul im Durchschnitt einmal im Monat vorkomme. Micron erklärt sogar, es sei lediglich einmal in sechs Monaten mit solch einem Fehler zu rechnen. Die neue Studie zeigt jedoch, dass Hardware- und nicht Softwarefehler die häufigste Fehlerursache sind – und wirft damit die Lehrmeinung über den Haufen.
Ein weiteres Ergebnis der Studie ist, dass die Fehlerrate nicht in erster Linie vom DIMM-Typ oder dem Hersteller abhängt, sondern vom Motherboard. Daraus lässt sich schließen, dass beim Design einiger gängiger Mainboards in Bezug auf elektromagnetische Interferenzen geschlampt wurde – etwa, indem eine Leiterbahn zu nahe an einer störenden Komponente vorbeiführt.
Die Untersuchung hat jedoch auch einige positive Ergebnisse gebracht:
Nachdenklich stimmen dürften die Ergebnisse Betreiber von Servern mit großem Speicher, etwa für In-Memory-Datenbanken. Und nachdenklich stimmen sollten sie auch die Unternehmen, die sich bisher auf die Aussagen der Industrie verlassen haben, dass DRAM zuverlässig arbeitet.
Schließlich müssten den großen Systemanbietern eine Unmenge von Daten über Ausfallraten und Support-Anrufe vorliegen, sei es nun hinsichtlich Laufwerken, DRAM, Netzwerkkarten, Betriebssystemen oder Dateisystemen. Keiner hielt es aber bisher für notwendig, die Öffentlichkeit darüber zu informieren – und wenn, dann höchstens zu Marketingzwecken. Hut ab also vor Google, das diese wissenschaftlich ermittelten Daten in einem Maßstab zugänglich gemacht hat, der valide Aussagen zulässt und mit dem nicht viele dienen können.
ZDNet-Autor Robin Harris, stolzer Besitzer eines mit EEC-DIMMS vollgestopften Apple-Rechners, war übrigens nicht wenig erstaunt, als er nach Lektüre der Studie den Memory-Bereich in „About this Mac“ prüfte und entdeckte, dass eines der sechs verbauten 2-GByte-DIMMs korrigierbare Memoryfehler meldete. Er prüft jetzt im Selbstversuch, ob die Garantiebestimmungen eingehalten werden.
Bankhaus Metzler und Telekom-Tochter MMS testen, inwieweit Bitcoin-Miner das deutsche Stromnetz stabilisieren könnten.
Mit 1,7 Exaflops ist El Capitan nun der dritte Exascale-Supercomputer weltweit. Deutschland stellt erneut den…
Der deutsche Hyperscaler erweitert sein Server-Portfolio um vier Angebote mit den neuen AMD EPYC 4004…
Beim Online-Gaming kommt es nicht nur auf das eigene Können an. Auch die technischen Voraussetzungen…
Fast jedes zweite Unternehmen bietet keinerlei Schulungen an. In den übrigen Betrieben profitieren oft nur…
Huawei stellt auf der Connect Europe 2024 in Paris mit Xinghe Intelligent Network eine erweiterte…