Categories: KomponentenMarketingUnternehmenWorkspace

Studie: DRAM-Fehler sind weit häufiger als bisher bekannt

Bianca Schroeder von der Universität Toronto hat gemeinsam mit den Google-Mitarbeitern Eduardo Pinheiro und Wolf-Dietrich Weber eine über zweieinhalb Jahre angelegt Studie zu den Fehlerraten von DRAM durchgeführt (PDF). Grundlage waren zehntausende von Google-Servern. Das Ergebnis: Im Durchschnitt traten 3,751 korrigierbare Fehler pro DIMM pro Jahr auf. Das klingt nicht nach viel, ist aber zwischen hundert- und tausendmal mehr als bisher angenommen.

Schroeder, Pinheiro und Weber haben mit ihrer Arbeit die erste breit angelegte Untersuchung von RAM-Fehlern in der Praxis vorgelegt. Ausgewertet haben sie Speicher unterschiedlicher Hersteller, Dichte und Bauart, einschließlich DDR1, DDR2 und FB-DIMM. Die untersuchten Google-Server nutzen in der Regel Speicher mit Error Correction Code (ECC), wodurch einfache Bitfehler automatisch korrigiert werden und mehrfache Bitfehler eine Meldung auslösen.

Bei kleineren Servern, Notebooks oder Desktops wird EEC aufgrund der deutlich höheren Kosten kaum verbaut. Es könnte also gut sein, dass Anwender mit Bitfehlern zu kämpfen haben, das aber nicht einmal wissen, weil es das von ihnen benutzte System auch nicht weiß.

Das ist so lange nicht dramatisch, bis die fehlerhaften Daten zu einer falschen Speicherzuweisung, einem falschen Wert oder einem verkehrten Bit beim Schreiben auf die Platte führen. Dann macht sich das Problem entweder mit Meldungen wie „file not found“ oder „file not readable“ bemerkbar. Möglich sind auch die nicht festzustellende Korrumpierung der Daten oder ein unerklärlicher Systemabsturz. Auf den Hinweis „memory error“, der die wahre Ursache aufdecken würde, wartet der Anwender aber vergeblich.

Bisher wurde diese Fehlerquelle für vernachlässigbar gehalten. Die Branche war sich darin einig, dass sogenannte Hard Errors ausgesprochen selten seien. Man machte sich eher Gedanken über die „häufiger“ auftretenden Soft Errors.

IBM etwa gibt bisher an, dass bei einem konstanten Serverbetrieb auf Meereshöhe solch ein Fehler bei einem 128-MByte-PC100-SDRAM-Modul im Durchschnitt einmal im Monat vorkomme. Micron erklärt sogar, es sei lediglich einmal in sechs Monaten mit solch einem Fehler zu rechnen. Die neue Studie zeigt jedoch, dass Hardware- und nicht Softwarefehler die häufigste Fehlerursache sind – und wirft damit die Lehrmeinung über den Haufen.

Ein weiteres Ergebnis der Studie ist, dass die Fehlerrate nicht in erster Linie vom DIMM-Typ oder dem Hersteller abhängt, sondern vom Motherboard. Daraus lässt sich schließen, dass beim Design einiger gängiger Mainboards in Bezug auf elektromagnetische Interferenzen geschlampt wurde – etwa, indem eine Leiterbahn zu nahe an einer störenden Komponente vorbeiführt.

Die Untersuchung hat jedoch auch einige positive Ergebnisse gebracht:

Die Temperatur spielt für Fehlerraten nur eine geringe Rolle. Das hat Google übrigens auch für Festplatten festgestellt. So gesehen gibt es also keinen Grund, es bei der Kühlung zu übertreiben.
Das Problem wird nicht schlimmer, obwohl die neueste Generation von DRAM näher an die physikalischen Grenzen geht als ihre Vorgänger.
Bei sehr intensiv genutzten Systemen treten Fehler häufiger auf, Durchschnittsnutzer müssen sich also weniger Sorgen machen.
Es wurden keine signifikanten Unterschiede zwischen DIMM-Arten (DDR1, DDR2 oder FB-DIMM) oder Anbietern festgestellt. Käufer können sich also nach dem Preis richten – zumindest bei den DIMMS mit ECC, die untersucht wurden.
Insgesamt hatten pro Jahr acht Prozent aller DIMMs Fehler. Wer weniger DIMMs nutzt, hat also auch seltener Fehler.
ECC-DIMMs kosten nicht nur mehr, sie sind auch etwas langsamer. Da die Leistungseinbuße nur zwischen drei und fünf Prozent beträgt, dürften die meisten Anwender das nicht einmal bemerken. Gamern könnte es jedoch schon auffallen.

Nachdenklich stimmen dürften die Ergebnisse Betreiber von Servern mit großem Speicher, etwa für In-Memory-Datenbanken. Und nachdenklich stimmen sollten sie auch die Unternehmen, die sich bisher auf die Aussagen der Industrie verlassen haben, dass DRAM zuverlässig arbeitet.

Schließlich müssten den großen Systemanbietern eine Unmenge von Daten über Ausfallraten und Support-Anrufe vorliegen, sei es nun hinsichtlich Laufwerken, DRAM, Netzwerkkarten, Betriebssystemen oder Dateisystemen. Keiner hielt es aber bisher für notwendig, die Öffentlichkeit darüber zu informieren – und wenn, dann höchstens zu Marketingzwecken. Hut ab also vor Google, das diese wissenschaftlich ermittelten Daten in einem Maßstab zugänglich gemacht hat, der valide Aussagen zulässt und mit dem nicht viele dienen können.

ZDNet-Autor Robin Harris, stolzer Besitzer eines mit EEC-DIMMS vollgestopften Apple-Rechners, war übrigens nicht wenig erstaunt, als er nach Lektüre der Studie den Memory-Bereich in „About this Mac“ prüfte und entdeckte, dass eines der sechs verbauten 2-GByte-DIMMs korrigierbare Memoryfehler meldete. Er prüft jetzt im Selbstversuch, ob die Garantiebestimmungen eingehalten werden.

Die harten Fakten der Studie „DRAM Errors in the Wild: A Large-Scale Field Study“ von Bianca Schroeder, Eduardo Pinheiro und Wolf-Dietrich Weber im Überblick.

ZDNet.de Redaktion

NextSteve Ballmer stellt Windows 7 in München vor »

Previous « Kellner in Hollywood wegen Twittern gefeuert

Published by

ZDNet.de Redaktion

Tags: ChipsätzeIT-BusinessStudieTechnologien

15 Jahren ago

Digitalisierung

Erreichbarkeit im Weihnachtsurlaub weiterhin hoch

Nur rund die Hälfte schaltet während der Feiertage komplett vom Job ab. Die anderen sind…

4 Tagen ago

Hacker missbrauchen Google Calendar zum Angriff auf Postfächer

Security-Experten von Check Point sind einer neuen Angriffsart auf die Spur gekommen, die E-Mail-Schutzmaßnahmen umgehen…

5 Tagen ago

Studie: DRAM-Fehler sind weit häufiger als bisher bekannt

Recent Posts

Studie: Ein Drittel aller E-Mails an Unternehmen sind unerwünscht

HubPhish: Phishing-Kampagne zielt auf europäische Unternehmen

1. Januar 2025: Umstieg auf E-Rechnung im B2B-Geschäftsverkehr

Google schließt schwerwiegende Sicherheitslücken in Chrome 131

Erreichbarkeit im Weihnachtsurlaub weiterhin hoch

Hacker missbrauchen Google Calendar zum Angriff auf Postfächer

Studie: DRAM-Fehler sind weit häufiger als bisher bekannt

Related Post

Recent Posts

Studie: Ein Drittel aller E-Mails an Unternehmen sind unerwünscht

HubPhish: Phishing-Kampagne zielt auf europäische Unternehmen

1. Januar 2025: Umstieg auf E-Rechnung im B2B-Geschäftsverkehr

Google schließt schwerwiegende Sicherheitslücken in Chrome 131

Erreichbarkeit im Weihnachtsurlaub weiterhin hoch

Hacker missbrauchen Google Calendar zum Angriff auf Postfächer