Wie lange halten Festplattenlaufwerke? Die kurze Antwort lautet: Wir wissen es noch nicht, aber es ist länger, als Sie vielleicht vermuten.
Warum weiß ein Unternehmen, das mehr als 25.000 Festplattenlaufwerke ständig am Laufen hält, nicht, wie lange sie halten? Backblaze bietet seit über fünf Jahren zuverlässige und unbegrenzte Online-Backups an. In den letzten vier Jahren hatten wir genügend Laufwerke, um eine gute Statistik zu erstellen, aber 74 % – 78 % der von uns gekauften Laufwerke halten länger als vier Jahre. Während also 26 % bis 22 % der Laufwerke in den ersten vier Jahren ausfallen und wir detaillierte Informationen über die Ausfallraten von Laufwerken in den ersten vier Jahren haben, wissen wir noch nicht, was danach passiert. Wie lange halten Festplatten also? Lesen Sie weiter.
Wie Festplatten bei Backblaze verwendet werden
Backblaze verwendet viele Festplatten zum Speichern von Daten. In jedem Backblaze Storage Pod sind 45 Laufwerke eingebaut, und die Storage Pods sind in Racks in unseren Rechenzentren untergebracht. Wenn sich neue Kunden anmelden, kaufen wir weitere Festplatten, testen sie und stellen sie bereit. Wir sind jetzt bei 75 Petabyte Cloud-Speicher angelangt.
Vor der Bereitstellung wird jeder Backblaze Storage Pod getestet, einschließlich Tests aller darin enthaltenen Laufwerke. Kürzlich hat Andy über Stephen gepostet, ein Laufwerk, das diese Tests nicht bestanden hat. Andys Beitrag beschreibt den Prozess, den Backblaze für die Einrichtung, den Lasttest und die Bereitstellung eines Storage Pods verwendet.
Festplattentypen in der Analyse
Backblaze hat sich auf Festplatten der „Verbraucherklasse“ festgelegt. Während die Festplattenhersteller sagen, dass diese Laufwerke nicht für RAID-Arrays oder die 24×7-Arbeitslast einer Rechenzentrumsumgebung ausgelegt sind, verwendet Backblaze Software-Redundanz zum Schutz der Daten. In einem zukünftigen Blog-Beitrag werden wir uns mit den Statistiken befassen, in denen „Consumer“- und „Enterprise“-Festplatten verglichen werden.
Bei weitem sind die meisten dieser Festplatten „rohe“ oder „interne“ Festplatten. Da die thailändische Festplattenkrise es jedoch fast unmöglich machte, interne Festplatten zu vernünftigen Preisen zu finden, begann Backblaze, Festplatten zu farmen. So waren etwa sechs Petabyte der Laufwerke in dieser Analyse ursprünglich „externe“ Festplatten, die aus ihren Gehäusen „herausgenommen“ wurden.
Anzahl der Festplatten
Das nachstehende Diagramm zeigt die Altersverteilung der Laufwerke in den Datenzentren von Backblaze. Die Form des Diagramms spiegelt vor allem das Wachstum des Unternehmens und die Hinzufügung von Laufwerken im Zuge der Erweiterung des Kundenstamms wider. Insgesamt fallen nicht sehr viele Laufwerke aus.
Ausfallraten
Bevor wir uns mit den Daten zu den Ausfallraten beschäftigen, sollten wir kurz klären, was genau eine Ausfallrate bedeutet. Auf den ersten Blick könnte man meinen, dass eine Ausfallrate von 100 % das Schlimmste ist, was möglich ist. Jedes Laufwerk fällt aus! Das ist aber nicht die ganze Geschichte.
Stellen Sie sich vor, Sie haben einen Festplattenlieferanten, der Ihnen Laufwerke liefert, die sechs Monate lang zu 100 % zuverlässig sind, dann aber alle ausfallen. Wie hoch ist die jährliche Ausfallrate? Wenn Sie 100 Laufwerke ständig in Betrieb halten müssen, müssen Sie das Laufwerk in jedem Steckplatz zweimal pro Jahr ersetzen. Das bedeutet, dass Sie jedes Jahr 200 Laufwerke austauschen müssen, was die jährliche Ausfallrate auf 200 % erhöht. Es gibt also, zumindest theoretisch, keine schlechtestmögliche Ausfallrate. Wenn jedes Laufwerk nach einer Stunde Betrieb ausfallen würde, läge die jährliche Ausfallrate bei 876.000 %. Glücklicherweise sind die Laufwerke, die Backblaze erhält, zuverlässiger als das.
Die Bathtub Curve
Zuverlässigkeitsingenieure verwenden die so genannte Bathtub Curve, um die erwarteten Ausfallraten zu beschreiben. Die Idee ist, dass Defekte von drei Faktoren herrühren: (1) Fabrikfehler, die zu einer „Kindersterblichkeit“ führen, (2) zufällige Ausfälle und (3) Teile, die sich abnutzen, was zu Ausfällen nach längerem Gebrauch führt. Das nachstehende Diagramm (übernommen von Wikimedia Commons) zeigt, wie diese drei Faktoren zu einer wannenförmigen Ausfallratenkurve führen.
Die Theorie entspricht der Realität, die Backblaze erlebt. Das folgende Diagramm zeigt die Ausfallrate von Laufwerken in jedem Quartal ihrer Lebensdauer. In den ersten 18 Monaten liegt die Ausfallrate bei etwa 5 %, dann sinkt sie für eine Weile und steigt nach etwa drei Jahren wieder deutlich an. Die „Kindersterblichkeit“ ist nicht so hoch, aber es sieht so aus, als ob drei Jahre der Punkt sind, an dem die Laufwerke anfangen zu verschleißen.
Berechnung der Lebenserwartung
Wie hoch ist die Lebenserwartung eines Festplattenlaufwerks? Um diese Frage zu beantworten, müssen wir zunächst klären, was wir mit „Lebenserwartung“ meinen.
Wenn wir die Lebenserwartung von Menschen messen, ist das übliche Maß die durchschnittliche Anzahl der Jahre, die ihnen in einem bestimmten Alter noch bleiben. Wenn wir also sagen, dass die Lebenserwartung von Neugeborenen in der Welt im Jahr 2010 67,2 Jahre beträgt, sagen wir damit, dass, wenn wir warten, bis alle diese neuen Menschen ihr Leben in 120 oder 130 Jahren gelebt haben, der Durchschnitt ihrer Lebenserwartung 67,2 Jahre betragen wird.
Bei Festplattenlaufwerken kann es sein, dass sie alle verschlissen sind, bevor sie 10 Jahre alt sind. Es kann aber auch sein, dass einige von ihnen 20 oder 30 Jahre halten. Wenn einige von ihnen sehr lange leben, wird es schwierig, den Durchschnitt zu berechnen. Außerdem können ein paar Ausreißer den Durchschnitt verfälschen und ihn weniger nützlich machen.
Die Zahl, die wir bald berechnen können und die wahrscheinlich nützlicher ist, ist die mittlere Lebensdauer eines neuen Laufwerks. Mit anderen Worten: In welchem Alter ist die Hälfte der Laufwerke ausgefallen? Wir beginnen, eine Vorstellung davon zu bekommen, wie die Antwort lauten wird.
Überlebensraten von Festplatten
Im Internet ist es überraschend schwer, eine Antwort auf die Frage „Wie lange hält eine Festplatte?“ zu finden. Was man findet, sind meist anekdotische Geschichten oder vielleicht Verweise auf die Studien von Google und der CMU, die beide die Frage nicht wirklich beantworten.
Die Anekdoten, die man findet, geben einem keine nützlichen Informationen:
- Aus tomshardware.com: „Festplatten sind mechanisch und werden daher irgendwann ausfallen… Ich hatte Laufwerke, die DOA ankamen, einige starben nach einem Tag, und einige, die 10 Jahre gehalten haben. Es gibt einfach keine Möglichkeit zu sagen, wie lange eine Festplatte leben wird.“
- Von CNET: „Ich weiß nicht, wie es mit 5 Jahren aussieht. Mein WD ist nach 2 Jahren gestorben.“
Die Studie von Google enthält einige interessante Informationen über Ausfallraten. Sie fand heraus, dass die Temperatur keine so große Rolle spielt, wie man meinen könnte, und dass die SMART-Prüfungen eines Laufwerks nicht sehr gut geeignet sind, um den Ausfall eines Laufwerks vorherzusagen.
Die Studie der CMU fand heraus, dass die Angaben der Hersteller zur mittleren Betriebsdauer zwischen zwei Ausfällen (MTBF) übertrieben sind. Laufwerke fallen viel häufiger aus, als die MTBF-Angaben vermuten lassen.
Das folgende Diagramm zeigt den prozentualen Anteil der Laufwerke bei Backblaze, die in verschiedenen Altersstufen noch am Leben sind:
- In den ersten eineinhalb Jahren fallen Laufwerke mit 5,1 % pro Jahr aus.
- In den nächsten eineinhalb Jahren fallen die Laufwerke mit etwa 1,4 % pro Jahr WENIGER aus.
- Nach drei Jahren jedoch schießen die Ausfallraten auf 11,8 % pro Jahr in die Höhe.
Die meisten Laufwerke sind noch am Leben
Das obige Diagramm könnte irreführend sein. Auf den ersten Blick sieht es so aus, als ob die meisten Laufwerke bereits tot sind und alle innerhalb des nächsten Jahres sterben werden. Wenn Sie das Diagramm jedoch mit dem unteren Rand bei 0 neu zeichnen, können Sie sehen, dass fast 80 % aller Laufwerke, die Backblaze jemals gekauft hat, noch in Betrieb sind!
Wie lange werden die Festplatten halten?
Was passiert mit den Laufwerken, wenn sie älter als fünf Jahre sind? Weder Google noch das CMU-Team haben Daten über Festplatten vorgelegt, die älter als fünf Jahre sind, obwohl das CMU-Papier in seiner Schlussfolgerung eine verlockende Bemerkung enthält, die behauptet, dass die Ausfallraten nach fünf Jahren ansteigen. Für diese Behauptung gibt es jedoch keine Grundlage.
Backblaze ist seit fünf Jahren in Betrieb, und alle von uns installierten Laufwerke sind neue Laufwerke, so dass wir auch keine Daten für ältere Laufwerke haben. Wir sind gespannt, was passiert, wenn die Laufwerke fünf, sechs, sieben und acht Jahre alt werden.
Wenn man die Linie aus dem vorherigen Diagramm extrapoliert, um den Punkt abzuschätzen, an dem die Hälfte der Laufwerke gestorben ist, erhält man eine Vorhersage:
Die durchschnittliche Lebensdauer eines Laufwerks wird über sechs Jahre betragen.
Als Backblaze anfing, gab es einige Bedenken, dass Festplattenlaufwerke der Verbraucherklasse in einem Rechenzentrum nicht standhalten würden. Wenn die durchschnittliche Lebensdauer von sechs Jahren zutrifft, bedeutet dies, dass mehr als die Hälfte der Laufwerke sechs Jahre lang halten, und diese Bedenken waren unbegründet. Wir beabsichtigen, diese Statistiken weiterhin vierteljährlich zu aktualisieren. In den nächsten Jahren werden wir also harte Daten über die durchschnittliche Lebensdauer von Festplatten erhalten. Bleiben Sie auf dem Blog dran, um die Antworten zu erfahren.
Nov 14: Update
Mein Fehler: Aufgrund eines Transkriptionsfehlers waren die Prozentzahlen im zweiten Absatz falsch und pessimistischer als nötig. 78% (nicht 74%) der Laufwerke sind nach vier Jahren noch am Leben. Die Projektion einer mittleren Lebensdauer von sechs Jahren ist von dieser Änderung nicht betroffen. Dank an den aufmerksamen Frederic, der den Fehler entdeckt hat – Brian