Hvor længe holder diskdrev? Det korte svar er: Vi ved det ikke endnu, men det er længere, end du måske gætter på.
Hvorfor ved et firma, der lader mere end 25.000 diskdrev dreje rundt hele tiden, ikke, hvor længe de holder? Backblaze har leveret pålidelig og ubegrænset online backup i over fem år. I de sidste fire år har vi haft nok diske til at levere gode statistikker, men 74% 78% af de diske, vi køber, lever længere end fire år. Så selv om 26 % 22 % af drevene fejler i løbet af de første fire år, og vi har detaljerede oplysninger om fejlfrekvensen for drevene i de første fire år, ved vi endnu ikke, hvad der vil ske efter det. Så hvor længe holder drev? Læs videre.
Hvordan drev bruges hos Backblaze
Backblaze bruger masser af harddiske til lagring af data. Der er monteret 45 drev i hver Backblaze Storage Pod, og Storage Pods er monteret i racks i vores datacentre. Efterhånden som nye kunder tilmelder sig, køber vi flere diskenheder, tester dem og implementerer dem. Vi er nu oppe på 75 petabyte cloud-lagring.
Hvor de bliver implementeret, bliver hver Backblaze Storage Pod testet, herunder test af alle diskene i den. For nylig skrev Andy om Stephen, et diskdrev, der ikke bestod denne test. Andys indlæg beskriver den proces, Backblaze bruger til at opsætte, belastningsteste og implementere en Storage Pod.
Typer af harddiske i analysen
Backblaze har standardiseret på harddiske af “forbrugerkvalitet”. Mens harddiskfirmaerne siger, at disse drev ikke er designet til at fungere i RAID-arrays eller til den 24×7-arbejdsbelastning, der er i et datacentermiljø, bruger Backblaze softwareredundans til at beskytte data. I et fremtidigt blogindlæg vil vi dykke ned i statistikkerne, der sammenligner “forbruger”- og “virksomheds”-harddiske.
Langt de fleste af disse harddiske er “rå” eller “interne” harddiske. Men fordi den thailandske drevkrise gjorde det næsten umuligt at finde interne harddiske til salg til rimelige priser, begyndte Backblaze at opdrætte harddiske. Således var ca. seks petabyte af harddiskene i denne analyse oprindeligt “eksterne” harddiske, der blev “skåret” ud af deres kabinetter.
Antal harddiske
Diagrammet nedenfor viser aldersfordelingen af harddiskene i Backblazes datacentre. Formen på diagrammet afspejler for det meste virksomhedens vækst og tilføjelsen af drev i takt med, at kundebasen voksede. Samlet set er der ikke så mange drev, der fejler.
Fejlerater
Hvor vi dykker ned i dataene om fejlrater, er det værd at bruge lidt tid på at afklare, hvad en fejlrate præcist betyder. Ved første øjekast kan man måske tro, at en fejlprocent på 100 % er det værst tænkelige. Alle drev fejler! Det er dog ikke hele historien.
Forestil dig, at du har en leverandør af diskdrev, som leverer drev, der er 100 % pålidelige i seks måneder, men som derefter alle svigter på det tidspunkt. Hvad er den årlige fejlprocent? Hvis du skal have 100 drev til at køre hele tiden, skal du udskifte drevet i hver slot to gange om året. Det betyder, at du skal udskifte 200 drev hvert år, hvilket gør din årlige fejlfrekvens til 200 %. Så i det mindste i teorien er der ingen værst mulige fejlfrekvens. Hvis hvert drev gik i stykker efter en times brug, ville den årlige fejlfrekvens være 876.000 %. Heldigvis er de drev, som Backblaze får, mere pålidelige end det.
The Bathtub Curve
Pålidelighedsingeniører bruger noget, der kaldes Bathtub Curve, til at beskrive forventede fejlrater. Ideen er, at defekter kommer fra tre faktorer: (1) fabriksfejl, der resulterer i “spædbarnsdødelighed”, (2) tilfældige fejl og (3) dele, der slides, hvilket resulterer i fejl efter megen brug. Nedenstående diagram (tilpasset fra Wikimedia Commons) viser, hvordan disse tre faktorer kan forventes at give en badekarformet fejlfrekvenskurve.
Theorien stemmer overens med den virkelighed, som Backblaze oplever. Diagrammet nedenfor viser fejlfrekvensen for drev i hvert kvartal af deres levetid. I de første 18 måneder svæver fejlfrekvensen omkring 5 %, derefter falder den i et stykke tid, og derefter stiger den betydeligt omkring de tre år. Vi ser ikke så meget “børnedødelighed”, men det ser ud til, at tre år er det punkt, hvor drev begynder at blive slidt op.
Beregning af forventet levetid
Hvad er den forventede levetid for en harddisk? For at besvare det spørgsmål skal vi først beslutte, hvad vi mener med “forventet levetid”.
Når man måler den forventede levetid for mennesker, er det sædvanlige mål det gennemsnitlige antal år, der er tilbage ved en given alder. Så når vi siger, at den forventede levetid for nyfødte i verden i 2010 er 67,2 år, siger vi, at hvis vi venter, til alle disse nye mennesker har levet deres liv ud i 120 eller 130 år, vil gennemsnittet af deres levetid være 67,2.
For diskdrev kan det være, at de alle bliver slidt op, inden de bliver 10 år gamle. Eller det kan være, at nogle af dem holder 20 eller 30 år. Hvis nogle af dem lever i meget, meget lang tid, gør det det svært at beregne gennemsnittet. Desuden kan nogle få outliers forvrænge gennemsnittet og gøre det mindre brugbart.
Det tal, som vi snart vil kunne beregne, og som med større sandsynlighed vil være brugbart, er medianlevetiden for et nyt drev. Med andre ord, i hvilken alder er halvdelen af drevene gået i stykker? Vi er begyndt at få en idé om, hvad svaret vil være.
Diskdrevsoverlevelsesrater
På internettet er det overraskende svært at få et svar på spørgsmålet “Hvor længe holder en harddisk?”. Det, du finder, er for det meste anekdotiske historier eller måske henvisninger til Googles og CMU’s undersøgelser, som begge ikke rigtig besvarer spørgsmålet.
De anekdoter, du får, giver dig ikke nogen brugbare oplysninger:
- Fra tomshardware.com: “Jeg har haft drev, der ankommer DOA, nogle dør efter en dag, og nogle, der har holdt i 10 år. Der er bare ingen måde at sige, hvor længe en disk vil leve.”
- Fra CNET: “Jeg ved ikke med 5 år. Min WD døde efter 2 år.”
- I de første halvandet år fejler drevene med 5,1 % om året.
- I de næste halvandet år fejler drevene MINDRE, nemlig ca. 1,4 % om året.
- Efter tre år skyder fejlprocenten dog i vejret til 11,8 % om året.
Google’s undersøgelse har nogle interessante oplysninger om fejlfrekvenserne. De fandt ud af, at temperaturen ikke betyder så meget, som du måske tror, og at SMART-kontrollerne af et drev ikke er særlig gode til at forudsige drevfejl.
CMU’s undersøgelse fandt ud af, at producenternes gennemsnitlige tid mellem fejl (MTBF) er overdrevet. Drevene fejler meget mere, end MTBF-angivelsen antyder.
Diagrammet nedenfor viser procentdelen af drev hos Backblaze, der stadig er i live i forskellige aldre:
De fleste drev lever stadig
Diagrammet ovenfor kan være misvisende. Ved et første øjekast ser det ud til, at de fleste drev allerede er døde, og at alle er på vej til at dø inden for det næste år. Men hvis du omtegner diagrammet med bunden ved 0, kan du se, at næsten 80 % af alle de drev, som Backblaze nogensinde har købt, stadig er i drift!
Hvor længe holder harddiske?
Hvad sker der med drev, når de er ældre end fem år? Hverken Google eller CMU-holdet fremlagde nogen data om drev, der er ældre end fem år, selv om CMU-papiret har en fristende kommentar i sin konklusion, hvori det hævdes, at fejlfrekvensen stiger efter fem år. Der gives dog ikke noget grundlag for den påstand.
Vi har hos Backblaze været oppe og køre i fem år, og alle de drev, vi installerer, er nye drev, så vi har heller ikke data for drev, der er ældre end det. Vi glæder os til at finde ud af, hvad der vil ske, når drev bliver fem, seks, syv og otte år gamle.
Hvis du ekstrapolerer linjen fra det foregående diagram for at estimere det tidspunkt, hvor halvdelen af drevene er døde, får du en forudsigelse:
Medianlevetiden for et drev vil være over seks år.
Da Backblaze startede, var der en vis bekymring for, at diskdrev i forbrugerkvalitet ikke ville kunne holde til at blive brugt i et datacenter. Hvis denne medianlevetid på seks år er sand, betyder det, at mere end halvdelen af diskene vil holde i seks år, og disse bekymringer var ubegrundede. Vi har til hensigt at fortsætte med at opdatere disse statistikker hvert kvartal. I løbet af de næste par år vil vi således have hårde data om medianlevetiden for harddiske. Hold dig opdateret på bloggen for at finde svarene.
14. november: Opdatering
Min fejl: På grund af en transkriptionsfejl var procenterne i andet afsnit forkerte og var mere pessimistiske end nødvendigt. 78 % (ikke 74 %) af drevene er stadig i live efter fire år. Fremskrivningen af en medianlevetid på seks år er ikke påvirket af denne ændring. Tak til den skarpsindige Frederic for at have opdaget fejlen.-Brian