Hoe lang gaan diskdrives mee? Het korte antwoord luidt: Dat weten we nog niet, maar het is langer dan u zou denken.
Waarom weet een bedrijf dat meer dan 25.000 schijven continu laat draaien niet hoe lang ze meegaan? Backblaze biedt al meer dan vijf jaar betrouwbare en onbeperkte online back-up. In de afgelopen vier jaar hebben we genoeg schijven gehad om goede statistieken te kunnen leveren, maar 74% 78% van de schijven die we kopen gaan langer mee dan vier jaar. Dus terwijl 26% 22% van de schijven het in de eerste vier jaar begeeft, en we gedetailleerde informatie hebben over de uitvalpercentages van schijven in de eerste vier jaar, weten we nog niet wat er daarna gebeurt. Dus hoe lang gaan schijven mee? Blijf lezen.
Hoe schijven worden gebruikt bij Backblaze
Backblaze gebruikt veel harde schijven voor het opslaan van gegevens. 45 schijven zijn gemonteerd in elke Backblaze Storage Pod, en de Storage Pods zijn gemonteerd in rekken in onze datacenters. Wanneer nieuwe klanten zich aanmelden, kopen we meer schijven, testen we ze en implementeren we ze. We hebben nu 75 petabytes aan cloud-opslag.
Voordat elke Backblaze Storage Pod wordt ingezet, wordt hij getest, inclusief tests op alle schijven erin. Onlangs postte Andy over Stephen, een schijfstation dat niet slaagde voor deze tests. Andy’s post beschrijft het proces dat Backblaze gebruikt om een Storage Pod op te zetten, te testen en in te zetten.
Typen harde schijven in de analyse
Backblaze heeft gestandaardiseerd op harde schijven van “consumentenklasse”. Hoewel hardeschijffabrikanten zeggen dat deze schijven niet zijn ontworpen voor RAID-arrays of de 24×7 werkbelasting van een datacenteromgeving, gebruikt Backblaze software-redundantie om gegevens te beschermen. In een toekomstige blogpost zullen we dieper ingaan op de statistieken die “consumenten” en “enterprise” harde schijven vergelijken.
Verreweg de meeste van deze harde schijven zijn “raw” of “interne” harde schijven. Omdat het door de Thailand Drive Crisis bijna onmogelijk werd om interne harde schijven tegen redelijke prijzen te koop te vinden, is Backblaze begonnen met het kweken van harde schijven. Ongeveer zes petabytes van de schijven in deze analyse waren dus oorspronkelijk “externe” harde schijven die uit hun behuizingen werden “geschoven”.
Aantal harde schijven
De onderstaande grafiek toont de leeftijdsverdeling van de schijven in de Backblaze-datacenters. De vorm van de grafiek is vooral een weerspiegeling van de groei van het bedrijf, en de toevoeging van schijven naarmate het klantenbestand groeide. Over het algemeen gaan er niet zoveel schijven stuk.
Failure rates
Voordat we in de gegevens over de defectpercentages duiken, is het de moeite waard om even uit te leggen wat een defectpercentage precies inhoudt. Op het eerste gezicht zou je kunnen denken dat een uitvalpercentage van 100% het slechtst mogelijke is. Elke schijf gaat stuk! Dat is echter niet het hele verhaal.
Stel u voor dat u een leverancier van schijfstations hebt die schijven levert die zes maanden lang 100% betrouwbaar zijn, maar die het op dat moment allemaal begeven. Wat is het jaarlijkse uitvalpercentage? Als u 100 schijven altijd moet laten werken, moet u de schijf in elk slot twee keer per jaar vervangen. Dat betekent dat u elk jaar 200 schijven moet vervangen, wat uw jaarlijkse storingspercentage op 200% brengt. Dus, in theorie althans, is er geen slechtst mogelijke foutmarge. Als elke schijf het na één uur gebruik zou begeven, zou het jaarlijkse storingspercentage 876.000% zijn. Gelukkig zijn de schijven die Backblaze krijgt betrouwbaarder dan dat.
De Bathtub Curve
Betrouwbaarheidsingenieurs gebruiken iets dat de Bathtub Curve wordt genoemd om verwachte storingspercentages te beschrijven. Het idee is dat defecten door drie factoren worden veroorzaakt: (1) fabrieksfouten, resulterend in “kindersterfte”, (2) willekeurige defecten, en (3) onderdelen die verslijten, resulterend in defecten na veel gebruik. De onderstaande grafiek (overgenomen van Wikimedia Commons) laat zien hoe deze drie factoren naar verwachting een badkuipvormige uitvalcurve opleveren.
De theorie komt overeen met de realiteit die Backblaze ervaart. De onderstaande grafiek toont het uitvalpercentage van schijven in elk kwartaal van hun levensduur. De eerste 18 maanden schommelt het storingspercentage rond 5%, daarna daalt het een tijdje en vervolgens stijgt het aanzienlijk na ongeveer drie jaar. We zien niet zo veel “kindersterfte”, maar het lijkt erop dat drie jaar het punt is waarop schijven beginnen te verslijten.
Berekening van de levensverwachting
Wat is de levensverwachting van een harde schijf? Om die vraag te beantwoorden, moeten we eerst bepalen wat we bedoelen met “levensverwachting”.”
Bij het meten van de levensverwachting van mensen is de gebruikelijke maatstaf het gemiddeld aantal resterende jaren op een bepaalde leeftijd. Dus als we zeggen dat de levensverwachting van pasgeborenen in de wereld in 2010 67,2 jaar is, zeggen we dat als we wachten tot al die nieuwe mensen in 120 of 130 jaar hun leven hebben voltooid, het gemiddelde van hun levensduur 67,2 zal zijn.
Voor schijfstations kan het zijn dat ze allemaal versleten zullen zijn voordat ze 10 jaar oud zijn. Of het kan zijn dat sommige 20 of 30 jaar meegaan. Als er een paar heel lang meegaan, wordt het moeilijk om het gemiddelde te berekenen. Ook kunnen een paar uitschieters het gemiddelde in de war sturen en het minder bruikbaar maken.
Het getal dat we binnenkort kunnen berekenen, en het getal dat waarschijnlijk bruikbaarder is, is de mediane levensduur van een nieuwe schijf. Met andere woorden, op welke leeftijd heeft de helft van de schijven het begeven? We beginnen een idee te krijgen wat het antwoord zal zijn.
Disk Drive Survival Rates
Op het internet is het verrassend moeilijk om een antwoord te vinden op de vraag “Hoe lang gaat een harde schijf mee?” Wat u zult vinden zijn meestal anekdotische verhalen, of misschien verwijzingen naar Google’s en CMU’s studies, die geen van beide echt de vraag beantwoorden.
De anekdotes die u krijgt geven u geen nuttige informatie:
- Van tomshardware.com: “Harde schijven zijn mechanisch en zullen dus uiteindelijk defect raken… Ik heb schijven gehad die DOA aankwamen, sommige die na een dag stierven, en sommige die het 10 jaar hebben uitgehouden. Er is gewoon geen manier om te zeggen hoe lang een schijf zal leven.”
- Van CNET: “Ik weet niet hoe het zit met 5 jaar. Mijn WD stierf na 2 jaar.”
Google’s studie heeft een aantal interessante gegevens over storingspercentages. Zij ontdekten dat temperatuur niet zoveel uitmaakt als je zou denken, en dat de SMART-controles van een schijf niet erg goed zijn in het voorspellen van schijfdefecten.
CMU’s studie ontdekte dat de gemiddelde tijd tussen defecten (MTBF) ratings van fabrikanten overdreven zijn. Schijven gaan veel vaker stuk dan de MTBF aangeeft.
De onderstaande grafiek toont het percentage schijven bij Backblaze dat nog in leven is op verschillende leeftijden:
- In de eerste anderhalf jaar gaan schijven stuk met 5,1% per jaar.
- Tijdens de volgende anderhalf jaar gaan schijven minder vaak stuk, met ongeveer 1,4% per jaar.
- Na drie jaar echter, schiet het percentage defecten omhoog tot 11,8% per jaar.
De meeste schijven leven nog
De bovenstaande grafiek kan misleidend zijn. Op het eerste gezicht lijkt het erop dat de meeste schijven al dood zijn en allemaal op weg zijn om binnen het komende jaar te sterven. Als je de grafiek echter opnieuw tekent met de onderkant op 0, zie je dat bijna 80% van alle schijven die Backblaze ooit heeft gekocht, nog steeds werkt!
Hoe lang zullen de harde schijven meegaan?
Wat gebeurt er met schijven die ouder zijn dan vijf jaar? Noch Google, noch het CMU-team presenteerden gegevens over schijven die ouder zijn dan vijf jaar, hoewel het CMU-document in de conclusie een verleidelijke opmerking bevat waarin wordt beweerd dat het aantal defecte schijven na vijf jaar toeneemt. Er wordt echter geen basis voor die bewering gegeven.
Bij Backblaze zijn we al vijf jaar actief, en alle schijven die we installeren zijn nieuwe schijven, dus we hebben ook geen gegevens over schijven die ouder zijn dan dat. We zijn benieuwd wat er gebeurt als schijven vijf, zes, zeven en acht jaar oud worden.
Als je de lijn uit de vorige grafiek extrapoleert om het punt te schatten waarop de helft van de schijven is overleden, krijg je een voorspelling:
De mediane levensduur van een schijf zal meer dan zes jaar zijn.
Toen Backblaze begon, bestond er enige bezorgdheid dat consumentenschijven het niet zouden uithouden in een datacenter. Als deze mediane levensduur van zes jaar klopt, betekent dit dat meer dan de helft van de schijven het zes jaar volhoudt, en die zorgen waren ongegrond. Wij zijn van plan deze statistieken elk kwartaal te blijven bijwerken. In de komende paar jaar zullen we dus harde gegevens hebben over de mediane levensduur van harde schijven. Blijf op de blog om de antwoorden te weten te komen.
Nov 14: Update
Mijn fout: Door een transcriptiefout waren de percentages in de tweede alinea fout, en pessimistischer dan nodig. 78% (niet 74%) van de stations is na vier jaar nog in leven. De projectie van een mediane levensduur van zes jaar wordt niet beïnvloed door deze wijziging. Met dank aan de scherpziende Frederic voor het opmerken van de fout.-Brian