Quanto durano le unità disco? La risposta breve è: Non lo sappiamo ancora, ma è più lungo di quanto si possa immaginare.
Perché un’azienda che tiene in rotazione più di 25.000 unità disco non sa quanto durano? Backblaze fornisce un backup online affidabile e illimitato da oltre cinque anni. Negli ultimi quattro anni, abbiamo avuto abbastanza unità per fornire buone statistiche, ma il 74% 78% delle unità che compriamo vivono più a lungo di quattro anni. Quindi, mentre il 26% 22% delle unità si guasta nei primi quattro anni, e abbiamo informazioni dettagliate sulle percentuali di guasto delle unità nei primi quattro anni, non sappiamo ancora cosa succederà dopo. Quindi quanto durano le unità? Continua a leggere.
Come vengono usati i dischi a Backblaze
Backblaze usa molti dischi rigidi per immagazzinare dati. 45 dischi sono montati in ogni Storage Pod di Backblaze, e gli Storage Pod sono montati in rack nei nostri centri dati. Man mano che nuovi clienti si iscrivono, acquistiamo più unità disco, le testiamo e le distribuiamo. Ora siamo arrivati a 75 petabyte di cloud storage.
Prima di essere distribuito, ogni Storage Pod di Backblaze viene testato, compresi i test su tutte le unità in esso contenute. Recentemente, Andy ha pubblicato un post su Stephen, un’unità disco che non ha superato questi test. Il post di Andy descrive il processo che Backblaze utilizza per impostare, testare il carico e distribuire uno Storage Pod.
Tipi di dischi rigidi nell’analisi
Backblaze si è standardizzato su dischi rigidi “consumer-grade”. Mentre le aziende di dischi rigidi dicono che questi dischi non sono progettati per funzionare in array RAID o il carico di lavoro 24×7 di un ambiente di data center, Backblaze utilizza la ridondanza del software per proteggere i dati. In un futuro post sul blog, approfondiremo le statistiche confrontando i dischi rigidi “consumer” e “enterprise”.
Di gran lunga, la maggior parte di questi dischi rigidi sono “grezzi” o “interni”. Tuttavia, poiché la Thailandia ha reso quasi impossibile trovare dischi rigidi interni in vendita a prezzi ragionevoli, Backblaze ha iniziato a coltivare i dischi rigidi. Così, circa sei petabyte delle unità in questa analisi erano originariamente dischi rigidi “esterni” che sono stati “tirati fuori” dai loro involucri.
Numero di dischi rigidi
Il grafico sottostante mostra la distribuzione per età delle unità nei centri dati di Backblaze. La forma del grafico è per lo più un riflesso della crescita dell’azienda, e l’aggiunta di unità con la crescita della base di clienti. Nel complesso, non sono molte le unità che si guastano.
Tassi di fallimento
Prima di immergersi nei dati sui tassi di fallimento, vale la pena spendere un po’ di tempo per chiarire cosa significa esattamente un tasso di fallimento. A prima vista, si potrebbe pensare che un tasso di fallimento del 100% sia il peggiore possibile. Ogni unità sta fallendo! Questa non è tutta la storia, però.
Immaginate di avere un fornitore di unità disco che fornisce unità che sono affidabili al 100% per sei mesi, ma poi tutte falliscono a quel punto. Qual è il tasso di guasto annuale? Se dovete tenere 100 dischi sempre in funzione, dovrete sostituire il disco di ogni slot due volte all’anno. Ciò significa che dovrete sostituire 200 unità ogni anno, il che rende il tasso di guasto annuale del 200%. Quindi, almeno in teoria, non c’è un tasso di guasto peggiore possibile. Se ogni unità fallisse dopo un’ora di utilizzo, il tasso di guasto annuale sarebbe 876.000%. Fortunatamente, le unità che Backblaze riceve sono più affidabili di così.
La Bathtub Curve
Gli ingegneri dell’affidabilità usano qualcosa chiamato Bathtub Curve per descrivere i tassi di fallimento previsti. L’idea è che i difetti provengono da tre fattori: (1) difetti di fabbrica, con conseguente “mortalità infantile”, (2) guasti casuali, e (3) parti che si consumano, con conseguenti guasti dopo molto uso. Il grafico qui sotto (adattato da Wikimedia Commons) mostra come questi tre fattori possano produrre una curva del tasso di fallimento a forma di vasca da bagno.
La teoria corrisponde alla realtà che Backblaze sperimenta. Il grafico qui sotto mostra il tasso di fallimento delle unità in ogni trimestre della loro vita. Per i primi 18 mesi, il tasso di guasto si aggira intorno al 5%, poi cala per un po’, e poi sale sostanzialmente a circa tre anni. Non stiamo vedendo tutta questa “mortalità infantile”, ma sembra che i tre anni siano il punto in cui le unità iniziano a consumarsi.
Calcolo dell’aspettativa di vita
Qual è l’aspettativa di vita di un hard disk? Per rispondere a questa domanda, dobbiamo prima decidere cosa intendiamo per “aspettativa di vita”.
Quando si misura l’aspettativa di vita delle persone, la misura usuale è il numero medio di anni rimanenti a una data età. Così, quando diciamo che l’aspettativa di vita dei nuovi nati nel mondo nel 2010 è di 67,2 anni, stiamo dicendo che se aspettiamo che tutte quelle nuove persone abbiano vissuto la loro vita in 120 o 130 anni, la media della loro durata di vita sarà di 67,2.
Per i dischi, può essere che tutti si consumino prima dei 10 anni. Oppure può essere che alcuni di loro durino 20 o 30 anni. Se alcuni di loro vivono a lungo, molto a lungo, rende difficile calcolare la media. Inoltre, alcuni outlier possono sballare la media e renderla meno utile.
Il numero che saremo in grado di calcolare presto, e quello che ha più probabilità di essere utile, è la durata mediana della vita di un nuovo disco. In altre parole, a che età la metà delle unità è fallita? Stiamo iniziando a farci un’idea di quale sarà la risposta.
Tassi di sopravvivenza dei dischi
Su internet, è sorprendentemente difficile ottenere una risposta alla domanda “Quanto durerà un disco rigido?” Quello che troverete sono per lo più storie aneddotiche, o forse riferimenti agli studi di Google e della CMU, nessuno dei quali risponde veramente alla domanda.
Gli aneddoti che trovate non vi danno alcuna informazione utile:
- Da tomshardware.com: “Gli hard disk sono meccanici e quindi alla fine si guastano… Ho avuto unità che sono arrivate DOA, alcune che sono morte dopo un giorno, e alcune che sono durate 10 anni. Non c’è modo di dire quanto tempo vivrà un’unità.”
- Da CNET: “Non so circa 5 anni. Il mio WD è morto dopo 2 anni.”
Lo studio di Google ha alcune informazioni interessanti sui tassi di fallimento. Hanno scoperto che la temperatura non è così importante come si potrebbe pensare, e che i controlli SMART di un’unità non sono molto buoni nel prevedere il fallimento dell’unità.
Lo studio di CMU ha scoperto che le valutazioni del tempo medio tra i guasti (MTBF) dei produttori sono esagerate. Le unità falliscono molto di più di quanto indichi l’MTBF.
Il grafico sottostante mostra la percentuale di unità di Backblaze che sono ancora vive a diverse età:
- Per il primo anno e mezzo, le unità falliscono al 5,1% all’anno.
- Per il successivo anno e mezzo, le unità falliscono di meno, a circa l’1,4% all’anno.
- Dopo tre anni, però, i tassi di fallimento salgono alle stelle fino all’11,8% all’anno.
La maggior parte delle unità sono ancora vive
Il grafico sopra potrebbe essere fuorviante. A prima vista, sembra che la maggior parte delle unità sia già morta e che tutte siano sulla buona strada per morire entro il prossimo anno. Tuttavia, se si ridisegna il grafico con il fondo a 0, si può vedere che quasi l’80% di tutte le unità che Backblaze ha acquistato sono ancora in funzione!
Quanto dureranno gli hard disk?
Cosa succede alle unità quando hanno più di cinque anni? Né Google né il team CMU hanno presentato alcun dato sui dischi più vecchi di cinque anni, anche se il documento CMU ha un commento allettante nella sua conclusione che afferma che i tassi di fallimento salgono dopo cinque anni. Non viene fornita alcuna base per questa affermazione, però.
A Backblaze, siamo stati attivi e funzionanti per cinque anni, e tutte le unità che installiamo sono nuove unità, quindi non abbiamo alcun dato per le unità più vecchie. Non vediamo l’ora di scoprire cosa succederà quando le unità avranno cinque, sei, sette e otto anni.
Se si estrapola la linea dal grafico precedente per stimare il punto in cui la metà delle unità sono morte, si ottiene una previsione:
La durata media della vita di un’unità sarà di oltre sei anni.
Quando Backblaze ha iniziato, c’erano alcune preoccupazioni che le unità disco di qualità consumer non avrebbero retto in un data center. Se questa durata media di sei anni è vera, significa che più della metà dei dischi durerà sei anni, e quelle preoccupazioni erano infondate. Abbiamo intenzione di continuare ad aggiornare queste statistiche trimestralmente. Così, nei prossimi due anni, avremo dati concreti sulla durata media di vita dei dischi rigidi. Restate sintonizzati sul blog per scoprire le risposte.
14 novembre: Aggiornamento
Per colpa mia: A causa di un errore di trascrizione, le percentuali nel secondo paragrafo erano sbagliate, ed erano più pessimistiche del necessario. Il 78% (non il 74%) delle unità è ancora vivo dopo quattro anni. La proiezione di una durata media di sei anni non è influenzata da questo cambiamento. Grazie all’acuto Frederic per aver colto l’errore.-Brian