Quanto tempo duram as unidades de disco? A resposta curta é: Ainda não sabemos, mas é mais longo do que você imagina.
Por que uma empresa que mantém mais de 25.000 unidades de disco girando o tempo todo não sabe quanto tempo elas duram? A Backblaze fornece backup online confiável e ilimitado há mais de cinco anos. Nos últimos quatro anos, tivemos unidades suficientes para fornecer boas estatísticas, mas 74% 78% das unidades que compramos estão vivendo mais de quatro anos. Portanto, embora 26% 22% dos discos falhem nos primeiros quatro anos, e tenhamos informações detalhadas sobre as taxas de falha dos discos nos primeiros quatro anos, ainda não sabemos o que vai acontecer além disso. Então, quanto tempo duram as viagens de carro? Continue lendo.
Como os discos são usados no Backblaze
Backblaze usa muitos discos rígidos para armazenar dados. 45 unidades são montadas em cada Backblaze Storage Pod, e as Storage Pods são montadas em racks em nossos centros de dados. À medida que novos clientes se inscrevem, nós compramos mais unidades de disco, testamo-las e as implantamos. Estamos agora com até 75 petabytes de armazenamento em nuvem.
Antes de ser implantado, cada POD de armazenamento Backblaze é testado, incluindo testes em todos os drives contidos nele. Recentemente, Andy postou sobre Stephen, um drive de disco que falhou neste teste. O post de Andy descreve o processo que o Backblaze usa para configurar, carregar e implementar um POD de armazenamento.
Tipos de discos rígidos na análise
Backblaze foi padronizado em discos rígidos “de consumo”. Enquanto as empresas de discos rígidos dizem que essas unidades não são projetadas para trabalhar em matrizes RAID ou na carga de trabalho 24×7 de um ambiente de centro de dados, o Backblaze usa redundância de software para proteger os dados. Em um post de blog futuro, vamos mergulhar nas estatísticas comparando discos rígidos “de consumo” e “empresariais”.
De longe, a maioria desses discos rígidos são discos rígidos “brutos” ou “internos”. No entanto, como a crise dos discos rígidos da Tailândia tornou quase impossível encontrar discos rígidos internos para venda a preços razoáveis, o Backblaze começou a cultivar discos rígidos. Assim, aproximadamente seis petabytes das unidades nesta análise eram originalmente discos rígidos “externos” que foram “retirados” de seus invólucros.
Número de discos rígidos
A tabela abaixo mostra a distribuição etária das unidades nos centros de dados do Backblaze. A forma do gráfico é principalmente um reflexo do crescimento da empresa, e a adição de unidades à medida que a base de clientes crescia. Em geral, não há muitas unidades que falham.
Taxas de Falha
Antes de mergulhar nos dados sobre taxas de falha, vale a pena gastar um pouco de tempo esclarecendo o que significa exatamente uma taxa de falha. À primeira vista, você pode pensar que uma taxa de falha de 100% é a pior possível. Todo disco está falhando! Essa não é a história toda, no entanto.
Imagine que você tem um fornecedor de unidades de disco que fornece unidades 100% confiáveis por seis meses, mas então todas falham nesse ponto. Qual é a taxa anual de falhas? Se você tiver que manter 100 unidades funcionando o tempo todo, você terá que substituir a unidade em cada slot duas vezes por ano. Isso significa que você terá que substituir 200 drives a cada ano, o que faz com que a sua taxa anual de falhas seja de 200%. Portanto, pelo menos em teoria, não há pior taxa de falha possível. Se cada drive falhar após uma hora de uso, a taxa anual de falha seria de 876.000%. Felizmente, os drives que o Backblaze obtém são mais confiáveis que isso.
A Curva da Banheira
Os engenheiros de confiabilidade usam algo chamado Curva da Banheira para descrever as taxas de falhas esperadas. A idéia é que os defeitos vêm de três fatores: (1) defeitos de fábrica, resultando em “mortalidade infantil”, (2) falhas aleatórias, e (3) peças que se desgastam, resultando em falhas após muito uso. O gráfico abaixo (adaptado do Wikimedia Commons) mostra como esses três fatores podem ser esperados para produzir uma curva de taxa de falha em forma de banheira.
A teoria corresponde à realidade que o Backblaze experimenta. O gráfico abaixo mostra a taxa de falha de drives em cada trimestre de sua vida. Durante os primeiros 18 meses, a taxa de insucesso paira em torno de 5%, depois cai por um tempo, e depois sobe substancialmente por volta da marca dos três anos. Não estamos vendo tanta “mortalidade infantil”, mas parece que três anos é o ponto onde as unidades começam a se desgastar.
Calculando a expectativa de vida
Qual é a expectativa de vida de uma unidade de disco rígido? Para responder a essa pergunta, precisamos primeiro decidir o que queremos dizer com “expectativa de vida”
Ao medir a expectativa de vida das pessoas, a medida usual é o número médio de anos restantes a uma determinada idade. Então quando dizemos que a expectativa de vida dos recém-nascidos no mundo em 2010 é 67,2 anos, estamos dizendo que se esperarmos até que todas essas novas pessoas tenham vivido suas vidas em 120 ou 130 anos, a média de suas vidas será 67,2,
Para unidades de disco, pode ser que todas elas se desgastarão antes de completarem 10 anos de idade. Ou pode ser que alguns deles durem 20 ou 30 anos. Se alguns deles viverem muito, muito tempo, torna-se difícil calcular a média. Além disso, alguns outliers podem descartar a média e torná-la menos útil.
O número que poderemos calcular em breve, e o que é mais provável que seja útil, é a duração média de vida de um novo disco. Em outras palavras, com que idade a metade dos discos falhou? Estamos começando a ter uma idéia de qual será a resposta.
Prêmios de Sobrevivência de DriveDisk
Na internet, é surpreendentemente difícil obter uma resposta para a pergunta “Quanto tempo durará um disco rígido? O que você vai encontrar são principalmente histórias anedóticas, ou talvez referências aos estudos do Google e CMU, nenhuma das quais realmente responde à pergunta.
As anedotas que você recebe não lhe dão nenhuma informação útil:
- De tomshardware.com: “Os discos rígidos são mecânicos e por isso acabarão por falhar… Já tive discos que chegam DOA, alguns morrem depois de um dia, e outros que duraram 10 anos. Não há como dizer quanto tempo um disco viverá”
- Da CNET: “Eu não sei cerca de 5 anos. O meu WD morreu após 2 anos.”
O estudo do Google tem algumas informações interessantes sobre as taxas de insucesso. Eles descobriram que a temperatura não importa tanto quanto você possa pensar, e que as verificações SMART de um drive não são muito boas em prever falhas de drive.
O estudo da CMU descobriu que as classificações de tempo médio entre falhas (MTBF) dos fabricantes são exageradas. Os discos falham muito mais do que o MTBF indicaria.
O gráfico abaixo mostra a percentagem de discos no Backblaze que ainda estão vivos em idades diferentes:
- Para o primeiro ano e meio, os discos falham a 5,1% por ano.
- Para o próximo ano e meio, os drives falham menos, a cerca de 1,4% por ano.
- Após três anos, porém, as taxas de falhas disparam para 11,8% por ano.
Os drives ainda estão vivos
O gráfico acima pode ser enganoso. Num relance, parece que a maioria dos drives já morreu e todos estão no caminho certo para morrer dentro do próximo ano. No entanto, se você redesenhar o gráfico com a parte inferior em 0, você pode ver que quase 80% de todas as unidades que o Backblaze já comprou ainda estão funcionando!
Quanto tempo durarão os discos rígidos?
O que acontece com as unidades quando elas têm mais de cinco anos? Nem o Google nem a equipa CMU apresentaram quaisquer dados sobre unidades com mais de cinco anos, embora o documento CMU tenha um comentário tentador na sua conclusão, afirmando que as taxas de falha aumentam após cinco anos. Não é fornecida nenhuma base para essa afirmação, no entanto.
No Backblaze, estamos em funcionamento há cinco anos, e todos os drives que instalamos são drives novos, por isso também não temos quaisquer dados para drives mais antigos do que isso. Estamos ansiosos para descobrir o que vai acontecer quando os drives tiverem cinco, seis, sete e oito anos.
Se você extrapolar a linha do gráfico anterior para estimar o ponto em que metade dos drives morreram, você obtém uma previsão:
A vida média de um drive será superior a seis anos.
Quando o Backblaze começou, havia algumas preocupações de que unidades de disco de grau de consumo não se aguentariam em um centro de dados. Se essa mediana de seis anos de vida útil for verdadeira, significa que mais da metade das unidades durarão seis anos, e essas preocupações eram infundadas. Pretendemos continuar a actualizar estas estatísticas trimestralmente. Assim, durante os próximos dois anos, teremos dados concretos sobre a vida útil mediana dos discos rígidos. Fique ligado no blog para saber as respostas.
Nov 14: Update
Meu mal: Devido a um erro de transcrição, as percentagens no segundo parágrafo estavam erradas, e eram mais pessimistas do que o necessário. 78% (não 74%) das unidades ainda estão vivas após quatro anos. A projeção de uma vida mediana de seis anos não é afetada por esta mudança. Graças ao Frederic de olhos afiados por ter apanhado o erro. -Brian