Jak długo wytrzymują dyski twarde? Krótka odpowiedź brzmi: Jeszcze nie wiemy, ale to dłużej niż można by przypuszczać.
Dlaczego firma, która utrzymuje ponad 25 000 dysków obracających się przez cały czas, nie wie, jak długo wytrzymują? Backblaze od ponad pięciu lat zapewnia niezawodny i nieograniczony backup online. Przez ostatnie cztery lata mieliśmy wystarczająco dużo dysków, aby zapewnić dobre statystyki, ale 74% 78% kupowanych przez nas dysków żyje dłużej niż cztery lata. Tak więc podczas gdy 26% 22% dysków ulega awarii w ciągu pierwszych czterech lat, a my mamy szczegółowe informacje na temat awaryjności dysków w ciągu pierwszych czterech lat, nie wiemy jeszcze, co stanie się po tym czasie. Zatem jak długo wytrzymują dyski? Czytaj dalej.
Jak dyski są używane w Backblaze
Backblaze używa wielu dysków twardych do przechowywania danych. W każdym Backblaze Storage Pod montowanych jest 45 dysków, a Storage Pods są montowane w stojakach w naszych centrach danych. Gdy rejestrują się nowi klienci, kupujemy więcej dysków, testujemy je i wdrażamy. Obecnie mamy 75 petabajtów pamięci masowej w chmurze.
Przed wdrożeniem każdy Backblaze Storage Pod jest testowany, łącznie z testami wszystkich znajdujących się w nim dysków. Niedawno Andy napisał o Stephenie, dysku, który nie przeszedł tych testów. Post Andy’ego opisuje proces, którego Backblaze używa do konfiguracji, testowania obciążeniowego i wdrażania Storage Pod.
Typy dysków twardych w analizie
Backblaze ustandaryzowała dyski twarde „klasy konsumenckiej”. Chociaż firmy produkujące dyski twarde twierdzą, że dyski te nie są przeznaczone do pracy w macierzach RAID lub do pracy w środowisku centrum danych w trybie 24×7, Backblaze wykorzystuje redundancję oprogramowania do ochrony danych. W przyszłym wpisie na blogu, zagłębimy się w statystyki porównujące dyski twarde „konsumenckie” i „korporacyjne”.
Do tej pory większość tych dysków twardych to „surowe” lub „wewnętrzne” dyski twarde. Ponieważ jednak w wyniku kryzysu na rynku dysków w Tajlandii prawie niemożliwe stało się znalezienie wewnętrznych dysków twardych na sprzedaż po rozsądnych cenach, Backblaze zaczęła hodować dyski twarde. Dlatego około 6 petabajtów dysków w tej analizie było pierwotnie „zewnętrznymi” dyskami twardymi, które zostały „wyciągnięte” ze swoich obudów.
Liczba dysków twardych
Następny wykres przedstawia rozkład wiekowy dysków w centrach danych Backblaze. Kształt wykresu jest w większości odzwierciedleniem rozwoju firmy i dodawania dysków w miarę wzrostu bazy klientów. Ogólnie rzecz biorąc, niewiele dysków ulega awarii.
Szacunki awarii
Przed zagłębieniem się w dane dotyczące wskaźników awarii warto poświęcić trochę czasu na wyjaśnienie, co dokładnie oznacza wskaźnik awarii. Na pierwszy rzut oka można pomyśleć, że wskaźnik awaryjności na poziomie 100% jest najgorszym możliwym. Każdy dysk ulega awarii! Nie jest to jednak cała historia.
Wyobraźmy sobie, że mamy dostawcę dysków, który dostarcza dyski w 100% niezawodne przez sześć miesięcy, ale po tym czasie wszystkie ulegają awarii. Jaki jest roczny wskaźnik awaryjności? Jeśli musisz utrzymać 100 dysków działających przez cały czas, będziesz musiał wymienić dysk w każdym gnieździe dwa razy w roku. Oznacza to, że będziesz musiał wymienić 200 dysków każdego roku, co daje roczny wskaźnik awaryjności na poziomie 200%. Tak więc, przynajmniej w teorii, nie ma najgorszego możliwego wskaźnika awaryjności. Gdyby każdy dysk zawodził po jednej godzinie pracy, roczny wskaźnik awaryjności wynosiłby 876 000%. Na szczęście dyski, które otrzymuje firma Backblaze, są bardziej niezawodne niż to.
Krzywa wanny
Inżynierowie ds. niezawodności używają czegoś, co nazywa się krzywą wanny, aby opisać oczekiwane wskaźniki awaryjności. Pomysł polega na tym, że usterki pochodzą z trzech czynników: (1) wady fabryczne, powodujące „śmiertelność niemowląt”, (2) przypadkowe awarie oraz (3) części, które się zużywają, powodując awarie po dłuższym czasie użytkowania. Poniższy wykres (zaadaptowany z Wikimedia Commons) pokazuje, jak te trzy czynniki mogą przyczynić się do powstania krzywej awaryjności w kształcie wanny.
Teoria ta odpowiada rzeczywistości, której doświadcza Backblaze. Poniższy wykres przedstawia wskaźnik awaryjności dysków w każdym kwartale ich życia. Przez pierwsze 18 miesięcy wskaźnik awaryjności oscyluje wokół 5%, potem spada na jakiś czas, a następnie znacznie wzrasta mniej więcej po trzech latach. Nie obserwujemy tak dużej „śmiertelności niemowląt”, ale wygląda na to, że trzy lata to moment, w którym dyski zaczynają się zużywać.
Obliczanie długości życia
Jaka jest oczekiwana długość życia dysku twardego? Aby odpowiedzieć na to pytanie, musimy najpierw określić, co rozumiemy pod pojęciem „oczekiwana długość życia”
Podczas mierzenia oczekiwanej długości życia ludzi zwykłą miarą jest średnia liczba lat pozostałych do końca życia w danym wieku. Kiedy więc mówimy, że oczekiwana długość życia noworodków na świecie w 2010 r. wynosi 67,2 lat, mówimy, że jeśli poczekamy, aż wszyscy ci nowi ludzie przeżyją swoje życie w 120 lub 130 lat, średnia długość ich życia wyniesie 67,2 lat.
W przypadku dysków twardych może się zdarzyć, że wszystkie zużyją się przed upływem 10 lat. Albo może być tak, że niektóre z nich wytrzymają 20 lub 30 lat. Jeśli niektóre z nich żyją długo, długo, to sprawia, że trudno jest obliczyć średnią. Ponadto, kilka wartości skrajnych może wyrzucić średnią i uczynić ją mniej użyteczną.
Liczba, którą będziemy w stanie obliczyć wkrótce, a ta, która jest bardziej prawdopodobna, aby być użyteczna, to mediana długości życia nowego dysku. Innymi słowy, w jakim wieku połowa dysków uległa awarii? Zaczynamy mieć pojęcie, jaka będzie odpowiedź.
Disk Drive Survival Rates
W Internecie zaskakująco trudno jest uzyskać odpowiedź na pytanie „Jak długo wytrzyma dysk twardy?”. To, co znajdziesz, to głównie anegdotyczne historie, lub być może odniesienia do badań Google i CMU, z których żadne tak naprawdę nie odpowiada na pytanie.
Anegdoty, które dostaniesz, nie dają ci żadnych użytecznych informacji:
- Z tomshardware.com: „Dyski twarde są mechaniczne i dlatego w końcu ulegną awarii… Miałem dyski, które dotarły DOA, niektóre umarły po jednym dniu, a niektóre przetrwały 10 lat. Po prostu nie ma sposobu, aby powiedzieć, jak długo dysk będzie żył.”
- Z CNET: „Nie wiem, czy 5 lat. Mój WD padł po 2 latach.”
Badania Google zawierają interesujące informacje na temat awaryjności. Stwierdzono, że temperatura nie ma tak dużego znaczenia, jak mogłoby się wydawać, oraz że kontrole SMART dysku nie są zbyt dobre w przewidywaniu jego awarii.
Badania przeprowadzone przez CMU wykazały, że średnie czasy międzyawaryjne (MTBF) podawane przez producentów są zawyżone. Dyski ulegają awarii o wiele częściej niż wskazywałby na to współczynnik MTBF.
Następny wykres przedstawia procent dysków w Backblaze, które nadal żyją w różnym wieku:
- Przez pierwsze półtora roku dyski ulegają awarii w tempie 5,1% rocznie.
- Przez następne półtora roku dyski zawodzą rzadziej, z prędkością około 1,4% rocznie.
- Po trzech latach wskaźnik awarii wzrasta do 11,8% rocznie.
Większość dysków wciąż żyje
Powyższy wykres może być mylący. Na pierwszy rzut oka wydaje się, że większość dysków już umarła i wszystkie są na dobrej drodze, aby umrzeć w ciągu najbliższego roku. Jeśli jednak przerysujemy wykres, ustawiając jego dolną część na 0, zobaczymy, że prawie 80% wszystkich dysków, jakie kiedykolwiek zakupiła firma Backblaze, nadal działa!
How Long WILL the Hard Drives Last?
Co dzieje się z dyskami, gdy są starsze niż pięć lat? Ani firma Google, ani zespół CMU nie przedstawiły żadnych danych dotyczących dysków starszych niż pięcioletnie, chociaż praca CMU zawiera kuszący komentarz w podsumowaniu, twierdzący, że wskaźniki awaryjności wzrastają po pięciu latach. Nie podano jednak żadnych podstaw tego twierdzenia.
W Backblaze, działamy już od pięciu lat, a wszystkie dyski, które instalujemy są nowe, więc nie mamy żadnych danych dotyczących dysków starszych niż ten okres. Nie możemy się doczekać, aby dowiedzieć się, co się stanie, gdy dyski będą miały pięć, sześć, siedem i osiem lat.
Jeśli ekstrapolujemy linię z poprzedniego wykresu, aby oszacować moment, w którym połowa dysków umrze, otrzymamy następującą prognozę:
Mediana czasu życia dysku wyniesie ponad sześć lat.
Kiedy firma Backblaze rozpoczynała działalność, istniały pewne obawy, że dyski klasy konsumenckiej nie wytrzymają w centrum danych. Jeśli ta sześcioletnia mediana żywotności jest prawdziwa, oznacza to, że ponad połowa dysków wytrzyma sześć lat, a obawy te były bezpodstawne. Zamierzamy kontynuować aktualizację tych statystyk co kwartał. Tak więc, w ciągu najbliższych kilku lat, będziemy mieć twarde dane na temat mediany żywotności dysków twardych. Pozostańcie z nami na blogu, aby poznać odpowiedzi.
Nov 14: Aktualizacja
Mój błąd: Z powodu błędu w przepisywaniu, procenty w drugim akapicie były błędne i były bardziej pesymistyczne niż to konieczne. 78% (nie 74%) dysków wciąż żyje po czterech latach. Zmiana ta nie ma wpływu na prognozę sześcioletniej mediany długości życia. Podziękowania dla bystrookiego Frederica za wychwycenie błędu.-Brian