I ricercatori della Carnegie Mellon University hanno pubblicato uno studio incentrato sull'affidabilità sul campo degli SSD, intitolato "A Large-Scale Study of Flash Memory Failures in the Field". Lo studio è stato condotto utilizzando i data center di Facebook nel corso di quattro anni e milioni di ore operative. Lo studio esamina il modo in cui si manifestano gli errori e mira ad aiutare gli altri a sviluppare nuove soluzioni di affidabilità flash.
I ricercatori della Carnegie Mellon University hanno pubblicato uno studio incentrato sull'affidabilità sul campo degli SSD, intitolato "A Large-Scale Study of Flash Memory Failures in the Field". Lo studio è stato condotto utilizzando i data center di Facebook nel corso di quattro anni e milioni di ore operative. Lo studio esamina il modo in cui si manifestano gli errori e mira ad aiutare gli altri a sviluppare nuove soluzioni di affidabilità flash.
Come diciamo da tempo qui su StorageReview, il flash offre numerosi vantaggi in termini di prestazioni, vantaggi in termini di densità e consumo energetico inferiore, con lo svantaggio maggiore rappresentato dai costi. Sebbene molti SSD affermino una buona longevità e affidabilità, fino ad ora non sono stati condotti studi importanti sul campo.
Sebbene non siano stati menzionati fornitori e unità specifici, Facebook ne utilizza molti nel livello dei dati importanti, lo studio ha preso nota del tipo di piattaforma in cui sono stati utilizzati gli SSD (definito come combinazione della capacità del dispositivo utilizzata nel sistema , la tecnologia PCIe utilizzata e il numero di SSD nel sistema), queste erano piattaforme con etichetta A-F. Le piattaforme avevano una capacità compresa tra 720 GB e 3.2 TB, avevano due generazioni di PCIe (versione 1 e 2), alcune utilizzavano un SSD altre ne impiegavano due e il tempo di funzionamento andava da sei mesi a oltre due anni.
I ricercatori hanno utilizzato registri per tenere traccia del funzionamento dell’SSD in modo simile ai dati SMART. I valori grezzi venivano raccolti una volta all'ora, analizzati in un formato che poteva essere curato in una tabella Hive, quindi un cluster di macchine eseguiva un'aggregazione parallela dei dati archiviati in Hive utilizzando i lavori MapReduce. Da ciò i ricercatori sono stati in grado di monitorare il tasso di errore bit, il tasso di fallimento dell’SSD e il conteggio degli errori, la correlazione tra diversi SSD (in particolare nelle piattaforme che avevano più di un SSD) e il ruolo di fattori sia interni che esterni.
Le conclusioni tratte dallo studio includono:
- Gli SSD attraversano diversi periodi di guasto distinti (rilevamento precoce, guasto precoce, vita utile e usura) durante il loro ciclo di vita, corrispondenti alla quantità di dati scritti sui chip flash.
- L'effetto dei disturbi di lettura non è una fonte predominante di errori negli SSD esaminati.
- La disposizione sparsa dei dati nello spazio degli indirizzi fisici di un SSD (ad esempio, dati allocati in modo non contiguo) porta a tassi di guasto elevati dell'SSD; Anche il layout denso dei dati (ad esempio dati contigui) può avere un impatto negativo sull'affidabilità in determinate condizioni, probabilmente a causa di modelli di accesso contraddittori.
- Temperature più elevate portano a maggiori tassi di guasto, ma ciò è più evidente per gli SSD che non utilizzano tecniche di throttling.
- La quantità di dati che viene segnalata la scrittura da parte del software di sistema può sovrastimare la quantità di dati effettivamente scritti sui chip flash, a causa delle tecniche di buffering a livello di sistema e di riduzione dell'usura.
Sebbene lo studio non affermi che un'unità, o un tipo di unità, sia migliore di un'altra, è comunque interessante osservare come gli SSD si comportano nel mondo reale in condizioni di utilizzo intenso. Questo studio apre la porta sia a studi futuri sull’utilizzo degli SSD sia a nuove tecnologie che potrebbero rendere gli SSD ancora più affidabili o durare molto più a lungo.
Da parte sua, Facebook ha continuato a evolvere la progettazione dei propri server per accogliere punti dati come quelli derivati dallo studio Carnegie Mellon. Loro recentemente annunciato Piattaforma Yosemite è un esempio tempestivo di come Facebook stia sfruttando la tecnologia flash in fattori di forma non tradizionali, almeno per i data center, per ottenere il miglior profilo prestazionale con una forte enfasi sul TCO.
Iscriviti alla newsletter di StorageReview