Casa ImpresaAI Aumenta l'efficienza dell'intelligenza artificiale con gli enormi SSD NVMe da 61.44 TB di Solidigm

Aumenta l'efficienza dell'intelligenza artificiale con gli enormi SSD NVMe da 61.44 TB di Solidigm

by Jordan Ranous

Nell’era dell’intelligenza artificiale generativa, sono stati creati più dati che mai. Solidigm offre una soluzione a molte sfide della moderna AI Factory.

Non è un segreto che amiamo l'enorme densità degli SSD Solidigm U.61.44 NVMe da 2 TB. Abbiamo condotto numerosi test di resistenza e prestazioni, fatto scoperte scientifiche e spinto i calcoli dei record mondiali a nuovi, straordinari livelli. Quindi, con la mania dell’intelligenza artificiale che cresce a un ritmo vertiginoso intorno a noi, il passo logico successivo è stato vedere come le unità Solidigm NVMe si posizionano nel dinamico mondo dell’AI 2024.

Comprendere i vantaggi della densità di archiviazione estrema

Gli SSD QLC da 61.44 TB di Solidigm si distinguono per la loro notevole capacità di archiviazione, consentendo ai data center di racchiudere più spazio di archiviazione in meno unità. Questa densità estrema è particolarmente vantaggiosa nei server AI, dove i set di dati crescono in modo esponenziale e soluzioni di archiviazione efficienti sono fondamentali. Utilizzando questi SSD ad alta capacità, i data center possono ridurre il numero di unità fisiche, diminuire l'ingombro, ridurre il consumo energetico e semplificare la manutenzione.

Vista frontale del Lenovo ThinkSystem SR675 V3 che mostra l'SSD Solidigm

Corsie PCIe limitate nei server GPU

Una delle sfide principali dei moderni server GPU è il numero limitato di linee PCIe disponibili una volta che le GPU hanno ottenuto la loro parte. Fondamentali per i carichi di lavoro IA, le GPU richiedono una notevole larghezza di banda PCIe, spesso lasciando corsie limitate per altri componenti, inclusi dispositivi di archiviazione e rete. Questo vincolo rende essenziale ottimizzare l’uso delle corsie PCIe disponibili. Gli SSD QLC da 61.44 TB di Solidigm offrono una soluzione fornendo un'enorme capacità di archiviazione in una singola unità, riducendo la necessità di più unità e conservando le corsie PCIe per GPU e altri componenti essenziali.

Vista interna dall'alto del contenitore dell'unità Lenovo ThinkSystem SR675 V3

Carichi di lavoro AI e requisiti di archiviazione

I carichi di lavoro dell’intelligenza artificiale possono essere classificati a grandi linee in tre fasi: preparazione dei dati, training e messa a punto e inferenza. Ogni fase ha requisiti di archiviazione unici e gli SSD ad alta capacità di Solidigm possono migliorare significativamente le prestazioni e l'efficienza in queste fasi. L'implementazione di unità QLC ad alta capacità, come Solidigm D5-P5336, apporta vantaggi a tutti i carichi di lavoro AI. La maggior parte dei vantaggi va dalla preparazione dei dati alla formazione, dall'ottimizzazione all'inferenza.

Preparazione dei dati

La preparazione dei dati è il fondamento di qualsiasi progetto di intelligenza artificiale e prevede la raccolta, la pulizia, la trasformazione e l'aumento dei dati. Questa fase richiede un'ampia archiviazione poiché i set di dati grezzi possono essere enormi. Gli SSD QLC da 61.44 TB di Solidigm possono archiviare grandi quantità di dati grezzi senza compromettere le prestazioni. Inoltre, le elevate velocità di lettura e scrittura sequenziale di questi SSD garantiscono un rapido accesso ai dati, accelerando il processo di preparazione. Per la preparazione dei dati, gli SSD QLC Soidigm da 61.44 TB soddisfano tutte le esigenze sopra descritte con vantaggi quali:

  • Enorme capacità di archiviazione: Gestione efficiente di set di dati di grandi dimensioni.
  • Velocità sequenziali elevate: Accesso ed elaborazione rapidi dei dati.
  • Latenza ridotta: Ritardi ridotti al minimo nel recupero dei dati, migliorando l'efficienza del flusso di lavoro.

Formazione e messa a punto

L’addestramento dei modelli di intelligenza artificiale è un processo intensivo che prevede l’inserimento di estesi set di dati nelle reti neurali per regolare pesi e pregiudizi. Questa fase è impegnativa dal punto di vista computazionale e richiede IOPS (operazioni di input/output al secondo) elevati e storage a bassa latenza per tenere il passo con i rapidi scambi di dati tra lo storage e le GPU. Gli SSD di Solidigm eccellono in questo senso, offrendo prestazioni elevate e durata. L'estrema densità di questi SSD consente di utilizzare set di dati più estesi nell'addestramento, portando potenzialmente a modelli più accurati. Per soddisfare le esigenze di formazione e messa a punto, gli SSD Solidigm offrono quanto segue:

  • IOPS elevati: Supporta scambi rapidi di dati essenziali per la formazione.
  • Durata: Tecnologia QLC ottimizzata per carichi di lavoro pesanti di lettura/scrittura, ideale per cicli di allenamento ripetuti.
  • Scalabilità: Espandi lo storage senza aggiungere unità fisiche, mantenendo un uso efficiente delle corsie PCIe.

Inferenza

Una volta addestrati, i modelli di intelligenza artificiale vengono implementati per effettuare previsioni o decisioni basate su nuovi dati, un processo noto come inferenza. Questa fase spesso richiede un accesso rapido ai dati pre-elaborati e una gestione efficiente dell'aumento delle richieste di lettura. Gli SSD QLC da 61.44 TB di Solidigm forniscono le prestazioni di lettura necessarie e una bassa latenza per garantire che le operazioni di inferenza vengano eseguite in modo fluido e rapido. Gli SSD Solidigm superano le prestazioni e la bassa latenza offrendo i seguenti vantaggi:

  • Prestazioni di lettura veloci: Garantisce un accesso rapido ai dati per l'inferenza in tempo reale.
  • Bassa latenza: Fondamentale per le applicazioni che richiedono risposte immediate.
  • Alta capacità: Archivia in modo efficiente numerosi dati di inferenza e risultati storici.

La tecnologia QLC offre vantaggi significativi per le applicazioni di inferenza, tra cui elevata capacità di storage, efficienza in termini di costi, velocità di lettura elevate, utilizzo efficiente di PCIe, durata e migliore efficienza del flusso di lavoro. Questi vantaggi migliorano collettivamente le prestazioni, la scalabilità e il rapporto costo-efficacia delle attività di inferenza, rendendo le unità QLC la scelta ideale per le moderne implementazioni di intelligenza artificiale e machine learning.

Perché è importante avere uno storage di grandi dimensioni il più vicino possibile alla GPU?

Per l'intelligenza artificiale e l'apprendimento automatico, la vicinanza dello spazio di archiviazione alla GPU può avere un impatto significativo sulle prestazioni. La progettazione di un data center AI richiede un'attenta considerazione di molteplici fattori per garantire funzionalità ed efficienza ottimali. Questo è il motivo per cui è fondamentale disporre di uno spazio di archiviazione ampio il più vicino possibile alla GPU. Come abbiamo esplorato di recente, l'accesso a una soluzione di storage collegato alla rete di considerevoli dimensioni sta iniziando a trasformarsi in uno strumento unico, ma fare affidamento solo su di essa potrebbe non essere sempre la scelta ottimale.

Latenza e larghezza di banda

Uno dei motivi principali per posizionare ampio spazio di archiviazione vicino alla GPU è ridurre al minimo la latenza e massimizzare la larghezza di banda. I carichi di lavoro dell'intelligenza artificiale, in particolare durante l'addestramento, comportano trasferimenti di dati frequenti e massicci tra lo spazio di archiviazione e la GPU. Un'elevata latenza può creare strozzature all'intero processo, rallentando i tempi di addestramento e riducendo l'efficienza.

Nei carichi di lavoro AI, dove la rapida disponibilità dei dati è fondamentale, la bassa latenza garantisce che le GPU ricevano i dati tempestivamente, riducendo i tempi di inattività e migliorando l’efficienza computazionale complessiva. Durante la fase di training è necessario inserire continuamente nella GPU enormi quantità di dati per l'elaborazione. Riducendo al minimo la latenza, DAS garantisce che le richieste di alta velocità delle applicazioni IA siano soddisfatte, portando a tempi di formazione più rapidi e flussi di lavoro più efficienti.

Vista interna delle GPU Lenovo ThinkSystem SR675 V3

Gli SSD NVMe massimizzano il potenziale dell'interfaccia PCIe, fornendo un trasferimento dei dati significativamente più veloce e bypassando l'infrastruttura esistente più lenta. Questa larghezza di banda elevata è essenziale per i carichi di lavoro di intelligenza artificiale che richiedono il rapido spostamento di set di dati di grandi dimensioni. Quando lo storage è collegato direttamente, la larghezza di banda disponibile per le GPU viene massimizzata, consentendo un accesso più rapido ai dati estesi necessari per l'addestramento di modelli complessi.

Al contrario, lo storage collegato alla rete delle installazioni legacy introduce ulteriori livelli di latenza e in genere riduce la larghezza di banda. Anche con le reti ad alta velocità, il sovraccarico associato ai protocolli di rete e la potenziale congestione della rete possono ostacolare le prestazioni. Avere un'enorme capacità direttamente collegata alla tua GPU consente lo staging dei dati in modo che non debba aspettare per portare a termine il lavoro quando la GPU inizia a lavorare.

Velocità effettiva dei dati e prestazioni I/O

Gli SSD NVMe locali eccellono nella gestione di un gran numero di operazioni di input/output al secondo (IOPS), che è fondamentale per la natura ad alta intensità di lettura/scrittura dei carichi di lavoro AI. Durante la fase di addestramento, i modelli di intelligenza artificiale richiedono un accesso rapido a vasti archivi di dati, necessitando di soluzioni di archiviazione in grado di tenere il passo con l’elevata domanda di transazioni di dati.

Vista dall'alto delle GPU NVIDIA L40S

Solidigm D5-P5336, progettato per scenari ad alta capacità e prestazioni elevate, offre IOPS eccezionali, consentendo processi di recupero e scrittura dei dati più rapidi. Questa funzionalità garantisce che le GPU rimangano impegnate nell'elaborazione anziché in attesa di dati, massimizzando così l'efficienza e riducendo i tempi di addestramento. Le elevate prestazioni IOPS degli SSD NVMe locali li rendono ideali per gli ambienti esigenti delle applicazioni IA, dove l'accesso e l'elaborazione rapidi dei dati sono essenziali per prestazioni ottimali.

Gestione dei dati

Sebbene in alcuni scenari, avere un ampio spazio di archiviazione collegato direttamente alla GPU semplifichi la gestione dei dati, ciò aggiunge un livello necessario di gestione dei dati per organizzare i dati sul server GPU. In un mondo perfetto, la tua GPU è impegnata nel crunch e la tua CPU esce in rete per salvare checkpoint o scaricare nuovi dati. Le unità Solidigm da 61.44 TB aiutano a ridurre il numero di transazioni dati necessarie. Potresti anche tenerne conto utilizzando una configurazione di rete semplificata e file system distribuiti. Questo approccio diretto può semplificare i flussi di lavoro e ridurre il rischio di errori o ritardi legati ai dati.

Vista frontale del Lenovo ThinkSystem SR675 V3

Supponiamo che tu stia lavorando all'interno di un singolo server, mettendo a punto modelli che si adattano a una manciata di GPU collegate localmente. In tal caso, hai il vantaggio dell'archiviazione locale, che è più semplice da configurare e gestire rispetto alle soluzioni di archiviazione di rete. La configurazione, l'amministrazione e la manutenzione dello storage collegato alla rete può essere complessa e richiedere molto tempo e spesso richiede conoscenze specializzate e infrastrutture aggiuntive. Al contrario, le soluzioni di archiviazione locale come gli SSD NVMe sono più semplici da integrare nelle configurazioni dei server esistenti.

Schema Lenovo ThinkSystem SR675 V3

Questa semplicità di configurazione e manutenzione consente ai team IT di concentrarsi maggiormente sull'ottimizzazione dei carichi di lavoro AI piuttosto che occuparsi delle complessità della gestione dello storage di rete. Di conseguenza, l’implementazione e la gestione dello storage per le applicazioni AI diventa più semplice ed efficiente con gli SSD NVMe locali.

Costo e scalabilità

Sebbene le soluzioni NAS possano scalare orizzontalmente aggiungendo più dispositivi di archiviazione, comportano anche costi legati all'infrastruttura di rete e potenziali colli di bottiglia nelle prestazioni. Al contrario, investire in storage locale ad alta capacità può fornire vantaggi immediati in termini di prestazioni senza aggiornamenti estesi della rete.

Le soluzioni di storage locale sono spesso più convenienti rispetto ai sistemi di storage collegati alla rete (NAS) perché eliminano la necessità di hardware di rete costoso e configurazioni complesse. La configurazione e la manutenzione del NAS comporta investimenti significativi in ​​apparecchiature di rete, come switch e router ad alta velocità, e costi continui di gestione e manutenzione della rete.

Gli SSD locali di grande capacità integrati direttamente nel server vengono utilizzati come area di staging, riducendo la necessità di infrastrutture aggiuntive. Questa integrazione diretta riduce i costi hardware e semplifica il processo di configurazione, rendendolo più conveniente per le organizzazioni che desiderano ottimizzare i propri carichi di lavoro AI senza incorrere in spese elevate.

Metodologia di test

Per valutare a fondo le prestazioni degli SSD Solidigm QLC da 61.44 TB in una configurazione di server AI, esamineremo una serie di quattro SSD Solidigm P5336 da 61.44 TB installati in un Lenovo ThinkSystem SR675 V3. Questa configurazione del server include anche un set di quattro GPU NVIDIA L40S. Lo strumento di benchmarking utilizzato a questo scopo è GDSIO, un'utilità specializzata progettata per misurare le prestazioni di archiviazione in ambienti di archiviazione diretta tramite GPU (GDS). Abbiamo esaminato due configurazioni: una GPU per prestazioni a unità singola e una GPU per quattro unità configurate per RAID0.

Vista dall'alto del Lenovo ThinkSystem SR675 V3 con quattro GPU L40S

Resta con noi. Le sezioni seguenti trattano le specifiche dei test e il modo in cui imitano le diverse fasi della pipeline dell'intelligenza artificiale.

Parametri di prova

Il processo di benchmarking coinvolge vari parametri di test che simulano diverse fasi della pipeline AI. Questi parametri includono io_sizes, threads e transfer_type, ciascuno scelto per rappresentare aspetti specifici dei carichi di lavoro AI.

1. Dimensioni IO:

  • 4K, 128K, 256K, 512K, 1M, 4M, 16M, 64M, 128M: Queste dimensioni I/O variabili aiutano a simulare diversi modelli di trasferimento dati. Dimensioni I/O più piccole (128K, 256K, 512K) simulano scenari in cui si accede frequentemente a piccoli blocchi di dati, tipici durante le fasi di preparazione dei dati. Dimensioni I/O maggiori (1 M, 4 M, 16 M, 64 M, 128 M) rappresentano trasferimenti di dati in blocco spesso osservati durante le fasi di training e inferenza, in cui vengono spostati interi batch di dati.

2. Discussioni:

  • 1, 4, 16, 32: Il numero di thread rappresenta il livello di concorrenza di accesso ai dati. Un singolo thread testa le prestazioni di base, mentre un numero maggiore di thread (4, 16, 32) simula attività di elaborazione dati parallele più intense, simili a ciò che accade durante sessioni di formazione su larga scala in cui più flussi di dati vengono gestiti contemporaneamente.

3. Tipi di trasferimento:

  • Memoria->GPU (GDS): Questo tipo di trasferimento sfrutta GPU Direct Storage (GDS), consentendo trasferimenti diretti di dati tra SSD e GPU, bypassando la CPU. Questa configurazione è ideale per testare l'efficienza dei percorsi dati diretti e ridurre al minimo la latenza, riflettendo scenari di inferenza in tempo reale.
  • Archiviazione->CPU->GPU: Questo percorso di trasferimento dati tradizionale prevede lo spostamento dei dati dallo spazio di archiviazione alla CPU prima di trasferirli alla GPU. Questo metodo simula scenari in cui potrebbe verificarsi un'elaborazione intermedia o la memorizzazione nella cache a livello di CPU, prevista durante la fase di preparazione dei dati. Potremmo sostenere che questo percorso dati rappresenterebbe le prestazioni indipendentemente dal fornitore della GPU.
  • Archiviazione->PAGE_CACHE->CPU->GPU: Questo percorso utilizza la cache della pagina per i trasferimenti di dati, in cui i dati vengono prima memorizzati nella cache prima di essere elaborati dalla CPU e quindi trasferiti alla GPU. Questa configurazione è utile per testare l'impatto dei meccanismi di memorizzazione nella cache e della larghezza di banda della memoria sulle prestazioni complessive, il che è pertinente durante l'addestramento quando i dati potrebbero essere pre-elaborati e memorizzati nella cache per efficienza. Ancora una volta, potremmo sostenere che questo percorso dati rappresenterebbe le prestazioni indipendentemente dal fornitore della GPU.

Imitazione delle fasi della pipeline AI

I test benchmark sono progettati per riflettere le diverse fasi del processo di intelligenza artificiale, garantendo che i parametri prestazionali ottenuti siano pertinenti e completi.

Preparazione dei dati:

  • Dimensioni IO: Più piccolo (128K, 256K, 512K)
  • discussioni: 1, 4
  • Tipi di trasferimento: “Archiviazione->CPU->GPU”, “Archiviazione->PAGE_CACHE->CPU->GPU”
  • Scopo: Valuta il modo in cui gli SSD gestiscono i frequenti trasferimenti di dati di piccole dimensioni e il coinvolgimento della CPU, fondamentali durante le fasi di acquisizione, pulizia e aumento dei dati.

Formazione e messa a punto:

  • Dimensioni IO: Medio-grande (1M, 4M, 16M)
  • discussioni: 4, 16, 32
  • Tipi di trasferimento: “Archiviazione->GPU (GDS)”, “Archiviazione->CPU->GPU”
  • Scopo: Valutare le prestazioni in condizioni di elevata velocità effettiva con più flussi di dati simultanei, che rappresentano la gestione intensiva dei dati richiesta durante l'addestramento e il perfezionamento del modello.

Inferenza:

  • Dimensioni IO: Da grande a molto grande (16M, 64M, 128M) e 4K
  • discussioni: 1, 4, 16
  • Tipi di trasferimento: Archiviazione->GPU (GDS)
  • Scopo: Misura l'efficienza dei trasferimenti dati diretti e su larga scala alla GPU, fondamentale per le applicazioni di inferenza in tempo reale in cui l'accesso rapido ai dati e la latenza minima sono fondamentali. 4K è progettato per esaminare le ricerche che si verificano nel database RAG.

Variando questi parametri e testando diverse configurazioni, possiamo ottenere un profilo prestazionale dettagliato degli SSD QLC Solidigm da 61.44 TB in un ambiente server AI ad alte prestazioni, fornendo informazioni sulla loro idoneità e ottimizzazione per vari carichi di lavoro AI. Abbiamo esaminato i dati eseguendo più di 1200 test in poche settimane.

Configurazione del server

Vista frontale del Lenovo ThinkSystem SR675 V3


Architettura Lenovo ThinkSystem SR675 V3

Risultati del benchmark

Innanzitutto, esaminiamo i carichi di lavoro di tipo training e inferenza. La dimensione IO 1024K di GPU Direct rappresenta il caricamento del modello, i dati di training caricati sulla GPU e altri lavori di inferenza batch di grandi dimensioni come nel lavoro di immagini o video.

4 Guida Tipo di I / O Tipo di trasferimento Discussioni Dimensioni del set di dati (KiB) Dimensioni I/O (KiB) Velocità effettiva (GiB/sec) Latenza media (usec)
SCRIVERE GPUD 8 777,375,744 1024 12.31 634.55
LEGGI GPUD 8 579,439,616 1024 9.30 840.37
RANDWRITE GPUD 8 751,927,296 1024 12.04 648.67
RANDREAD GPUD 8 653,832,192 1024 10.50 743.89

Successivamente, esamineremo le dimensioni IO più piccole, per un carico di lavoro di tipo RAG, ad esempio in cui l'accesso rapido e casuale ai dati 4K a un database RAG archiviato su disco. Un I/O casuale efficiente è necessario per gli scenari in cui i carichi di lavoro di inferenza devono accedere ai dati in modo non sequenziale, ad esempio con sistemi di raccomandazione o applicazioni di ricerca. La configurazione RAID0 mostra buone prestazioni per operazioni sequenziali e casuali, il che è cruciale per le applicazioni AI che coinvolgono un mix di modelli di accesso come RAG. I valori di latenza di lettura sono notevolmente bassi, soprattutto nei formati GPUD modalità.

Qui sono stati selezionati 8 thread di lavoro, che non saturano completamente l'SSD, ma forniscono un'istantanea più rappresentativa di ciò che potresti trovare in un carico di lavoro di tipo RAG. Ciò fornisce il contesto di un'applicazione standardizzata attorno alla prospettiva della GPU con un numero limitato di lavori lavorati e una profondità di coda più elevata, vale la pena notare che ciò dimostra che ci sono più prestazioni rimaste sul tavolo che possono essere ottenute attraverso ulteriori ottimizzazioni del software. .

4 Guida Tipo di I / O Tipo di trasferimento Discussioni Dimensioni del set di dati (KiB) Dimensioni I/O (KiB) Velocità effettiva (GiB/sec) Latenza media (usec)
SCRIVERE GPUD 8 69,929,336 4 1.12 27.32
LEGGI GPUD 8 37,096,856 4 0.59 51.52
RANDWRITE GPUD 8 57,083,336 4 0.91 33.42
RANDREAD GPUD 8 27,226,364 4 0.44 70.07

Se non utilizzi GPU Direct a causa di librerie o GPU non supportate, ecco questi due tipi se utilizzi la CPU nel trasferimento dei dati. In questo server specifico, il Lenovo ThinkSystem SR675 V3, poiché tutti i dispositivi PCIe passano attraverso il complesso root della CPU, vediamo una larghezza di banda comparabile ma subiamo un duro colpo sulla nostra latenza. Possiamo aspettarci un miglioramento in un sistema con switch PCIe.

4 Guida Tipo di I / O Tipo di trasferimento Discussioni Dimensioni del set di dati (KiB) Dimensioni I/O (KiB) Velocità effettiva (GiB/sec) Latenza media (usec)
SCRIVERE CPU_GPU 8 767,126,528 1024 12.24 638.05
LEGGI CPU_GPU 8 660,889,600 1024 10.58 738.75
RANDWRITE CPU_GPU 8 752,763,904 1024 12.02 649.76
RANDREAD CPU_GPU 8 656,329,728 1024 10.47 746.26
SCRIVERE CPU_GPU 8 69,498,220 4 1.11 27.47
LEGGI CPU_GPU 8 36,634,680 4 0.58 52.31

La tabella indica velocità di throughput elevate per le operazioni di lettura, in particolare con GPUD tipo di trasferimento. Ad esempio, leggi le operazioni in GPUD la modalità raggiunge oltre 10.5 GiB/sec. Ciò avvantaggia i carichi di lavoro dell’intelligenza artificiale, che spesso richiedono un rapido accesso ai dati per l’addestramento di modelli di grandi dimensioni.

Le prestazioni bilanciate tra operazioni casuali e sequenziali rendono questa configurazione adatta per attività di inferenza, che spesso richiedono un mix di questi modelli di accesso. Sebbene i valori di latenza non siano estremamente bassi, rientrano comunque entro limiti accettabili per molte applicazioni di inferenza.

Inoltre, osserviamo tassi di throughput impressionanti, con operazioni di scrittura che raggiungono fino a 12.31 GiB/sec e operazioni di lettura fino a 9.30 GiB/sec. Questo throughput elevato avvantaggia i carichi di lavoro di intelligenza artificiale che richiedono un accesso rapido ai dati per l'addestramento e l'inferenza dei modelli.

Letture sequenziali e ottimizzazione

Passando alla dimensione IO di 128 milioni e scorrendo i thread di lavoro, possiamo vedere il risultato dell'ottimizzazione di un carico di lavoro per una soluzione di archiviazione.

Tipo di trasferimento Discussioni Velocità effettiva (GiB/s) Latenza (usec)
Archiviazione->CPU->GPU 16 25.134916 79528.88255
Archiviazione->CPU->GPU 4 25.134903 19887.66948
Archiviazione->CPU->GPU 32 25.12613 159296.2804
Archiviazione->GPU (GDS) 4 25.057484 19946.07198
Archiviazione->GPU (GDS) 16 25.044871 79770.6007
Archiviazione->GPU (GDS) 32 25.031055 159478.8246
Archiviazione->PAGE_CACHE->CPU->GPU 16 24.493948 109958.4447
Archiviazione->PAGE_CACHE->CPU->GPU 32 24.126103 291792.8345
Archiviazione->GPU (GDS) 1 23.305366 5362.611458
Archiviazione->PAGE_CACHE->CPU->GPU 4 21.906704 22815.52797
Archiviazione->CPU->GPU 1 15.27233 8182.667969
Archiviazione->PAGE_CACHE->CPU->GPU 1 6.016992 20760.22778

Scrivere correttamente qualsiasi applicazione per interagire con lo storage è fondamentale e deve essere preso in considerazione poiché le aziende desiderano massimizzare il proprio investimento nella GPU.

GPU diretta

Isolando le prestazioni GPU Direct-only in tutti i test, possiamo avere un'idea generale di come brilla la tecnologia NVIDIA.

Tipo di I / O Tipo di trasferimento Discussioni Dimensioni del set di dati (KiB) Dimensioni I/O (KiB) Velocità effettiva (GiB/sec) Latenza media (usec)
SCRIVERE GPUD 8 777,375,744 1024 12.31 634.55
LEGGI GPUD 8 579,439,616 1024 9.30 840.37
RANDWRITE GPUD 8 751,927,296 1024 12.04 648.67
RANDREAD GPUD 8 653,832,192 1024 10.50 743.89
SCRIVERE GPUD 8 69,929,336 4 1.12 27.32
LEGGI GPUD 8 37,096,856 4 0.59 51.52
RANDWRITE GPUD 8 8,522,752 4 0.14 224.05
RANDREAD GPUD 8 21,161,116 4 0.34 89.99
RANDWRITE GPUD 8 57,083,336 4 0.91 33.42
RANDREAD GPUD 8 27,226,364 4 0.44 70.07

Pensieri di chiusura

Poiché questo articolo si concentra sul Solidigm 61.44TB P5336, facciamo un passo indietro e affrontiamo il dibattito TLC vs. QLC su prestazioni vs. capacità. Quando guardiamo gli altri prodotti nel portafoglio Solidigm, come la linea D7, che utilizza TLC 3D NAND, la capacità è limitata in cambio delle prestazioni. Nei nostri test, in particolare con le unità Solidigm da 61.44 TB, abbiamo riscontrato prestazioni di throughput complessivamente in grado di mantenere adeguatamente le GPU alimentate con dati a basse latenze. Stiamo ricevendo feedback da ODM e OEM sulla richiesta di sempre più spazio di archiviazione il più vicino possibile alla GPU, e l'unità Solidigm D5-P5336 sembra essere all'altezza. Dato che di solito c'è un numero limitato di alloggiamenti NVMe disponibili nei server GPU, le unità Solidigm ad alta densità sono in cima alla lista per l'archiviazione del server GPU locale.

In definitiva, l’enorme capacità di archiviazione offerta da queste unità, insieme alle GPU, è solo una parte della soluzione; devono ancora comportarsi bene. Una volta aggregate le prestazioni di un singolo disco su più unità, è chiaro che è disponibile un throughput sufficiente anche per le attività più impegnative. Nel caso della configurazione RAID4 a 0 unità utilizzando GDSIO, il throughput totale per le operazioni di scrittura potrebbe raggiungere fino a 12.31 GiB/sec e per le operazioni di lettura potrebbe raggiungere fino a 25.13 GiB/sec.

Vista posteriore di Lenovo ThinkSystem SR675 V3 per GPU

Questo livello di throughput è più che sufficiente anche per le attività di intelligenza artificiale più impegnative, come l’addestramento di grandi modelli di deep learning su enormi set di dati o l’esecuzione di inferenze in tempo reale su flussi video ad alta risoluzione. La capacità di scalare le prestazioni aggiungendo più unità all'array RAID0 lo rende una scelta interessante per le applicazioni IA in cui l'accesso rapido ed efficiente ai dati è fondamentale.

Tuttavia, è importante notare che le configurazioni RAID0, pur offrendo prestazioni elevate, non forniscono alcuna ridondanza dei dati. Pertanto, è essenziale implementare adeguate strategie di backup e protezione dei dati per prevenire la perdita di dati in caso di guasto dell'unità.

Un'altra considerazione unica nei data center di oggi è la potenza. Con i server AI che assorbono più energia che mai e non mostrano segni di rallentamento, la potenza totale disponibile è uno dei maggiori colli di bottiglia per coloro che desiderano portare le GPU nei propri data center. Ciò significa che si presta ancora più attenzione al risparmio di ogni watt possibile. Se riesci a ottenere più TB per watt, affrontiamo alcuni interessanti processi di riflessione sul TCO e sui costi dell'infrastruttura. Anche togliendo queste unità dal server GPU e inserendole in un server di archiviazione su scala rack è possibile ottenere un throughput enorme con capacità estreme.

L'integrazione degli SSD QLC Solidigm D5-P5336 da 61.44 TB con server AI NVMe con slot limitato rappresenta un progresso significativo nell'affrontare le sfide di storage dei moderni carichi di lavoro AI. La loro densità estrema, le caratteristiche prestazionali e il rapporto TB/watt li rendono ideali per le fasi di preparazione, training, messa a punto e inferenza dei dati. Ottimizzando l’uso delle corsie PCIe e fornendo soluzioni di storage ad alta capacità, questi SSD consentono alla moderna AI Factory di concentrarsi sullo sviluppo e sull’implementazione di modelli più sofisticati e accurati, guidando l’innovazione nel campo dell’intelligenza artificiale.

SSD Solidigm

Pagina Lenovo ThinkSystem SR675 V3

Questo rapporto è sponsorizzato da Solidigm. Tutti i pareri e le opinioni espressi in questo rapporto si basano sulla nostra visione imparziale dei prodotti in esame.

Interagisci con StorageReview

Newsletter | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS feed