Casa Impresa Prestazioni e resilienza: Graid SupremeRAID per carichi di lavoro AI e HPC

Prestazioni e resilienza: Graid SupremeRAID per carichi di lavoro AI e HPC

by Kevin O'Brien

Graid Technology stabilisce nuovi standard di protezione dei dati e prestazioni con SupremeRAID, in particolare per i carichi di lavoro AI e HPC.

SupremeRAID di Graid Technology continua a ridefinire il panorama dello storage impostando nuovi standard di protezione dei dati e prestazioni, in particolare per carichi di lavoro moderni come AI e High-Performance Computing (HPC). Le configurazioni RAID tradizionali spesso hanno difficoltà a soddisfare le esigenze di questi ambienti ad alta intensità di dati, in particolare quando si affidano a schede RAID hardware vincolate dalle limitazioni del bus PCIe. Sfruttando l'accelerazione GPU, Graid abbatte queste barriere, offrendo prestazioni eccezionali con un impatto minimo sulle risorse della CPU, garantendo al contempo una solida protezione RAID.

Graid SupremeRAID per AI e HPC

Server Gigabyte S183-SH0-AAV1

In carichi di lavoro avanzati come AI e HPC, vengono comunemente impiegate anche configurazioni alternative come JBOD (Just a Bunch of Disks) e software RAID (mdadm). Sebbene pratico se abbinato al checkpointing per prevenire la perdita di dati, JBOD introduce più punti di errore e grava gli amministratori IT con processi di ripristino impegnativi. Il software RAID offre resilienza dei dati ma drena preziose risorse della CPU per gestire i dati di parità RAID e ha prestazioni inferiori in molte aree. Al contrario, SupremeRAID di Graid fornisce una soluzione semplificata e ad alte prestazioni che semplifica la gestione dei dati senza compromettere la velocità o l'affidabilità.

Scheda RAID SupremeGraid

In questo documento verrà esaminato un confronto delle prestazioni tra SupremeRAID, JBOD e il software RAID di Graid, illustrando perché Graid emerge come la scelta migliore per gli ambienti IT in cui le prestazioni e la protezione dei dati sono fondamentali.

Banco di prova delle prestazioni

Abbiamo usato il Modello: S183-SH0-AAV1 server dual Intel 5th Gen Scalable 1U per questo banco di prova. Volevamo trovare un server compatto con molta potenza di elaborazione e, guarda caso, il server supporta 32 SSD E1.S, il massimo supportato da un singolo Graid SupremeRAID SR-1010. Il server Gigabyte ha 32 slot DIMM, con supporto RDIMM da 96 GB e RDIMM 256DS da 3 GB. Questa piattaforma offre tre slot FHHL PCIe Gen5 nella parte posteriore, offrendo numerose opzioni per la connettività di rete ad alta velocità. Inoltre, la scheda madre fornisce una doppia rete integrata da 1 GbE e una porta di gestione da 1 GbE.

DRAM HPC a densità elevata

Kingston 96GB DDR5-5600 ECC RDIMM

Il server supporta 32 slot DIMM, ma in questo caso, abbiamo popolato con 16 DIMM Kingston, 1 DIMM per canale (1DPC) per la massima velocità DRAM. Se il carico di lavoro richiede un ingombro maggiore, è possibile passare a DIMM a densità più elevata o a una configurazione 2DPC, ma quest'ultima riduce la velocità DRAM a 4400 MT/s. Il Kingston 96GB DDR5-5600 ECC RDIMM in questo server offrono un'eccellente combinazione di prestazioni per dollaro, rendendoli un'opzione interessante per carichi di lavoro che necessitano di DRAM ad alta velocità e un ingombro DRAM ragionevole senza il sovrapprezzo dei DIMM da 128 GB. Questi moduli offrono il meglio di entrambi i mondi per carichi di lavoro HPC e AI intensivi. 

SSD KIOXIA XD7.68P da 7 TB

I 32 alloggiamenti SSD E1.S sono popolati da SSD KIOXIA XD7.68P da 7 TB. Le unità utilizzano un'interfaccia PCIe Gen4 x2 e offrono una larghezza di banda massima di 7.2 GB/s in lettura e 4.8 GB/s in scrittura. KIOXIA ha progettato queste unità specificamente per carichi di lavoro intensivi di iperscala e HPC, in cui i vantaggi di densità degli SSD E1.S sono vantaggiosi. È importante sottolineare che KIOXIA ha garantito che il design termico dell'XD7P sia pronto a tenere il passo con questo design di server denso, anche sotto carico pesante.

I/O posteriore del server Gigabyte S183-SH0-AAV1

Test delle specifiche del sistema

  • Server Gigabyte S183-SH0-AAV1
  • 2 CPU Intel Xeon Platinum 8592+ (64 core, 1.9 GHz)
  • 16 Kingston DDR96-5 da 5600 GB
  • 32 x SSD KIOXIA XD7P 7.68 TB E1.S
  • Graid SupremeRAID SR-1010
  • Ubuntu 22.04.4 Server

Risultati dei test delle prestazioni

I carichi di lavoro HPC possono funzionare per giorni, settimane o mesi alla volta e, senza un backend storage resiliente, un singolo guasto dell'unità può riportare questi lavori al punto di partenza. Per valutare l'impatto di Graid sia sulla resilienza che sulle prestazioni per i carichi di lavoro HPC e Ai, esaminiamo le prestazioni del benchmark di storage interno di y-cruncher. L'obiettivo è confrontare una varietà di configurazioni di storage, JBOD, software RAID e Graid SupremeRAID, per comprenderne l'impatto sui carichi di lavoro ad alta intensità di CPU.

Configurazione RAID

Sappiamo che il software RAID mdadm registra un sostanziale colpo di scrittura per i dati di parità. Mentre RAID10 otterrebbe prestazioni più elevate, ridurrebbe anche significativamente la capacità utilizzabile. Per ottimizzare al meglio le prestazioni del software RAID5, abbiamo configurato due pool RAID5, suddivisi tra gli SSD 0-15 e 16-31. Ciò li ha bilanciati su entrambe le CPU.

Il confronto Graid è stato anche ottimizzato per utilizzare due pool RAID5, con una suddivisione uniforme di metà degli SSD su CPU0 e l'altra metà su CPU1 per il bilanciamento NUMA. Abbiamo testato con un singolo volume su ciascun pool RAID5 e due volumi per pool RAID5.

Ogni unità è mappata individualmente nella configurazione JBOD, garantendo un bilanciamento NUMA uniforme.

Non abbiamo potuto includere l'hardware RAID in questo report, poiché il modo in cui le unità sono cablate in questo server rende le tradizionali schede RIAD hardware non supportate. Vale la pena notare, tuttavia, che anche se potessimo, lo scenario migliore sarebbe raggiungere il limite di larghezza di banda di uno slot PCIe Gen4 x16 per una singola scheda, circa 28 GB/s.

Configurazione software

Per questi vari scenari di archiviazione, abbiamo utilizzato y-cruncherstrumento di test delle prestazioni interno di. I risultati del test sono suddivisi in prestazioni di lettura e scrittura sequenziali, velocità di I/O di calcolo, velocità di I/O del disco e rapporto tra velocità di I/O del disco e velocità di calcolo. Abbiamo selezionato questo strumento perché stressa contemporaneamente CPU, memoria e I/O dell'unità. Sebbene non rappresenti un singolo carico di lavoro specifico, abbiamo scoperto che i dati che genera sono strettamente correlati alle prestazioni complessive del sistema in applicazioni ad alto I/O. In particolare, il test di I/O include l'elaborazione effettiva dei dati anziché semplicemente spingere i bit attraverso un'interfaccia il più rapidamente possibile, rendendolo un riflesso più accurato delle prestazioni del sistema in condizioni di carico reale.

Le prestazioni di lettura e scrittura sequenziali indicano la velocità grezza dell'array di dischi. La velocità di elaborazione è la velocità con cui la CPU elabora i dati, mentre la velocità di I/O del disco è la velocità con cui i dati possono essere trasmessi alla CPU durante il lavoro di elaborazione. I carichi di lavoro che vanno su disco necessitano di una velocità di I/O del disco superiore alla velocità di elaborazione per non rallentare. Se questo rapporto è inferiore a 1.0, il disco è un collo di bottiglia, mentre oltre 1.0, la CPU è un collo di bottiglia. y-cruncher per grandi carichi di lavoro funziona meglio quando il rapporto è 2.0 o superiore.

Configurazione di archiviazione Lettura sequenziale GB/s Scrittura sequenziale GB/s Calcolo GB/s I/O disco GB/s Rapporto
JBOD diretto 102 102 18.4 81.5 4.42
RAID 5 x 2 2VD 64.3 43.8 23.1 70.4 3.05
RAID 5 x 2 4VD 85.2 73.7 22.1 69.4 3.14
RAID 5 x 2 122 3.6 25.7 10.9 0.42

Con JBOD diretto su 32 SSD E1.S individuali, y-cruncher ha ottenuto prestazioni di 102 GB/s in lettura e 102 GB/s in scrittura con il suo processo di striping interno. Questa è in genere la prestazione più elevata che y-cruncher vedrà per questa piattaforma, anche se il compromesso è la mancanza di parità dei dati. Quando la configurazione è stata commutata su volumi RAID5 software (distribuiti su entrambe le CPU) con mdadm, le prestazioni sequenziali sono crollate a soli 3.6 GB/s in scrittura e 122 GB/s in lettura. Graid con due pool RAID5 e due volumi ha misurato 64.3 Gb/s in lettura con prestazioni in scrittura a 43.8 GB/s. Dividendolo in due pool RAID5 ma con quattro volumi, Graid ha ottenuto un aumento della larghezza di banda a 85.2 GB/s in lettura e 73.7 GB/s in scrittura.

Con i numeri di larghezza di banda affrontati e lo spettro di opzioni di configurazione di storage compreso, approfondiamo l'impatto di questa decisione sull'applicazione. Il rapporto tra larghezza di banda di calcolo e I/O del disco ha visto il rapporto più alto di 4.43 dalla configurazione JBOD. Il RAID5 software era un misero 0.42, mentre il RAID5 Graid 3.05 con 2VD e 3.14 con 4VD.

In questo esempio di y-cruncher, che include tutte le capacità di prestazioni del server, è richiesto un rapporto di 2.0 o superiore per prestazioni ottimali. Mentre la configurazione JBOD garantisce i migliori risultati complessivi, lo fa a scapito dei dati di parità, il che significa che un guasto di qualsiasi unità, anche per un momento, significa perdita di dati. D'altro canto, il software RAID può offrire disponibilità dei dati e una velocità di lettura superiore a JBOD, ma le scritture soffrono così gravemente che l'I/O del disco non riesce a tenere il passo con la CPU, ottenendo il terribile risultato di .42.

Questi due punti dati sono essenziali per comprendere il vantaggio che Graid SupremeRAID offre a questi carichi di lavoro. Per questo caso d'uso, i numeri delle prestazioni aggregate si trovano tra JBOD e RAID software, ma l'I/O grezzo non è la storia completa. Questo esempio mostra che Graid può fornire più delle prestazioni dell'applicazione richieste, fornendo anche la disponibilità dei dati. Questa combinazione significa che le organizzazioni che utilizzano Graid possono aspettarsi protezione RAID, storage e prestazioni dell'applicazione con un'architettura non bloccante che supera di gran lunga ciò che una scheda RAID tradizionale potrebbe fornire.

Conclusione

SupremeRAID di Graid Technology spinge costantemente i confini della protezione dei dati e delle prestazioni, stabilendo un nuovo standard nel settore. Sfruttando la potenza dell'accelerazione GPU, Graid offre velocità ed efficienza senza pari nelle configurazioni RAID, riducendo significativamente lo sforzo della CPU e massimizzando al contempo la produttività.

I dati che abbiamo raccolto per questo report dimostrano la capacità di Graid di garantire una solida protezione dei dati, soddisfacendo al contempo i severi requisiti dei moderni carichi di lavoro AI e HPC, aree in cui le soluzioni RAID tradizionali e RAID software spesso risultano carenti. Questa efficienza consente a risorse di sistema critiche come CPU, DRAM e storage di contribuire pienamente alle prestazioni delle applicazioni che sono progettate per supportare, migliorando il valore e l'efficacia complessivi del sistema.

Tecnologia Graid

Questo rapporto è sponsorizzato da Graid Technology. Tutti i punti di vista e le opinioni espresse in questo rapporto si basano sulla nostra visione imparziale del/i prodotto/i in esame.

Interagisci con StorageReview

Newsletter | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS feed