Anche se c'è una notevole quantità di clamore intorno ai server GPU ad alta densità per l'intelligenza artificiale, e giustamente, la realtà è che la maggior parte dei progetti di formazione sull'intelligenza artificiale iniziano sulle workstation. Anche se ora possiamo inserire fino a quattro GPU NVIDIA A6000 Ada in una singola workstation, la cosa più impegnativa è ottenere uno storage robusto in questi box AI. Abbiamo pensato a questo problema e abbiamo elaborato un piano per fornire al meglio alcune workstation AI con spazio di archiviazione ad alta velocità. Abbiamo collaborato con Supermicro e KIOXIA per riempire un server con 24 SSD XD7.68P da 7 TB per creare un server di archiviazione 1U incredibilmente capace con un asso nella manica per l'inferenza.
Anche se c'è una notevole quantità di clamore intorno ai server GPU ad alta densità per l'intelligenza artificiale, e giustamente, la realtà è che la maggior parte dei progetti di formazione sull'intelligenza artificiale iniziano sulle workstation. Anche se ora possiamo inserire fino a quattro GPU NVIDIA A6000 Ada in una singola workstation, la cosa più impegnativa è ottenere uno storage robusto in questi box AI. Abbiamo pensato a questo problema e abbiamo elaborato un piano per fornire al meglio alcune workstation AI con spazio di archiviazione ad alta velocità. Abbiamo collaborato con Supermicro e KIOXIA per riempire un server con 24 SSD NVMe per data center serie XD7.68P da 7 TB per creare un server di archiviazione 1U incredibilmente capace con un asso nella manica per l'inferenza.
Sappiamo cosa stai pensando: come intendi collegare una piattaforma server piena di SSD E1.S, workstation che addestrano modelli di intelligenza artificiale e inferenza sullo stesso server di archiviazione? Concedetevi un po' di libertà per spiegare.
Le workstation AI non devono necessariamente essere sotto la scrivania
Con poche eccezioni, le workstation AI ad alta potenza con GPU costose probabilmente non dovrebbero essere distribuite ai margini o probabilmente nemmeno all’interno di un edificio per uffici. I problemi sono molti. Innanzitutto, questi endpoint sono ad alto rischio di minacce alla sicurezza e perdita di dati e, soprattutto, soffrono di sottoutilizzo. La maggior parte dei professionisti dell’intelligenza artificiale non possono accedere alla grande quantità di dati necessari per addestrare i propri modelli a causa di configurazioni LAN inadeguate.
Se invece collocassimo queste potenti workstation nel data center, ora otterremmo numerosi vantaggi. Innanzitutto, la sicurezza fisica viene risolta e i problemi di accesso remoto possono essere mitigati con thin client o un accesso che invia solo pixel anziché dati in rete. In questo scenario, i dati risiedono sul server anziché sulla workstation. In secondo luogo, è più veloce, se non più semplice, eseguire il backup di questi sistemi nel data center. In terzo luogo, con il provisioning intelligente possiamo aumentare l’utilizzo all’interno dell’azienda condividendo questi sistemi con una forza lavoro IA distribuita. Infine, essere nel data center ci dà accesso alla risorsa AI più preziosa: i dati.
Per questo lavoro abbiamo effettuato il provisioning di tre workstation Lenovo che avevamo in laboratorio. Ciascuno è configurato in modo leggermente diverso, sfruttando sia le GPU AMD che NVIDIA, offrendo flessibilità poiché alcuni modelli potrebbero funzionare meglio su acceleratori diversi. Su ogni sistema è installata una scheda NVIDIA ConnectX-6 100GbE, fondamentale per garantire a questi sistemi un accesso rapido allo spazio di archiviazione. Ciascun sistema si connette quindi a uno switch Dell Z9100 100GbE, al quale è collegato anche il servizio di storage.
Parte | Workstation 1 | Workstation 2 | Workstation 3 |
Modello | Lenovo P620 | Lenovo P620 | Lenovo P5 |
CPU | AMD Ryzen Threadripper PRO 5995WX | AMD Ryzen Threadripper PRO 3995WX | Intel Xeon w7-2495X |
Memorie | 128GB DDR4 3200 | 32GB DDR4 3200 | 32GB DDR5 4800Mhz |
GPU | AMD RadeonPRO W7900 | NVIDIARTX A6000 | NVIDIARTX A4500 |
Storage AI veloce con gli SSD serie KIOXIA XD7P
Una volta sistemato il banco di prova della workstation AI, passiamo al server di archiviazione. In questo caso, stiamo usando a Supermicro Storage SuperServer SSG-121E-NES24R. Questo server 1U è dotato di doppi processori Intel Xeon Platinum 8450H con 28 core e 56 thread con una frequenza di base di 2.00 GHz. I processori 8450H possono raggiungere una frequenza turbo massima di 3.50 GHz con una cache di 75 MB e un TDP di 250 W. I 512 GB di RAM DDR5 rappresentano un ingombro di RAM relativamente modesto. Il server utilizza la stessa scheda NIC NVIDIA ConnectX-6 100GbE delle workstation per la connettività. Abbiamo anche installato una GPU NVIDIA A2 per l'inferenza.
Per quanto riguarda lo storage, KIOXIA ci ha inviato 24 SSD NVMe per data center serie XD7P. Gli SSD KIOXIA XD7P serie E1.S sono progettati specificamente per soddisfare le esigenze delle applicazioni hyperscale presenti nei data center moderni, in particolare per quanto riguarda prestazioni, efficienza energetica e requisiti termici come delineato dalla specifica SSD Datacenter NVMe di Open Compute Project (OCP).
Questi SSD sono disponibili nelle varianti E9.5.S con spessore di 15 mm e 1 mm, quest'ultima dotata di un dissipatore di calore per migliorare la dissipazione del calore. L'architettura proprietaria di KIOXIA dell'XD7P, che comprende controller, firmware e 5th-gen BiCS FLASH™, contribuisce all'efficienza, all'affidabilità e alle prestazioni complessive. La nuova serie è offerta con capacità che vanno da 1.92 TB a 7.68 TB per soddisfare le diverse esigenze di storage.
Alcune funzionalità chiave includono la protezione dalla perdita di alimentazione (PLP) e la protezione dei dati end-to-end, fondamentali per mantenere l'integrità dei dati in scenari che comportano una perdita di alimentazione imprevista. Inoltre, la disponibilità della tecnologia SED (self-encrypting drive) aggiunge un ulteriore livello di sicurezza dei dati.
Per quanto riguarda le prestazioni, gli SSD della serie KIOXIA XD7P offrono numeri potenziali impressionanti con diverse capacità. Con velocità di lettura sequenziale sostenute fino a 7,200 MB/s e velocità di scrittura sequenziale fino a 4,800 MB/s per capacità maggiori, questi SSD sono progettati per gestire in modo efficiente attività ad alta intensità di dati. Inoltre, le velocità di lettura e scrittura casuali sostenute rispettivamente fino a 1,650 IOPS e 200 IOPS, li rendono adatti a carichi di lavoro che richiedono operazioni di I/O elevate.
L'XD7P sfrutta il fattore di forma E1.S per raggiungere un equilibrio unico tra prestazioni e densità. Ciò posiziona le nuove unità come una soluzione lungimirante per lo storage flash nei data center cloud e iperscalabili, rispondendo alle esigenze in evoluzione di questi ambienti esigenti. Le dimensioni standardizzate dell'XD7P e i dissipatori di calore integrati forniscono un mezzo efficiente per ospitare le nostre 24 unità montate frontalmente nel SuperServer 1U SSG-121E-NES24R, aumentando significativamente la densità del server. Inoltre, la possibilità di hot-swap di E1.S, unita alla sua capacità di gestire carichi di lavoro ad alte prestazioni senza problemi termici, lo posiziona come un pratico sostituto del connettore M.2 nei data center, con efficienza e prestazioni migliorate per soluzioni di storage come i data center. .
L'XD7P supporta le corsie PCIe Gen4 x4. L'unità funziona bene con i backplane Gen4 o Gen5.
Specifiche rapide della serie KIOXIA XD7P
Ultra-Grande | 7,680 GB | 3,840 GB | 1,920 GB | 7,680 GB | 3,840 GB | 1,920 GB |
Specifiche di base | ||||||
Fattore di forma | E1.S 15mm | E1.S 9.5mm | ||||
Interfaccia | PCIe 5.0, NVMe 2.0 | |||||
Tipo di memoria flash | BiCS FLASH TLC | |||||
Prestazioni (fino a) | ||||||
Lettura sequenziale sostenuta da 128 KiB | 7,200MB / s | |||||
Scrittura sequenziale sostenuta da 128 KiB | 4,800MB / s | 3,100MB / s | 4,800MB / s | 3,100MB / s | ||
Lettura casuale sostenuta di 4 KiB | 1,550K IOPS | 1,650K IOPS | 1,500K IOPS | 1,550K IOPS | 1,650K IOPS | 1,500K IOPS |
Scrittura casuale sostenuta da 4 KiB | 200K IOPS | 180K IOPS | 95K IOPS | 200K IOPS | 180K IOPS | 95K IOPS |
Requisiti energetici e pneumatici | ||||||
Tensione di alimentazione | 12 V ± 10% | |||||
Consumo energetico (attivo) | 20 W tip. | 20 W tip. | 16 W tip. | 20 W tip. | 20 W tip. | 16 W tip. |
Consumo energetico (pronto) | 5 W tip. | |||||
L’affidabilità | ||||||
MTTF | 2,000,000 ore | |||||
DWPD | 1 |
Prestazioni del server di archiviazione con SSD serie KIOXIA XD7P
Per comprendere meglio le prestazioni di questa combinazione, abbiamo iniziato testando il server di archiviazione con test delle prestazioni interni. Osservando le prestazioni del server di archiviazione, ci siamo concentrati sulle prestazioni grezze complete in una configurazione JBOD in Ubuntu Linux per caratterizzare ciò di cui è capace lo storage.
Abbiamo esaminato il picco di throughput con un carico di lavoro casuale di 4K e poi il picco di larghezza di banda con un carico di lavoro sequenziale di 64K. Questi test sono stati eseguiti sfruttando VDbench in un ambiente Ubuntu 22.04.
Carico di lavoro | Leggi | Scrivi |
---|---|---|
Carico sequenziale da 64 KB, 64 thread | 158GB / s | 64.1GB / s |
4K casuale, carico di 512 thread | 4.09 milioni di IOPS, 16 GB/s | 4.5 milioni di IOPS, 17.7 GB/s |
Nella nostra configurazione sperimentale, abbiamo deciso di utilizzare Windows Storage Spaces in combinazione con il protocollo SMB3 per sfruttare le unità KIOXIA ad alta velocità. Sfruttando Spazi di archiviazione per creare un pool di archiviazione con mirroring resiliente, siamo stati in grado di garantire l'integrità dei dati e ottimizzare le prestazioni di I/O.
Le funzionalità migliorate di SMB3, come le capacità multicanale e gli handle persistenti, consentono lo streaming diretto di blocchi di dati di grandi dimensioni con un throughput elevato su più workstation GPU, aggirando i tradizionali colli di bottiglia spesso associati a una memoria più lenta e legata alla CPU. Questa configurazione aveva il duplice vantaggio di consentire un rapido recupero dei dati consentendo al tempo stesso a più workstation di accedere e caricare contemporaneamente i dati da e verso il nostro storage condiviso basato su KIOXIA.
Mentre i nostri test precedenti misuravano le prestazioni grezze degli SSD della serie KIOXIA XD7P senza file system installato, abbiamo dato una seconda occhiata alle prestazioni all'interno dell'ambiente Windows Server 2022. In questa configurazione, con il disco virtuale con mirroring installato nel nostro ampio pool di archiviazione, abbiamo utilizzato il file system NTFS.
Per confermare le ottime prestazioni del nostro volume con mirroring, abbiamo sfruttato CrystalDiskMark localmente sul server. Questo test è stato impostato per misurare le prestazioni di lettura e scrittura sequenziale con una dimensione di trasferimento di 1 MB e velocità di trasferimento casuali di 4K. Qui, con un ingombro di file di 64 GB, abbiamo misurato 87.4 GB/s in lettura e oltre 18.4 GB/s in scrittura.
Per questo documento, esamineremo le capacità complessive dell'intera soluzione IA; quindi, anche se avere questo tipo di profilo prestazionale è impressionante, KIOXIA ci sta chiaramente offrendo più di quello di cui abbiamo bisogno. Questa è una buona cosa, poiché significa che potremmo facilmente aumentare il numero di workstation AI o assegnare attività aggiuntive al server di archiviazione, che si tratti di pulire e pulire i nostri dati o qualcos'altro.
Alimentazione delle workstation AI Abbondanza di spazio di archiviazione ad alta velocità
Con le nostre workstation GPU posizionate nel rack del laboratorio, collegate in rete con 100 GbE al nostro file server all-flash 1U basato su KIOXIA e configurate le condivisioni, siamo andati a testarlo nella pratica. Nella nostra configurazione di test, abbiamo optato per un collegamento base singolo da 100GbE da ciascuna workstation al nostro switch Dell Z9100 100GbE, che si è poi ricollegato al server di archiviazione con un altro collegamento da 100GbE.
Qui siamo stati in grado di misurare l'impressionante velocità di 11.4 GB/s in lettura e 11 GB/s in scrittura da una condivisione di file Windows dal nostro server di archiviazione KIOXIA.
Questo livello di prestazioni e densità via cavo verso le workstation IA fornirà un valore enorme. Invece di provare a riempire le workstation AI con spazio di archiviazione locale, possiamo condividere uno spazio di archiviazione ancora più performante su 100 GbE con una capacità più o meno illimitata.
GenAI in pratica: set di dati di formazione LLM
Al giorno d'oggi i Large Language Models (LLM) sono i ragazzi più popolari nel blocco IT. Addestrarli e perfezionarli è un’impresa enorme che richiede set di dati enormi e una potenza GPU ancora maggiore per elaborarli. Per caricare alcune workstation GPU ed eseguire alcuni test in stile reale, abbiamo effettuato un dump di tutti gli invii e commenti di testo di Reddit dal 2012 al 2021 con alcune modifiche, nonché il Set di dati di addestramento dell'alpaca di Stanford, al Modello LLaMa per più tentativi di messa a punto. L'obiettivo era valutare l'efficienza, l'accuratezza e la fattibilità del modello LLaMa quando sottoposto a set di dati reali su larga scala.
Dalla piattaforma Windows Server 2022, i 24 SSD KIOXIA serie XD7P sono stati raggruppati insieme in un pool da 168 TB e quindi in un volume con mirroring da 83.7 TB. Questo volume è stato quindi condiviso sulla rete 100GbE con una condivisione di file su ciascuna delle tre workstation da sfruttare. Il server di archiviazione Supermicro Superserver utilizzato è in grado di gestire una dimensione di dati che riempie l'intero volume di 84 TB senza influire sulle prestazioni. La dimensione dei dati attualmente utilizzata è 5.6 TB, ma il volume può gestire dimensioni molto maggiori.
Ogni workstation GPU è stata configurata in modo leggermente diverso per fornire un ambiente diversificato. Abbiamo trattato ogni macchina come se fosse un singolo sviluppatore che lavora con modelli diversi su un set di dati condiviso e non abbiamo distribuito alcuna formazione. La scelta di Windows in questo contesto è stata quella di emulare uno scenario di ricerca o sviluppo iniziale.
Per contestualizzare la scala dei dati con cui abbiamo a che fare, i nostri set di dati per questo test comprendevano 16,372 file per dati di training LLM, che consumavano 3.7 TB di spazio su disco, e altri 8,501 file per dati di training di immagini che occupavano 1.9 TB. In totale, abbiamo lavorato con 24,873 file per un totale di 5.6 TB. È importante notare che abbiamo deliberatamente limitato la dimensione dei nostri set di dati e non abbiamo utilizzato l’intera capacità di archiviazione per questi esperimenti; in caso contrario, il processo di formazione o messa a punto sarebbe stato un tempo proibitivo per questo progetto. Con questa configurazione, tutte le workstation erano in grado di condividere i set di dati e salvare checkpoint e frammenti sul server per la collaborazione.
File | Spazio sul disco | |
Dati sulla formazione LLM | 16,372 | 3.7TB |
Dati di addestramento delle immagini | 8,501 | 1.9TB |
Totale | 24,873 | 5.6TB |
Lo stack software per entrambi i nostri esperimenti era una configurazione semplice e ci siamo affidati alla potenza di Anaconda e sottosistema Windows per Linux (WSL). Anaconda fornisce un ambiente robusto per la gestione delle nostre librerie e dipendenze di machine learning basate su Python, consentendo una configurazione modulare e facilmente replicabile sulle nostre workstation GPU. WSL aiuta a colmare il divario tra le utilità basate su Windows e quelle basate su Linux, offrendo la flessibilità necessaria per eseguire senza problemi strumenti di manipolazione e orchestrazione dei dati specifici di Linux sulle nostre workstation Windows. Potremmo eseguire script di shell per la preelaborazione dei dati e avviare attività di formazione basate su Python, il tutto all'interno di un flusso di lavoro unificato. Parte del motivo per cui abbiamo scelto questa strada non è stata solo la facilità di configurazione, ma anche la parità di condizioni con il nostro ambiente GPU misto.
Durante il processo di formazione sono state fatte alcune osservazioni chiave:
- Diversità dei dati: la fusione dei contributi e dei commenti di Reddit, nell'arco di quasi un decennio, ha presentato al modello un mix eclettico di argomenti, lessici e contesti di conversazione. Questa ricca diversità ha fornito una piattaforma completa affinché il modello comprendesse e si adattasse alle varie sfumature, sentimenti e cambiamenti culturali nel tempo.
- Scalabilità del modello: la gestione di un volume di dati così immenso è stata una cartina di tornasole per la scalabilità del modello LLaMa. Abbiamo scoperto che con l’aumentare delle epoche di addestramento, la capacità del modello di prevedere e generare risposte rilevanti è migliorata considerevolmente, evidenziando il suo potenziale per applicazioni su larga scala. L'overfitting era un problema dopo circa una mezza dozzina, ma non era necessariamente un problema per questo test, poiché l'obiettivo era caricare le nostre GPU e la condivisione di rete più che creare un modello LLM generale.
- Ottimizzazione delle risorse: data l'enorme potenza della GPU richiesta, era fondamentale garantire un utilizzo efficiente delle risorse di calcolo. Per garantire prestazioni ottimali sono stati utilizzati il bilanciamento dinamico del carico, checkpoint periodici e tecniche di aumento dei dati al volo.
- Potenza di apprendimento del trasferimento: l’utilizzo del set di dati di addestramento di Stanford Alpaca insieme ai dati di Reddit è stato determinante nel valutare le capacità di apprendimento del trasferimento del modello. La struttura intrinseca e la natura accademica del set di dati Alpaca, giustapposte alla natura informale e variegata dei dati Reddit, hanno rappresentato una sfida entusiasmante. I risultati hanno indicato che LLaMa potrebbe integrare perfettamente la conoscenza proveniente da fonti disparate, rendendola versatile e adattabile.
- Considerazioni etiche: sebbene il vasto set di dati di Reddit offra un tesoro di informazioni, è essenziale garantire che le informazioni di identificazione personale siano escluse e che i dati vengano utilizzati in modo etico e responsabile. Per la pubblicazione del modello sarebbe necessario mettere in atto rigorosi processi di pulizia e anonimizzazione dei dati per tutelare la privacy degli utenti.
Questo esercizio ha sottolineato il ruolo determinante svolto dalle unità ad alta densità di KIOXIA nel migliorare l’efficienza della nostra formazione. Date le dimensioni colossali dei set di dati e la natura iterativa dell’addestramento del modello, la velocità e la capacità di archiviazione rappresentano spesso dei colli di bottiglia in tali esperimenti. Con le unità KIOXIA, ci è stato concesso il lusso di archiviare più istanze del set di dati, pesi di modelli intermedi e dozzine di checkpoint ottimizzati. Le loro elevate velocità di lettura e scrittura hanno facilitato il recupero rapido dei dati, consentendoci di elaborare più iterazioni della messa a punto con diversi iperparametri in parallelo, come illustrato di seguito.
Questo è stato fondamentale nel nostro tentativo di identificare un checkpoint di lavoro ottimale. Grazie al nostro server di storage basato su KIOXIA di nuova costruzione, abbiamo potuto concentrarci sul perfezionamento del modello, sulla regolazione dei parametri e sulla valutazione dei risultati invece di essere vincolati dalle limitazioni dello storage. Le unità ad alta densità, quindi, non sono state solo una soluzione di storage ma un asset fondamentale che ha accelerato notevolmente la nostra fase di sperimentazione. Ciò ha consentito un’esplorazione più approfondita ed efficiente del potenziale del modello LLaMa e ci ha permesso di sviluppare la nostra nuova rete neurale convoluzionale (CNN).
Per chi non lo sapesse, una rete neurale convoluzionale (CNN) è un tipo specializzato di architettura di deep learning utilizzata prevalentemente nelle attività di elaborazione delle immagini e di visione artificiale. La sua caratteristica distintiva risiede negli strati convoluzionali che apprendono automaticamente e in modo adattivo le gerarchie spaziali delle caratteristiche dalle immagini di input. A differenza delle reti neurali tradizionali che si basano su livelli completamente connessi, le CNN sfruttano la struttura spaziale dei dati applicando filtri convoluzionali, che elaborano i dati di input in piccoli blocchi o campi ricettivi. Ciò si traduce in una rete in grado di rilevare modelli complessi, come bordi, trame e strutture più complesse, costruendo da quelli più semplici. Man mano che i dati avanzano più in profondità nella rete, questi modelli diventano più astratti, consentendo alle CNN di riconoscere e classificare gerarchicamente entità visive diverse e spesso contorte.
Attraverso molteplici tentativi di messa a punto, il modello ha dimostrato la sua capacità di elaborare in modo efficiente enormi set di dati e ha evidenziato il suo potenziale nel produrre risultati pertinenti, consapevoli del contesto e sfumati. Man mano che i LLM continuano a guadagnare terreno, tali esperimenti offrono informazioni preziose sulle loro applicazioni pratiche e sui loro limiti, aprendo la strada a soluzioni IA più sofisticate e incentrate sull’utente in futuro.
Funzionalità di inferenza del server
L'esecuzione di operazioni di inferenza sullo stesso set di dati offre una struttura snella, semplificando le complessità della gestione dei dati. Il nostro server non è semplicemente uno strumento di archiviazione: è attrezzato per gestire attività legate all'inferenza, inclusa l'acquisizione e la preparazione dei dati.
Per testare l'inferenza su set di dati più grandi, abbiamo selezionato una serie di immagini astrofotografiche che vanno da circa 1 Mb a 20 Mb e abbiamo eseguito una nuova CNN su cui stiamo lavorando confrontandole. Nel nostro scenario, il modello viene caricato sulla GPU, quindi un'immagine o una serie di immagini vengono caricate per l'elaborazione attraverso la rete neurale.
Si tratta di un profilo di ingombro di archiviazione più ampio di quello che potresti incontrare in qualcosa come una classificazione di oggetti di visione artificiale da una fotocamera standardizzata. Tuttavia, ha illustrato la flessibilità e la coerenza delle prestazioni della piattaforma. Nel grafico seguente, che è ordinato in base alle dimensioni e non in base all'ordine in cui è stato caricato (ad eccezione di alcuni valori anomali), i tempi di lettura e di write-back sono scalati in modo appropriato.
È importante ricordare che questo grafico è ordinato dal più piccolo al più grande per illustrare le prestazioni lineari delle unità e del server. La corsa effettiva e il set di dati sono stati randomizzati, quindi potrebbe essere stato letto e scritto un file da 1 Mb, seguito immediatamente da un file da 20 Mb. Il tipo di elaborazione vera e propria non era in un ordine particolare. I tempi di lettura variavano da 10 ms a 25 ms, con valori anomali che raggiungevano oltre 70 ms.
Il grafico seguente illustra la scrittura di una progressione altrettanto lineare con meno deviazione e mostra le scritture degli stessi file che vanno da 12 ms a 118 ms.
Un'altra informazione essenziale da ricordare è che questo grafico è un aggregato derivante dal tracciamento su tre workstation GPU che eseguono simultaneamente un'inferenza sullo stesso set di dati. Le unità KIOXIA sono state in grado di servire e riscrivere ben 10.5 GB su tre workstation GPU eseguendo inferenze su un set di dati casuale di 1000 immagini, esclusa l'elaborazione serializzata utilizzata dal modello. L'intero processo ha richiesto solo 59.62 secondi, o 59 ms, per leggere e riscrivere una singola immagine.
Diverse opzioni potrebbero migliorare la velocità e la latenza poiché questo progetto è scalabile fino a più workstation o server GPU. L'implementazione di GPUDirect Storage di NVIDIA, combinata con il protocollo RDMA (Remote Direct Memory Access), faciliterebbe lo spostamento continuo dei dati dallo storage condiviso ad alta densità direttamente alla memoria della GPU. Questo approccio eviterebbe efficacemente i colli di bottiglia della CPU e della memoria di sistema. Sfruttando NVMe over Fabrics e le apparecchiature di rete NVIDIA, grandi volumi di dati possono essere precaricati nella memoria della GPU quasi in tempo reale. Ciò sarebbe particolarmente vantaggioso quando si ha a che fare con LLM, dati i loro considerevoli set di dati e le richieste computazionali. Una tale capacità potrebbe eliminare la necessità di memorizzare i dati nella cache e consentirebbe a più workstation di leggere e acquisire dati dal pool di archiviazione condiviso contemporaneamente.
Considerazioni finali
Affrontare il collo di bottiglia I/O dei modelli più grandi è fondamentale per la continua evoluzione dell’apprendimento automatico, in particolare quando si ha a che fare con set di dati estesi. Una condivisione di rete centralizzata e ad alta velocità offre un triplice vantaggio rispetto allo storage locale tradizionale.
- Innanzitutto, semplifica le operazioni eliminando la necessità di migrare enormi set di dati su singole workstation per la formazione. Ciò combatte direttamente i colli di bottiglia I/O che possono paralizzare i progetti di machine learning, in particolare quelli che coinvolgono modelli di deep learning.
- In secondo luogo, optando per un approccio centralizzato, si evita di sovraccaricare le preziose linee PCIe della workstation con quantità eccessive o addirittura irraggiungibili di spazio di archiviazione locale. Grazie alla connessione ad alta velocità, ciò potrebbe consentire a più GPU di elaborare i dati in modo più efficiente in parallelo, rendendo le operazioni di machine learning più snelle e agili.
- In terzo luogo, l’archiviazione centralizzata comporta intrinsecamente misure di sicurezza migliori. Quando i dati vengono archiviati in un unico luogo sicuro, diventa più semplice gestire i controlli di accesso e implementare protocolli di sicurezza, riducendo il rischio di violazioni dei dati, minacce fisiche o accesso non autorizzato.
Inoltre, la centralizzazione dei dati garantisce una migliore coerenza dei dati e un ulteriore livello di ridondanza dei dati. Le workstation accedono ai dati più aggiornati da un'unica fonte, riducendo al minimo le discrepanze nei risultati dovute a corsi di formazione obsoleti o incoerenti o al perfezionamento dei dati o dei punti di controllo del modello. Ciò semplifica anche la gestione dei dati e risparmia spazio di archiviazione.
Poiché scalabilità, efficienza e sicurezza diventano sempre più importanti nel panorama in evoluzione ipersonica dell’intelligenza artificiale e dell’apprendimento automatico, il passaggio allo storage centralizzato, denso e ad alta velocità fornito da tecnologie come la piattaforma KIOXIA E1.S rappresenta un caso convincente. Questo è fondamentale non solo per migliorare le prestazioni, ma per una trasformazione fondamentale nel modo in cui affrontiamo la gestione dei dati e la formazione dei modelli.
Scheda tecnica del data center NVMe KIOXIA XD7P serie E1.S
Questo rapporto è sponsorizzato da KIOXIA America, Inc. Tutti i punti di vista e le opinioni espressi in questo rapporto si basano sulla nostra visione imparziale dei prodotti in esame.
Interagisci con StorageReview
Newsletter | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS feed