Meta ha annunciato progressi nella sua infrastruttura AI svelando il Meta Training and Inference Accelerator (MTIA) di prossima generazione. Questo sviluppo segna un passo avanti significativo negli sforzi di Meta per migliorare prodotti, servizi e ricerca basati sull’intelligenza artificiale, rispondendo alla crescente domanda di modelli di intelligenza artificiale più sofisticati.
Meta ha annunciato progressi nella sua infrastruttura AI svelando il Meta Training and Inference Accelerator (MTIA) di prossima generazione. Questo sviluppo segna un passo avanti significativo negli sforzi di Meta per migliorare prodotti, servizi e ricerca basati sull’intelligenza artificiale, rispondendo alla crescente domanda di modelli di intelligenza artificiale più sofisticati.
Dopo l’introduzione del suo acceleratore di prima generazione, il progetto MTIA sta perfezionando l’efficienza di calcolo essenziale per i carichi di lavoro IA distintivi di Meta. Ciò include i modelli di raccomandazione del deep learning fondamentali per migliorare l'esperienza degli utenti sulle piattaforme Meta.
Prossima generazione vs. MTIA di prima generazione
L’MTIA di prima generazione ha subito significativi progressi tecnologici rispetto alla sua controparte di nuova generazione per soddisfare le crescenti richieste dei carichi di lavoro AI. Inizialmente costruito con il processo a 7 nm di TSMC, il MTIA di prima generazione aveva una frequenza di 800 MHz, supportava 1.12 miliardi di gate e forniva fino a 102.4 teraflop al secondo (TFLOPS/s) per operazioni INT8. Era dotato di 128 MB di memoria on-chip e 64 GB di memoria LPDDR5 off-chip, con un TDP di 25 watt. Questa configurazione è stata ottimizzata per un equilibrio tra prestazioni ed efficienza energetica, con una capacità di larghezza di banda della memoria totale che includeva 400 GB/s per elemento di elaborazione (PE) per la memoria locale e 800 GB/s per la memoria su chip.
Il MTIA di nuova generazione è passato al processo più avanzato a 5 nm di TSMC, consentendo all'acceleratore di funzionare a una frequenza più elevata di 1.35 GHz. Questo aggiornamento raddoppia il numero di gate portandolo a 2.35 miliardi e aumenta i FLOPS a 103 milioni, indicando un sostanziale incremento delle capacità di elaborazione del chip. Il MTIA di nuova generazione introduce un aumento di tre volte nello storage PE locale e raddoppia la SRAM su chip a 256 MB, espandendo al contempo la memoria LPDDR5 off-chip a 128 GB. Questo aumento è accompagnato da una maggiore larghezza di banda della memoria, che raggiunge fino a 1 TB/s per PE per la memoria locale e 2.7 TB/s per la memoria su chip, garantendo maggiore throughput dei dati ed efficienza.
Inoltre, il TDP è ora di 90 watt per soddisfare i livelli di prestazioni più elevati. Anche la connessione host è stata aggiornata a 8x PCIe Gen5, raddoppiando la larghezza di banda a 32 GB/s, che supporta trasferimenti di dati più rapidi tra l'acceleratore e il sistema host. Questi notevoli miglioramenti forniscono una base più solida per lo sviluppo e la distribuzione di applicazioni e servizi basati sull’intelligenza artificiale.
Funzionalità MTIA di nuova generazione
Fondamentalmente, il MTIA è dotato di sofisticati PE a griglia 8×8 che aumentano significativamente le prestazioni di calcolo dense e sparse. Questo miglioramento è attribuito ai progressi dell'architettura e a un aumento sostanziale dello storage PE locale, della SRAM su chip e della larghezza di banda. Inoltre, l’architettura migliorata network-on-chip (NoC) dell’acceleratore facilita un rapido coordinamento tra i PE, garantendo l’elaborazione dei dati a bassa latenza essenziale per attività di intelligenza artificiale complesse.
L'approccio di Meta va oltre l'innovazione del silicio. Il MTIA di prossima generazione è supportato da un robusto sistema basato su rack in grado di ospitare fino a 72 acceleratori, offrendo un notevole potenziale di scalabilità per gli ambiziosi progetti di intelligenza artificiale di Meta. Il design del sistema consente frequenze operative ed efficienza più elevate, adattandosi facilmente a diverse complessità di modelli.
Anche l'integrazione del software gioca un ruolo fondamentale nell'ecosistema MTIA, con Meta che sfrutta il proprio lavoro su PyTorch per garantire compatibilità perfetta e produttività degli sviluppatori. L’inclusione di framework avanzati di programmazione ed esecuzione, come Triton-MTIA, facilita la traduzione efficiente dei modelli di intelligenza artificiale in istruzioni di calcolo ad alte prestazioni, semplificando il processo di sviluppo.
Risultati iniziali delle prestazioni del MTIA di nuova generazione
Meta afferma che i parametri preliminari delle prestazioni indicano un miglioramento significativo rispetto alla prima generazione, dimostrando la sua capacità di elaborare in modo efficiente algoritmi di classificazione e raccomandazione semplici e complessi. Questo chip gestisce algoritmi che variano in modo significativo in termini di dimensioni e richiesta computazionale, superando le GPU commerciali standard grazie all'approccio tecnologico integrato di Meta. L’azienda è focalizzata sul miglioramento dell’efficienza energetica mentre distribuisce questi chip nei suoi sistemi.
I test iniziali hanno dimostrato che il chip MTIA di prossima generazione triplica le prestazioni del suo predecessore su tutti i modelli chiave. Con un sistema aggiornato che include il doppio dei dispositivi e una CPU dual-socket ad alta potenza, Meta ha ottenuto un aumento di sei volte della velocità di elaborazione dei modelli e un miglioramento del 50% dell'efficienza energetica rispetto alla configurazione MTIA di prima generazione. Questi miglioramenti derivano da ampie ottimizzazioni dei componenti informatici e dell'architettura del server. L’ottimizzazione dei modelli è diventata più rapida man mano che l’ecosistema degli sviluppatori matura, con ampio spazio per ulteriori miglioramenti in termini di efficienza.
Ora attivo nei data center, il chip MTIA sta migliorando l'elaborazione del carico di lavoro AI di Meta, rivelandosi un complemento strategico alle GPU commerciali. Con diverse iniziative in corso per estendere le funzionalità di MTIA, questa versione segna un altro grande passo avanti verso l'impegno dell'azienda nel far progredire la tecnologia AI e le sue applicazioni.
Interagisci con StorageReview
Newsletter | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS feed