All’inizio di quest’anno, Intel ha pubblicato i risultati delle prestazioni tra Intel Habana Gaudi2 e il leader del mercato delle GPU NVIDIA, che illustravano l’impegno di Intel nei confronti dell’intelligenza artificiale e dimostravano che l’intelligenza artificiale non è una categoria valida per tutti. Allo stesso tempo, uno sviluppo congiunto tra i ricercatori Intel AI e Microsoft Research ha creato BridgeTower, un trasformatore multimodale pre-addestrato che offre compiti di linguaggio visivo all'avanguardia. Hugging Face ha integrato questo modello nella sua libreria open source per l'apprendimento automatico.
All’inizio di quest’anno, Intel ha pubblicato i risultati delle prestazioni tra Intel Habana Gaudi2 e il leader del mercato delle GPU NVIDIA, che illustravano l’impegno di Intel nei confronti dell’intelligenza artificiale e dimostravano che l’intelligenza artificiale non è una categoria valida per tutti. Allo stesso tempo, uno sviluppo congiunto tra i ricercatori Intel AI e Microsoft Research ha creato BridgeTower, un trasformatore multimodale pre-addestrato che offre compiti di linguaggio visivo all'avanguardia. Hugging Face ha integrato questo modello nella sua libreria open source per l'apprendimento automatico.
Hugging Face ha pubblicato i risultati dei benchmark originali in un post sul blog sul suo sito Web e ha aggiornato i risultati dei benchmark delle prestazioni di formazione AI per Habana Gaudi2 e la GPU H100 di NVIDIA. Secondo questi risultati di benchmark, Gaudi2 ha sovraperformato H100 ottenendo il modello BridgeTower del trasformatore multimodale, ma Gaudi2, utilizzando Havana ottimale, ha ottenuto prestazioni 2.5 volte migliori rispetto all'A100. I risultati non solo hanno convalidato il ruolo di Gaudi2 nel campo dell’intelligenza artificiale, ma anche nella formazione sul linguaggio visivo.
Optimum Habana è l'interfaccia tra le librerie Transformers e Diffusers e il processore Gaudi di Habana (HPU). Fornisce strumenti che semplificano il caricamento, l'addestramento e l'inferenza del modello su impostazioni HPU singole e multiple per varie attività a valle.
Sfondo della torre del ponte
I modelli del linguaggio visivo utilizzano codificatori unimodali per acquisire rappresentazioni di dati. I dati vengono quindi combinati o immessi in un codificatore multimodale. BridgeTower si distingue per i suoi esclusivi layer bridge, che collegano gli strati più alti dei codificatori unimodali a ogni livello del codificatore crossmodale, consentendo una combinazione efficiente di dati visivi e testuali a diversi livelli.
BridgeTower, addestrato su appena 4 milioni di immagini, stabilisce nuovi standard prestazionali, offrendo una precisione del 78.73% nel test Visual Question Answering (VQAv2). Ciò supera il miglior modello precedente dell'1.09%. Aumentandolo, il modello ha una precisione ancora maggiore, pari all’81.15%, superando i modelli addestrati su set di dati molto più grandi.
Essendo un modello di linguaggio di visione di alto livello, le prestazioni di BridgeTower sono dovute alla sua capacità di caricare rapidamente i dati utilizzando hardware speciale. Questi metodi rapidi di caricamento dei dati sono vantaggiosi per i modelli di visione, che spesso devono affrontare sfide legate al caricamento dei dati.
Approfondimenti sull'hardware
I test benchmark aggiornati si basavano sugli hardware e software più recenti di NVIDIA e Habana Labs. La GPU NVIDIA H100 Tensor Core è la GPU INVIDIA più recente e più veloce, con Transformer Engine per esecuzioni specializzate e 80 GB di memoria. Utilizzando la terza iterazione della tecnologia Tensor Core, la GPU Nvidia A100 Tensor Core è ampiamente disponibile tra i provider cloud, con memoria da 80 GB per una velocità superiore rispetto alla sua controparte da 40 GB.
Habana Labs Habana Gaudi2 è l'hardware AI di seconda generazione di Habana Labs che può ospitare fino a 8 HPU, ciascuna con 96 GB di memoria. Si dice che abbia funzionalità user-friendly e, combinato con Optimum Habana, rende più semplice il trasferimento dei codici basati su Transformers su Gaudi.
Dettagli sull'analisi comparativa
Il test prevedeva la messa a punto di un modello BridgeTower con 866 milioni di parametri e l'addestramento in inglese utilizzando varie tecniche su diversi set di dati. Il passo successivo ha comportato un’ulteriore messa a punto utilizzando il set di dati del New Yorker Caption Contest. Tutte le piattaforme hanno utilizzato le stesse impostazioni e hanno elaborato lotti di 48 campioni ciascuna per ottenere risultati coerenti.
Una sfida in tali esperimenti è il lungo caricamento dei dati delle immagini. In modo ottimale, i dati grezzi dovrebbero essere inviati direttamente ai dispositivi per la decodifica. L’attenzione si sposta ora sull’ottimizzazione di questo processo di caricamento dei dati.
Ottimizzazione del caricamento dei dati
Per un caricamento più rapido delle immagini sulla CPU, può essere utile aumentare i sottoprocessi. Utilizzando TrainingArguments di Transformers, l'argomento dataloader_num_workers=N può impostare il numero di sottoprocessi della CPU per il caricamento dei dati. L'impostazione predefinita è 0, il che significa che i dati vengono caricati dal processo principale, ma ciò potrebbe non essere efficiente. Aumentarlo può migliorare la velocità, ma aumenterà anche il consumo di RAM. L'impostazione consigliata è il numero di core della CPU. Tuttavia, è meglio sperimentare prima per determinare la configurazione ottimale.
Questo benchmark ha avuto tre esecuzioni distinte:
- Un'esecuzione a precisione mista su otto dispositivi, in cui il caricamento dei dati condivide lo stesso processo con altre attività (dataloader_num_workers=0).
- Un'esecuzione simile ma con un sottoprocesso dedicato per il caricamento dei dati (dataloader_num_workers=1).
- La stessa configurazione ma con due sottoprocessi dedicati (dataloader_num_workers=2).
Caricamento dati accelerato dall'hardware con Optimum Habana
Per aumentare ulteriormente la velocità, sposta le attività di caricamento dei dati dalla CPU ai dispositivi acceleratori, come HPU su Gaudi2 o GPU su A100/H100, utilizzando la pipeline multimediale di Habana. Invece di elaborare le immagini interamente sulla CPU, le immagini codificate possono essere inviate direttamente ai dispositivi per la decodifica e l'incremento. Questo approccio massimizza la potenza di calcolo del dispositivo ma può aumentare il consumo di memoria del dispositivo.
Due metodi efficaci per migliorare i flussi di lavoro di formazione con le immagini sono l'allocazione di più risorse del caricatore dati e l'utilizzo di dispositivi acceleratori per l'elaborazione delle immagini. Durante l'addestramento di modelli avanzati di linguaggio di visione come BridgeTower, queste ottimizzazioni rendono Habana Gaudi2 con Optimum Habana sostanzialmente più veloce delle controparti NVIDIA. Habana Gaudi2 è facile da usare e richiede solo pochi argomenti formativi aggiuntivi.
Interagisci con StorageReview
Newsletter | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS feed