Casa ImpresaAI NVIDIA TensorRT-LLM accelera l'inferenza di modelli linguistici di grandi dimensioni sulle GPU NVIDIA H100

NVIDIA TensorRT-LLM accelera l'inferenza di modelli linguistici di grandi dimensioni sulle GPU NVIDIA H100

by Jordan Ranous
Blocco GPU NVIDIA TensorRT-LLM H100

I grandi modelli linguistici offrono nuove incredibili capacità, ampliando la frontiera di ciò che è possibile fare con l’intelligenza artificiale. Tuttavia, le loro grandi dimensioni e le caratteristiche esecutive uniche possono renderli difficili da utilizzare in modo economicamente vantaggioso. NVIDIA TensorRT-LLM è stato reso open source per accelerare lo sviluppo di LLM.

I grandi modelli linguistici offrono nuove incredibili capacità, ampliando la frontiera di ciò che è possibile fare con l’intelligenza artificiale. Tuttavia, le loro grandi dimensioni e le caratteristiche esecutive uniche possono renderli difficili da utilizzare in modo economicamente vantaggioso. NVIDIA TensorRT-LLM è stato reso open source per accelerare lo sviluppo di LLM.

Cos'è NVIDIA TensorRT-LLM?

NVIDIA ha lavorato a stretto contatto con aziende leader, tra cui Meta, AnyScale, Cohere, Deci, Grammarly, Mistral AI, MosaicML, ora parte di Databricks, OctoML, Tabnine e Together AI per accelerare e ottimizzare l'inferenza LLM.

NVIDIA TensorRT-LLM: i LLM cambiano il settore

Queste innovazioni sono state integrate nell'open source NVIDIA TensorRT-LLM software, il cui rilascio è previsto nelle prossime settimane. TensorRT-LLM è costituito dal compilatore di deep learning TensorRT e include kernel ottimizzati, passaggi di pre e post-elaborazione e primitive di comunicazione multi-GPU/multi-nodo per prestazioni rivoluzionarie sulle GPU NVIDIA. Consente agli sviluppatori di sperimentare nuovi LLM, offrendo prestazioni di punta e funzionalità di personalizzazione rapida senza richiedere una conoscenza approfondita di C++ o NVIDIA CUDA.

TensorRT-LLM migliora la facilità d'uso e l'estensibilità attraverso un'API Python modulare open source per definire, ottimizzare ed eseguire nuove architetture e miglioramenti man mano che gli LLM si evolvono e possono essere personalizzati facilmente.

Ad esempio, MosaicML ha aggiunto funzionalità specifiche di cui ha bisogno su TensorRT-LLM senza soluzione di continuità e le ha integrate nello stack di servizio esistente. Naveen Rao, vicepresidente dell'ingegneria presso Databricks, osserva che "è stato un gioco da ragazzi".

Prestazioni NVIDIA TensorRT-LLM

Riepilogare gli articoli è solo una delle tante applicazioni di LLM. I seguenti benchmark mostrano i miglioramenti prestazionali apportati da TensorRT-LLM sulla più recente architettura NVIDIA Hopper.

Le seguenti figure riflettono il riepilogo degli articoli utilizzando NVIDIA A100 e NVIDIA H100 con CNN/Daily Mail, un set di dati ben noto per la valutazione delle prestazioni di riepilogo.

Il solo H100 è 4 volte più veloce dell'A100. L'aggiunta di TensorRT-LLM e i suoi vantaggi, incluso il batching in volo, si traduce in un aumento di 8 volte per fornire il throughput più elevato.

Su Llama 2, un popolare modello linguistico rilasciato di recente da Meta e ampiamente utilizzato dalle organizzazioni che desiderano incorporare l'intelligenza artificiale generativa, TensorRT-LLM può accelerare le prestazioni di inferenza di 4.6 volte rispetto alle GPU A100.

L'innovazione dell'ecosistema LLM si evolve rapidamente

L’ecosistema Large Language Model (LLM) si sta evolvendo rapidamente, dando origine a diverse architetture di modelli con capacità estese. Alcuni dei LLM più grandi e avanzati, come Llama 70 da 2 miliardi di parametri di Meta, richiedono più GPU per fornire risposte in tempo reale. In precedenza, l’ottimizzazione dell’inferenza LLM per ottenere le massime prestazioni comportava attività complesse come la suddivisione manuale dei modelli AI e il coordinamento dell’esecuzione della GPU.

TensorRT-LLM semplifica questo processo utilizzando il parallelismo del tensore, una forma di parallelismo del modello che distribuisce le matrici di peso tra i dispositivi. Questo approccio consente un'efficiente inferenza scalabile su più GPU interconnesse tramite NVLink e più server senza l'intervento dello sviluppatore o modifiche del modello.

Man mano che emergono nuovi LLM e architetture di modelli, gli sviluppatori possono ottimizzare i propri modelli utilizzando i più recenti kernel NVIDIA AI disponibili in TensorRT-LLM, che include implementazioni all'avanguardia come FlashAttention e l'attenzione multi-head mascherata.

Inoltre, TensorRT-LLM include versioni pre-ottimizzate di LLM ampiamente utilizzati, come Meta Llama 2, OpenAI GPT-2, GPT-3, Falcon, Mosaic MPT, BLOOM e altri. Questi possono essere facilmente implementati utilizzando l'API Python TensorRT-LLM intuitiva, consentendo agli sviluppatori di creare LLM personalizzati su misura per vari settori.

Per affrontare la natura dinamica dei carichi di lavoro LLM, TensorRT-LLM introduce il batching in volo, ottimizzando la pianificazione delle richieste. Questa tecnica migliora l'utilizzo della GPU e quasi raddoppia il throughput sulle richieste LLM reali, riducendo il costo totale di proprietà (TCO).

Blocco GPU Dell XE9680

Blocco GPU Dell XE9680

Inoltre, TensorRT-LLM utilizza tecniche di quantizzazione per rappresentare i pesi e le attivazioni del modello con una precisione inferiore (ad esempio, FP8). Ciò riduce il consumo di memoria, consentendo l'esecuzione efficiente di modelli più grandi sullo stesso hardware riducendo al minimo il sovraccarico relativo alla memoria durante l'esecuzione.

L'ecosistema LLM sta avanzando rapidamente, offrendo maggiori capacità e applicazioni in tutti i settori. TensorRT-LLM semplifica l'inferenza LLM, migliorando le prestazioni e il TCO. Consente agli sviluppatori di ottimizzare i modelli in modo semplice ed efficiente. Per accedere a TensorRT-LLM, sviluppatori e ricercatori possono partecipare al programma di accesso anticipato tramite il framework NVIDIA NeMo o GitHub, a condizione che siano registrati nel Programma per sviluppatori NVIDIA con l'indirizzo e-mail di un'organizzazione.

Pensieri di chiusura

Abbiamo notato da tempo in The Lab che è disponibile un sovraccarico che viene sottoutilizzato dallo stack software e TensorRT-LLM chiarisce che rinnovare l'attenzione sulle ottimizzazioni e non solo sull'innovazione può essere estremamente prezioso. Mentre continuiamo a sperimentare localmente vari framework e tecnologie all'avanguardia, prevediamo di testare e convalidare in modo indipendente questi vantaggi derivanti dalla libreria migliorata e dai rilasci dell'SDK.

NVIDIA sta chiaramente investendo tempo e risorse nello sviluppo per sfruttare fino all'ultima goccia di prestazioni il proprio hardware, consolidando ulteriormente la propria posizione di leader del settore e continuando a contribuire alla comunità e alla democratizzazione dell'intelligenza artificiale mantenendo la natura open source degli strumenti. .

Interagisci con StorageReview

Newsletter | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS feed