Pliops XDP LightningAI potenzia l'inferenza LLM scaricando la cache KV, consentendo un'intelligenza artificiale più rapida e scalabile con l'integrazione di NVIDIA Dynamo.
Pliops è all'avanguardia nell'accelerazione dei dati, specializzata in soluzioni hardware e software progettate per ottimizzare e potenziare i carichi di lavoro ad alta intensità di dati nei data center cloud e aziendali. Pliops Extreme Data Processor (XDP) è progettato per migliorare le prestazioni e l'efficienza delle moderne infrastrutture dati gestendo il flusso di dati tra applicazioni e storage, eliminando i colli di bottiglia e riducendo la latenza. XDP è eccezionalmente adatto ad ambienti esigenti che richiedono un throughput elevato e una latenza minima, come quelli che supportano l'intelligenza artificiale, database complessi, analisi avanzate e sistemi di storage espansivi su larga scala.
Con l'aumento della diffusione dell'intelligenza artificiale (IA) come pilastro delle operazioni aziendali e dell'innovazione, le esigenze in termini di infrastrutture per data center sono aumentate esponenzialmente, in particolare per i carichi di lavoro di inferenza IA. Questi carichi di lavoro richiedono l'elaborazione rapida ed efficiente di enormi volumi di dati, mettendo a dura prova le risorse di elaborazione e storage esistenti. Le organizzazioni si trovano ad affrontare sfide crescenti nell'implementazione di infrastrutture scalabili, convenienti ed efficienti dal punto di vista energetico, in grado di soddisfare costantemente i rigorosi SLA (Service Level Agreement) sulle prestazioni.
Pliops XDP LightningAI affronta queste urgenti sfide direttamente. Questa soluzione innovativa introduce un motore di accelerazione dello storage universale progettato per integrarsi perfettamente con piattaforme server leader, come i sistemi Dell PowerEdge, e funzionano in concerto con soluzioni di inferenza avanzate come NVIDIA Dynamo, promettendo operazioni di intelligenza artificiale efficienti.
Perché la memorizzazione nella cache KV è fondamentale per un'inferenza LLM scalabile
La meccanica e l'importanza del caching KV
Al centro dell'ottimizzazione dei Large Language Model basati su transformer c'è il caching KV, una tecnica fondamentale che mitiga le ridondanze computazionali durante l'inferenza autoregressiva. Nelle architetture transformer, la generazione di ogni nuovo token richiede un'attenzione di calcolo tra la query del token corrente e le chiavi e i valori di tutti i token precedenti.
Senza un meccanismo di caching efficace, questo processo ricalcolerebbe in modo ridondante queste chiavi e valori per ogni token nella sequenza a ogni fase di generazione. Ciò si traduce in una complessità computazionale di O(n²), o complessità quadratica, per una sequenza di lunghezza n. Il caching KV aggira questo problema memorizzando le matrici di chiavi e valori calcolate dei token precedenti direttamente nella memoria GPU; il modello può riutilizzare questi tensori precalcolati per le fasi successive. Questo riutilizzo riduce drasticamente la complessità computazionale a O(n) dopo l'elaborazione iniziale del token, accelerando significativamente la velocità di inferenza.
Questo guadagno in termini di efficienza è fondamentale per le applicazioni di intelligenza artificiale in tempo reale, come chatbot interattivi, servizi di traduzione istantanea e generazione dinamica di codice, in cui la latenza è un fattore critico che ha un impatto diretto sull'esperienza utente e sulla fattibilità dell'applicazione.
Vincoli di memoria GPU: il collo di bottiglia nascosto
Sebbene la cache KV migliori notevolmente la velocità di inferenza, comporta un aumento della pressione sulle risorse di memoria della GPU. La dimensione della cache KV aumenta linearmente sia con la lunghezza della sequenza (finestra di contesto) sia con la dimensione del batch (numero di richieste simultanee).
Negli ambienti cloud multi-tenant o nei sistemi aziendali che gestiscono centinaia, se non migliaia, di richieste simultanee, questo consumo di memoria può esaurire rapidamente anche l'infrastruttura GPU più sofisticata. Questo esaurimento impone difficili compromessi: ridurre le dimensioni dei batch (diminuendo la produttività), accorciare la lunghezza del contesto o investire in più GPU (aumentando il CapEx).
Inoltre, una pratica comune tra i fornitori di servizi di inferenza è quella di non mantenere le cache KV tra turni o messaggi dell'utente. Ciò significa che la complessità di calcolo quadratica per i token precedentemente calcolati viene nuovamente applicata a ogni interazione successiva, vanificando alcuni potenziali guadagni di efficienza.
NVIDIA Dynamo: ripensare l'inferenza LLM su larga scala
Che cos'è NVIDIA Dynamo?
NVIDIA Dynamo, un framework open source innovativo e di recente rilascio, è progettato per affrontare le complesse sfide dell'inferenza LLM distribuita e disaggregata. Supportando vari backend, tra cui PyTorch, SGLang, TensorRT-LLM e vLLM, Dynamo è progettato specificamente per scalare senza problemi le operazioni di inferenza da distribuzioni a singola GPU a cluster da migliaia di GPU. Introduce significative innovazioni architetturali per contrastare i vincoli di memoria indotti dalla cache KV, ottimizzando al contempo la massima produttività e la minima latenza.
Architettura di servizio disaggregata
Un'innovazione fondamentale di NVIDIA Dynamo è il suo approccio di servizio disaggregato. Questa architettura separa strategicamente la fase di preriempimento, computazionalmente intensiva, dalla fase di decodifica legata alla memoria (che genera i token successivi). Allocando in modo intelligente queste fasi distinte a pool di GPU specializzati e separati, Dynamo consente l'ottimizzazione indipendente di ciascuna di esse, con un conseguente utilizzo più efficiente delle risorse e un miglioramento complessivo delle prestazioni.
Miglioramenti della cache KV
NVIDIA Dynamo integra anche sofisticate funzionalità di gestione della cache KV. Il suo router intelligente KV Cache-Aware tiene traccia dello stato e della posizione dei dati della cache KV sull'intera flotta di GPU. Ciò consente di indirizzare in modo intelligente le richieste di inferenza in arrivo alle GPU con voci di cache pertinenti, riducendo al minimo i costosi ricalcoli e il sovraccarico del trasferimento dati.
Inoltre, Dynamo Distributed KV Cache Manager affronta direttamente le limitazioni di capacità di memoria implementando l'offload a livelli. Questa funzionalità consente di spostare i blocchi di cache KV a cui si accede meno frequentemente o con priorità inferiore da HBM costosi e veloci a soluzioni di storage più economiche, come memoria CPU condivisa, SSD locali o storage di oggetti in rete. Questo approccio di storage gerarchico consente alle organizzazioni di gestire e archiviare volumi significativamente maggiori di dati di cache KV a una frazione del costo, migliorando le prestazioni di inferenza e l'efficienza economica.
È importante chiarire che, ad oggi, le capacità di offload della cache KV descritte sopra fanno parte di Dynamo roadmap futura e non sono ancora disponibili nella versione open source. Pertanto, le attuali distribuzioni Dynamo open source non supportano l'offload della cache KV su storage a livelli. Ciò significa che, in pratica, le prestazioni di Dynamo sono ancora limitate dalla memoria GPU disponibile.
Pliops XDP LightningAI: risoluzione della cache KV su larga scala
Entra in gioco Pliops XDP LightningAI, che stabilisce un livello di memoria ultraveloce e scalabile a livello di petabyte, strategicamente posizionato sotto l'HBM della GPU. Questo risolve i compromessi critici delle organizzazioni tra dimensioni dei batch, lunghezza del contesto, complessità del modello e costi hardware crescenti. La soluzione Pliops combina il suo ASIC XDP-PRO all'avanguardia e il suo KVIO Store. Consente ai server GPU di scaricare in modo efficiente enormi quantità di dati della cache KV su un conveniente storage SSD NVMe, il tutto mantenendo latenze di accesso eccezionalmente basse, inferiori al millisecondo.
Nelle distribuzioni pratiche, sfruttando Pliops XDP LightningAI per lo scarico della cache KV si ottiene: potenzialmente nessuna differenza percepibile in TTFT (Time-To-First-Token) rispetto agli scenari in cui l'intera cache KV viene conservata all'interno del raro e costoso HBM. Ciò consente alle organizzazioni di espandere notevolmente la capacità di memoria effettiva per il caching KV senza compromettere le prestazioni critiche a bassa latenza richieste dalle applicazioni di intelligenza artificiale in tempo reale.
Integrazione perfetta tramite progettazione basata su standard
Un vantaggio di Pliops XDP LightningAI è l'utilizzo di standard aperti, che ne garantisce un'adozione semplice. L'architettura nativa NVMe-oF della soluzione garantisce un'ampia compatibilità con gli ecosistemi server GPU esistenti, senza richiedere modifiche hardware ai server per l'implementazione. Utilizza lo standard NVMe-oF su RDMA per la sincronizzazione della cache ad alta velocità e bassa latenza tra cluster GPU. Questo sfrutta l'infrastruttura di rete esistente del data center, semplificando l'implementazione e riducendo l'attrito di integrazione.
Pliops raggiunge questo obiettivo con una soluzione coesa basata su due tecnologie complementari: XDP LightningAI e FusIOnX. Sebbene questi componenti lavorino insieme come parte dell'architettura complessiva, svolgono ruoli distinti. La soluzione Pliops XDP LightningAI è progettata attorno a un dispositivo hardware dedicato dotato di una scheda aggiuntiva PCIe alimentata da un ASIC XDP personalizzato e da una serie di SSD.
FusIOnX, d'altra parte, è la piattaforma software complementare che orchestra e gestisce l'uso intelligente dell'hardware XDP LightningAI. Si tratta di un sistema di offload disaggregato di cache KV che elimina i calcoli ridondanti memorizzando e riutilizzando le cache KV precedentemente elaborate. FusIOnX fornisce l'intelligenza necessaria per identificare, memorizzare e recuperare in modo efficiente i dati di contesto che altrimenti richiederebbero un nuovo calcolo, accelerando così l'inferenza LLM. Lo stack software offre diverse configurazioni adatte a diversi scenari di deployment, tra cui uno stack di produzione vLLM con routing intelligente su più nodi GPU e integrazione con framework come Dynamo e SGLang.
Architettura Pliops LightningAI FusIOnX
L'architettura di sistema si basa su nodi iniziatori, che ospitano le GPU, e nodi target LightningAI, responsabili dello scaricamento della cache KV su storage ad alte prestazioni. Questi nodi comunicano su una rete ad alta velocità utilizzando il protocollo NVMe-oF, utilizzando le schede di rete standard delle DPU.
Approfondendo il flusso di dati, il worker NVIDIA Dynamo interagisce con l'SDK client FusIOnX all'interno del contenitore applicativo sul server GPU. Questo SDK facilita quindi la comunicazione tramite NVMe-oF tramite DPU o NIC standard con il server di storage XDP LightningAI che ospita il FusIOnX KV Store e una scheda di accelerazione Pliops XDP Pro1.
LightningAI incontra NVIDIA Dynamo: benchmark delle prestazioni
I benchmark di integrazione FusIOnX-Dynamo rivelano notevoli miglioramenti delle prestazioni in diverse configurazioni. I test sono stati condotti utilizzando il modello Meta-Llama-3.1-70B-Instruct-FP8-dynamic, eseguito con parallelismo tensoriale pari a 2 (TP2).
Configurazione di prova
- Iniziatore (server GPU): Server Dell PowerEdge XE9680, configurato con:
- GPU: 8 x NVIDIA H100 SXM, ciascuna con 80 GB di HBM3
- DRAM: 2TB
- CPU: Processori Intel Xeon Platinum 8568Y+ a doppio socket
- Networking: 2 adattatori NVIDIA ConnectX-7 (400 Gbps)
- Destinazione (server di archiviazione Pliops): Un nodo Dell PowerEdge R860, configurato con:
- DRAM: 512GB
- CPU: Processori Intel Xeon Gold 6418H a quattro socket
- Accelerazione Pliops: 1 scheda Pliops XDP Pro1
- Memoria su disco: 24 SSD NVMe Samsung PM1733a da 3.84 TB, che forniscono una notevole capacità raw per lo scarico della cache KV
- Networking: 1 scheda adattatore NVIDIA ConnectX-7 HHHL (400 GbE, OSFP a porta singola, PCIe 5.0 x16)
- Interconnessione di rete: Questi due server sono collegati tramite lo switch Ethernet NVIDIA SN5600 Spectrum-X da 800 Gbps, che garantisce un'elevata larghezza di banda e comunicazioni a bassa latenza per il traffico NVMe-oF.
Metriche chiave misurate:
- Tempo al primo token (TTFT): Quanto velocemente gli utenti iniziano a vedere i contenuti generati
- Token tempo per output (TPOT): Tempo tra i token generati
- Richieste al secondo (RPS): Capacità di elaborazione del sistema
- Token al secondo (TPS): Velocità di generazione
I benchmark hanno simulato conversazioni multi-turno con lunghezze medie dei prompt di 2,200 token e 100-230 token di output per turno, con conversazioni che duravano da 2 a 28 turni.
Prestazioni del singolo lavoratore Dynamo
Configurazione | TTFT (ms) | TPOT (ms) | #clienti | RPS |
---|---|---|---|---|
vLLM | 310 | 33 | 8 | 1.35 |
Pliops FusIOnX | 111 | 30 | 16 | 3.03 |
Guadagno | 2.79x | - | 2x | 2.24x |
Prestazioni Dynamo a due lavoratori
Configurazione | TTFT (ms) | TPOT (ms) | #clienti | RPS |
---|---|---|---|---|
vLLM | 557 | 40 | 26 | 3.49 |
vLLM 1P1D | 753 | 36 | 26 | 3.76 |
Pliops FusIOnX | 166 | 38 | 56 | 8.43 |
Guadagno | 3.3–4.5 volte | - | 2.15x | 2.24–2.4 volte |
Prestazioni Dynamo a quattro lavoratori
Configurazione | TTFT (ms) | TPOT (ms) | #clienti | RPS |
---|---|---|---|---|
vLLM | 1192 | 41 | 60 | 7.32 |
vLLM 2P2D | 719 | 39 | 60 | 7.99 |
Pliops FusIOnX | 329 | 40 | 148 | 20.7 |
Guadagno | 2.2–3.6 volte | - | 2.46x | 2.6–2.8 volte |
Con un tipico SLO TPOT di 40 ms (che rappresenta circa 25 TPS/utente), FusIOnX dimostra un'efficienza 2.8 volte superiore rispetto a Dynamo vanilla e 2.24 volte superiore rispetto alla configurazione disaggregata prefill-decode di Dynamo in termini di RPS/GPU. A un SLO TPOT meno restrittivo, ad esempio 60 ms (~17 TPS/utente), l'efficienza aumenta fino a oltre 3 volte.
Inoltre, il grafico seguente visualizza il guadagno RPS medio ottenuto da Pliops rispetto a Dynamo standard nella configurazione a quattro worker, misurato per tutta la durata dell'esperimento. Durante l'intera finestra di test, Pliops ha mantenuto un miglioramento di oltre il doppio rispetto a Dynamo, dimostrando la capacità della soluzione di mantenere prestazioni elevate in condizioni di carico realistiche, simili a quelle di produzione. Questo aumento di throughput sostenuto si traduce direttamente in una maggiore concorrenza tra utenti e in una migliore reattività del servizio, convalidando l'efficacia dell'offload della cache KV su larga scala.
Quantificazione del vantaggio: vantaggi concreti dello scarico della cache KV
Cosa significa questo per le aziende e per l'ecosistema dell'IA in generale? La drastica riduzione del Time-To-First-Token (TTFT) si traduce direttamente in un'esperienza utente significativamente migliorata, con interazioni più rapide e reattive. Questo è particolarmente importante per applicazioni interattive come chatbot, assistenti virtuali e copiloti di programmazione in tempo reale, dove la latenza può determinare il successo o il fallimento dell'usabilità.
Oltre all'esperienza utente individuale, la capacità di gestire da due a tre volte più utenti simultanei, mantenendo rigorosamente gli obiettivi di livello di servizio (SLO), consente alle organizzazioni di servire una base clienti sostanzialmente più ampia utilizzando l'infrastruttura hardware esistente. Questa maggiore capacità è fondamentale per le implementazioni di inferenza basate su cloud, dove la scalabilità per soddisfare la domanda fluttuante è fondamentale.
Inoltre, la capacità di archiviazione praticamente illimitata per le cache KV, resa possibile da Pliops XDP LightningAI, consente il supporto di finestre di contesto molto più lunghe e una densità di utenti simultanei maggiore rispetto a quella supportata dai tradizionali approcci basati solo su HBM. Questa capacità non è più limitata ai più grandi laboratori di ricerca sull'intelligenza artificiale. I fornitori di inferenza di tutte le dimensioni possono ora sfruttare la soluzione Pliops per implementare sofisticati meccanismi di caching KV, simili a quelli impiegati da importanti aziende di intelligenza artificiale come OpenAI, Anthropic e Google.
Inoltre, questi provider possono ridurre il consumo energetico complessivo eliminando i calcoli ridondanti e ottimizzando l'utilizzo della memoria, contribuendo a un'infrastruttura di intelligenza artificiale più sostenibile. In definitiva, queste efficienze possono essere trasferite agli utenti finali attraverso servizi di intelligenza artificiale a prezzi più competitivi, consentendo al contempo ai provider di massimizzare l'utilizzo e il ritorno sugli investimenti hardware con una spesa in conto capitale aggiuntiva minima.
Cosa significa questo per l'infrastruttura dell'intelligenza artificiale
Pliops XDP LightningAI, con la sua architettura FusIOnX, rappresenta un significativo progresso nell'ottimizzazione dell'inferenza LLM. La risoluzione del collo di bottiglia critico nella gestione della cache KV tramite l'offload intelligente su storage conveniente offre sostanziali miglioramenti delle prestazioni su tutte le metriche chiave.
La perfetta integrazione della soluzione con NVIDIA Dynamo e vLLM si applica immediatamente a diversi scenari di implementazione. Sia che venga utilizzata con le sofisticate funzionalità di distribuzione di Dynamo, sia direttamente con vLLM, le organizzazioni possono aspettarsi significativi miglioramenti in termini di throughput, latenza ed efficienza dei costi.
Con l'aumento delle dimensioni e delle capacità degli LLM e con l'aumento delle loro applicazioni di importanza critica, soluzioni come Pliops XDP LightningAI diventeranno uno strumento essenziale per le organizzazioni che cercano di creare un'infrastruttura di intelligenza artificiale scalabile, efficiente e conveniente.
Conclusione
Pliops XDP LightningAI, potenziato dall'architettura FusIOnX, offre un notevole passo avanti nell'efficienza dell'inferenza LLM risolvendo il persistente collo di bottiglia della cache KV. Grazie all'offload intelligente dei dati della cache KV su storage ad alte prestazioni ed economico, Pliops consente alle organizzazioni di espandere significativamente le finestre di contesto, supportare più utenti simultanei e mantenere rigorosi SLO di latenza senza ulteriori investimenti in GPU. La perfetta integrazione con framework come NVIDIA Dynamo e vLLM garantisce un'ampia applicabilità ai moderni stack di intelligenza artificiale.
Con la crescente complessità dei LLM e l'accelerazione dell'adozione da parte delle aziende, sarà fondamentale dissociare la scalabilità della memoria dalle costose risorse GPU. Pliops XDP LightningAI è un abilitatore per l'infrastruttura di intelligenza artificiale di nuova generazione, consentendo ai provider di offrire servizi di intelligenza artificiale più rapidi, scalabili ed economici su larga scala. Per le organizzazioni che desiderano rendere le proprie implementazioni di intelligenza artificiale a prova di futuro e massimizzare il ROI dell'hardware, Pliops offre una soluzione convincente e pronta per la produzione per una delle sfide più urgenti nell'inferenza su larga scala odierna.
Interagisci con StorageReview
Newsletter | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS feed