Pliops XDP LightningAI geeft KV-cache een boost om LLM-inferentie te optimaliseren met NVIDIA Dynamo

Pliops XDP LightningAI verbetert LLM-inferentie door de KV-cache te ontlasten, waardoor snellere, schaalbare AI met NVIDIA Dynamo-integratie mogelijk wordt.

Pliops loopt voorop in dataversnelling en is gespecialiseerd in hardware- en softwareoplossingen die zijn ontworpen om data-intensieve workloads in cloud- en enterprise-datacenters te optimaliseren en te versnellen. De Pliops Extreme Data Processor (XDP) is ontwikkeld om de prestaties en efficiëntie van moderne data-infrastructuur te verbeteren door de datastroom tussen applicaties en storage te beheren, knelpunten te elimineren en latentie te verminderen. De XDP is uitermate geschikt voor veeleisende omgevingen die een hoge throughput en minimale latentie vereisen, zoals omgevingen die AI, complexe databases, geavanceerde analyses en uitgebreide grootschalige storagesystemen ondersteunen.

Pliops XDP LightningAI-architectuur

Naarmate AI steeds meer een hoeksteen wordt van bedrijfsvoering en innovatie, nemen de eisen aan de datacenterinfrastructuur exponentieel toe, met name voor AI-inferentieworkloads. Deze workloads vereisen de snelle en efficiënte verwerking van enorme hoeveelheden data, wat een enorme druk legt op bestaande reken- en opslagbronnen. Organisaties worstelen met toenemende uitdagingen bij de implementatie van schaalbare, kosteneffectieve en energiezuinige infrastructuur die consistent aan strenge prestatie-SLA's kan voldoen.

Pliops XDP LightningAI pakt deze urgente uitdagingen direct aan. Deze innovatieve oplossing introduceert een universele storage acceleration engine die is ontworpen om naadloos te integreren met toonaangevende serverplatforms, zoals Dell PowerEdge-systemen, en werken samen met geavanceerde inferentieoplossingen zoals NVIDIA Dynamo, wat efficiënte AI-operaties belooft.

Waarom KV-caching cruciaal is voor schaalbare LLM-inferentie

De mechanica en het belang van KV-caching

De kern van het optimaliseren van transformer-gebaseerde Large Language Models is KV-caching, een fundamentele techniek die rekenkundige redundantie tijdens autoregressieve inferentie minimaliseert. In transformerarchitecturen vereist het genereren van elk nieuw token rekenkundige aandacht tussen de query van het huidige token en de sleutels en waarden van alle voorgaande tokens.

Zonder een effectief cachemechanisme zou dit proces deze sleutels en waarden voor elk token in de reeks bij elke generatiestap opnieuw berekenen. Dit resulteert in een rekencomplexiteit van O(n²), oftewel kwadratische complexiteit, voor een reeks van lengte n. KV-caching omzeilt dit door de berekende sleutel- en waardematrices van eerdere tokens rechtstreeks in het GPU-geheugen op te slaan; het model kan deze vooraf berekende tensoren hergebruiken voor volgende stappen. Dit hergebruik reduceert de rekencomplexiteit drastisch tot O(n) na de initiële tokenverwerking, wat de inferentiesnelheid aanzienlijk verhoogt.

Deze efficiëntiewinst is van groot belang voor realtime AI-toepassingen zoals interactieve chatbots, directe vertaaldiensten en dynamische codegeneratie, waarbij latentie een belangrijke factor is die direct van invloed is op de gebruikerservaring en de levensvatbaarheid van de toepassing.

GPU-geheugenbeperkingen: de verborgen bottleneck

Hoewel KV-caching de inferentiesnelheid aanzienlijk verbetert, legt het een druk op de GPU-geheugenbronnen. De grootte van de KV-cache groeit lineair met zowel de sequentielengte (contextvenster) als de batchgrootte (aantal gelijktijdige verzoeken).

In multi-tenant cloudomgevingen of bedrijfssystemen die honderden, zo niet duizenden, gelijktijdige verzoeken verwerken, kan dit geheugenverbruik zelfs de meest geavanceerde GPU-infrastructuur snel uitputten. Deze uitputting leidt tot lastige afwegingen: verklein batchgroottes (lagere doorvoer), verkort contextlengtes of investeer in meer GPU's (hogere CapEx).

Bovendien is het gebruikelijk dat inferentieproviders geen KV-caches bewaren tussen gebruikersbeurten of berichten. Dit betekent dat de kwadratische rekencomplexiteit voor eerder berekende tokens opnieuw wordt berekend voor elke volgende interactie, waardoor potentiële efficiëntiewinsten teniet worden gedaan.

NVIDIA Dynamo: LLM-inferentie op schaal heroverwegen

Wat is NVIDIA Dynamo?

NVIDIA Dynamo, een recent uitgebracht en transformatief open-source framework, is ontworpen om de complexe uitdagingen van gedistribueerde en gedesaggregeerde LLM-inferentieverwerking aan te pakken. Dynamo ondersteunt diverse backends, waaronder PyTorch, SGLang, TensorRT-LLM en vLLM, en is expliciet ontworpen voor het naadloos schalen van inferentiebewerkingen van implementaties met één GPU naar clusters met duizend GPU's. Het introduceert belangrijke architecturale innovaties om door KV-cache veroorzaakte geheugenbeperkingen te bestrijden en tegelijkertijd te optimaliseren voor maximale doorvoer en minimale latentie.

Gedesaggregeerde bedieningsarchitectuur

Een belangrijke innovatie binnen NVIDIA Dynamo is de gedisaggregeerde serveraanpak. Deze architectuur koppelt de rekenintensieve prefill-fase strategisch los van de geheugengebonden decodeerfase (waardoor volgende tokens worden gegenereerd). Door deze afzonderlijke fasen intelligent toe te wijzen aan afzonderlijke, gespecialiseerde GPU-pools, maakt Dynamo onafhankelijke optimalisatie van elke fase mogelijk, wat leidt tot efficiënter resourcegebruik en algehele verbeterde prestaties.

KV Cache-voortgangen

NVIDIA Dynamo beschikt ook over geavanceerde KV Cache-beheermogelijkheden. De KV Cache-Aware Smart Router volgt de status en locatie van KV-cachegegevens over de gehele GPU-vloot. Dit stelt de router in staat om inkomende inferentieverzoeken intelligent door te sturen naar GPU's met relevante cachegegevens, waardoor kostbare herberekening en dataoverdrachtskosten worden geminimaliseerd.

Bovendien pakt Dynamo Distributed KV Cache Manager geheugencapaciteitsbeperkingen direct aan door gelaagde offloading te implementeren. Deze functie maakt het mogelijk om minder frequent gebruikte of lagere prioriteit KV-cacheblokken te verplaatsen van dure, snelle HBM naar kosteneffectievere opslagoplossingen, zoals gedeeld CPU-geheugen, lokale SSD's of netwerkobjectopslag. Deze hiërarchische opslagbenadering stelt organisaties in staat om aanzienlijk grotere volumes KV-cachegegevens te beheren en op te slaan tegen een fractie van de kosten, wat de inferentieprestaties en economische efficiëntie verbetert.

Het is belangrijk om duidelijk te maken dat de hierboven beschreven KV-cache-offloadingmogelijkheden vanaf vandaag deel uitmaken van Dynamo's toekomstige routekaart en zijn nog niet beschikbaar in de open-sourceversie. Huidige open-source Dynamo-implementaties ondersteunen daarom geen KV-cache-offload naar gelaagde opslag. Dit betekent dat de prestaties van Dynamo in de praktijk nog steeds worden beperkt door het beschikbare GPU-geheugen.

Pliops XDP LightningAI: KV-cache op schaal oplossen

Maak kennis met Pliops XDP LightningAI, een ultrasnelle, schaalbare geheugenlaag van petabytes die strategisch onder de HBM van de GPU is geplaatst. Dit lost de kritische afwegingen van organisaties op tussen batchgrootte, contextlengte, modelcomplexiteit en stijgende hardwarekosten. De Pliops-oplossing combineert de geavanceerde XDP-PRO ASIC met de KVIO Store. Hierdoor kunnen GPU-servers grote hoeveelheden KV-cachegegevens efficiënt overzetten naar kosteneffectieve NVMe SSD-opslag, met behoud van uitzonderlijk lage toegangslatenties van minder dan een milliseconde.

Bij praktische implementaties resulteert het benutten van Pliops XDP LightningAI voor KV-cache-offloading in: virtueel geen waarneembaar verschil in TTFT (Time-To-First-Token) vergeleken met scenario's waarin de volledige KV-cache binnen de schaarse en dure HBM wordt bewaard. Dit stelt organisaties in staat hun effectieve geheugencapaciteit voor KV-caching drastisch uit te breiden zonder afbreuk te doen aan de kritieke lage latentieprestaties die realtime AI-toepassingen vereisen.

Naadloze integratie door op standaarden gebaseerd ontwerp

Een voordeel van Pliops XDP LightningAI is het gebruik van open standaarden, wat zorgt voor een moeiteloze implementatie. De NVMe-oF-native architectuur van de oplossing garandeert brede compatibiliteit met bestaande GPU-serverecosystemen, waardoor er geen hardwareaanpassingen aan de servers nodig zijn voor implementatie. Het maakt gebruik van standaard NVMe-oF over RDMA voor snelle cachesynchronisatie met lage latentie tussen GPU-clusters. Dit maakt gebruik van de bestaande netwerkinfrastructuur van datacenters, wat de implementatie vereenvoudigt en integratieproblemen vermindert.

Pliops bereikt dit met een samenhangende oplossing die is opgebouwd uit twee complementaire technologieën: XDP LightningAI en FusIOnX. Hoewel deze componenten samenwerken als onderdeel van de algehele architectuur, vervullen ze verschillende rollen. De Pliops XDP LightningAI-oplossing is gebaseerd op een speciaal hardwareapparaat met een PCIe-uitbreidingskaart die wordt aangestuurd door een aangepaste XDP ASIC en een reeks SSD's.

FusIOnX daarentegen is het complementaire softwareplatform dat het intelligente gebruik van XDP LightningAI-hardware orkestreert en beheert. Het is een gedesaggregeerd KV-cache-offloadingsysteem dat redundante berekeningen elimineert door eerder berekende KV-caches op te slaan en te hergebruiken. FusIOnX biedt de intelligentie om contextgegevens te identificeren, op te slaan en efficiënt op te halen die anders opnieuw berekend zouden moeten worden, waardoor LLM-inferentie wordt versneld. De softwarestack biedt meerdere configuraties die zijn afgestemd op verschillende implementatiescenario's, waaronder een vLLM-productiestack met slimme routering over meerdere GPU-knooppunten en integratie met frameworks zoals Dynamo en SGLang.

Pliops LightningAI FusIOnX-architectuur

De systeemarchitectuur is gebaseerd op initiatorknooppunten, die de GPU's huisvesten, en LightningAI-doelknooppunten, die verantwoordelijk zijn voor het offloaden van de KV-cache naar high-performance storage. Deze knooppunten communiceren via een supersnel netwerk dat gebruikmaakt van het NVMe-oF-protocol en de standaard NIC's van beide DPU's gebruikt.

Dieper ingaand op de datastroom, communiceert de Nvidia Dynamo-worker met de FusIOnX Client SDK binnen de applicatiecontainer op de GPU-server. Deze SDK faciliteert vervolgens communicatie via NVMe-oF via DPU's of standaard NIC's naar de XDP LightningAI-opslagserver die de FusIOnX KV Store en een Pliops XDP Pro1-acceleratiekaart host.

LightningAI ontmoet NVIDIA Dynamo: prestatiebenchmarks

De FusIOnX-Dynamo integratiebenchmarks laten indrukwekkende prestatieverbeteringen zien in meerdere configuraties. De tests werden uitgevoerd met het dynamische model Meta-Llama-3.1-70B-Instruct-FP8, uitgevoerd met tensorparallelisme van 2 (TP2).

Test configuratie

Initiator (GPU-server): Dell PowerEdge XE9680-server, geconfigureerd met:
- GPU's: 8 x NVIDIA H100 SXM, elk met 80 GB HBM3
- DRAM's: 2TB
- CPU's: Intel Xeon Platinum 8568Y+ processoren met twee sockets
- Netwerken: 2 x NVIDIA ConnectX-7-adapters (400 Gbps)

Doel (Pliops-opslagserver): Een Dell PowerEdge R860-knooppunt, geconfigureerd met:
- DRAM's: 512GB
- CPU's: Quad-socket Intel Xeon Gold 6418H-processors
- Pliops-versnelling: 1 x Pliops XDP Pro1-kaart
- Opslag: 24 x Samsung PM1733a 3.84TB NVMe SSD's, die een aanzienlijke ruwe capaciteit bieden voor KV-cache-offload
- Netwerken: 1 x NVIDIA ConnectX-7 HHHL-adapterkaart (400GbE, OSFP met één poort, PCIe 5.0 x16)
Netwerkverbinding: Deze twee servers zijn verbonden via een NVIDIA SN5600 Spectrum-X 800Gbps Ethernet-switch, waardoor communicatie met hoge bandbreedte en lage latentie voor NVMe-oF-verkeer wordt gegarandeerd.

Belangrijkste gemeten gegevens:

Tijd tot eerste token (TTFT): Hoe snel gebruikers gegenereerde content gaan zien
Tijd per output-token (TPOT): Tijd tussen gegenereerde tokens
Verzoeken per seconde (RPS): Systeemdoorvoer
Tokens per seconde (TPS): Generatiesnelheid

De benchmarks simuleerden gesprekken die meerdere beurten duurden, met een gemiddelde promptlengte van 2,200 tokens en 100-230 output-tokens per beurt, waarbij de gesprekken 2-28 beurten duurden.

Dynamo-prestaties voor één werknemer

Configuratie	TTFT (ms)	TPOT (ms)	#klanten	RPS
vLLM	310	33	8	1.35
Pliops FusIOnX	111	30	16	3.03
Krijgen	2.79x	-	2x	2.24x

Dynamo-prestatie met twee werknemers

Configuratie	TTFT (ms)	TPOT (ms)	#klanten	RPS
vLLM	557	40	26	3.49
vLLM 1P1D	753	36	26	3.76
Pliops FusIOnX	166	38	56	8.43
Krijgen	3.3–4.5x	-	2.15x	2.24–2.4x

Prestaties van Dynamo's vier-werknemers

Configuratie	TTFT (ms)	TPOT (ms)	#klanten	RPS
vLLM	1192	41	60	7.32
vLLM 2P2D	719	39	60	7.99
Pliops FusIOnX	329	40	148	20.7
Krijgen	2.2–3.6x	-	2.46x	2.6–2.8x

Bij de typische TPOT SLO van 40 ms (wat overeenkomt met ongeveer 25 TPS/gebruiker) toont FusIOnX een 2.8x hogere efficiëntie dan vanilla Dynamo en een 2.24x betere efficiëntie dan Dynamo's prefill-decode disaggregated setup qua RPS/GPU. En bij een minder strikte TPOT SLO, bijvoorbeeld 60 ms (~17 TPS/gebruiker), stijgt de efficiëntie tot meer dan 3x.

Daarnaast visualiseert de volgende grafiek de gemiddelde RPS-winst die Pliops behaalde in vergelijking met standaard Dynamo in de configuratie met vier werkers, gemeten gedurende de duur van het experiment. Gedurende het testvenster behield Pliops een verbetering van meer dan 2x ten opzichte van Dynamo, wat aantoont dat de oplossing hoge prestaties kan leveren onder realistische, productieachtige belastingsomstandigheden. Deze aanhoudende toename in doorvoer vertaalt zich direct in een grotere gelijktijdigheid tussen gebruikers en een verbeterde responsiviteit van de service, wat de effectiviteit van KV-cache-offloading op schaal bevestigt.

Het kwantificeren van het voordeel: voordelen in de praktijk van KV-cache-offload

Wat betekent dit voor bedrijven en het bredere AI-ecosysteem? De drastisch gereduceerde Time-To-First-Token (TTFT) vertaalt zich direct in een aanzienlijk verbeterde gebruikerservaring, met snellere, responsievere interacties. Dit is met name cruciaal voor interactieve applicaties zoals chatbots, virtuele assistenten en realtime codeerhulpprogramma's, waar latentie de bruikbaarheid kan bepalen.

Naast de individuele gebruikerservaring betekent de mogelijkheid om twee tot drie keer meer gelijktijdige gebruikers te verwerken met strikte naleving van Service Level Objectives (SLO's) dat organisaties een aanzienlijk grotere klantenkring kunnen bedienen met hun bestaande hardware-infrastructuur. Deze verbeterde capaciteit is cruciaal voor cloudgebaseerde inferentie-implementaties, waar schaalbaarheid om aan de fluctuerende vraag te voldoen van cruciaal belang is.

Bovendien maakt de vrijwel onbeperkte opslagcapaciteit voor KV-caches, mogelijk gemaakt door Pliops XDP LightningAI, ondersteuning mogelijk voor veel langere contextvensters en een hogere dichtheid aan gelijktijdige gebruikers dan traditionele HBM-gebaseerde benaderingen aankunnen. Deze mogelijkheid is niet langer beperkt tot de grootste AI-onderzoekslaboratoria. Inferentieproviders van elke omvang kunnen nu de oplossing van Pliops gebruiken om geavanceerde KV-cachingmechanismen te implementeren, vergelijkbaar met die van grote AI-bedrijven zoals OpenAI, Anthropic en Google.

Bovendien kunnen deze providers het totale stroomverbruik verminderen door redundante berekeningen te elimineren en het geheugengebruik te optimaliseren, wat bijdraagt aan een duurzamere AI-infrastructuur. Uiteindelijk kunnen deze efficiëntievoordelen worden doorgegeven aan eindgebruikers via scherp geprijsde AI-diensten, waardoor providers tegelijkertijd het gebruik en rendement op hun hardware-investeringen kunnen maximaliseren met minimale extra kapitaaluitgaven.

Wat dit betekent voor AI-infrastructuur

Pliops XDP LightningAI, met zijn FusIOnX-architectuur, vertegenwoordigt een aanzienlijke vooruitgang in de optimalisatie van LLM-inferentie. Het aanpakken van de kritieke bottleneck van KV-cachebeheer door middel van intelligente offloading naar kosteneffectieve opslag levert aanzienlijke prestatieverbeteringen op voor alle belangrijke parameters.

De naadloze integratie van de oplossing met NVIDIA Dynamo en vLLM is direct toepasbaar in diverse implementatiescenario's. Of u nu Dynamo's geavanceerde gedistribueerde servermogelijkheden gebruikt of direct vLLM, organisaties kunnen aanzienlijke verbeteringen verwachten in doorvoer, latentie en kostenefficiëntie.

Naarmate LLM's in omvang en capaciteit toenemen en hun toepassingen steeds bedrijfskritischer worden, zullen oplossingen zoals Pliops XDP LightningAI een essentieel hulpmiddel zijn voor organisaties die een schaalbare, efficiënte en kosteneffectieve AI-infrastructuur willen bouwen.

Conclusie

Pliops XDP LightningAI, aangevuld met de FusIOnX-architectuur, levert een enorme sprong voorwaarts in de efficiëntie van LLM-inferentie door de hardnekkige KV-cachebottleneck op te lossen. Door intelligente offloading van KV-cachegegevens naar krachtige, kosteneffectieve opslag, stelt Pliops organisaties in staat om contextvensters aanzienlijk uit te breiden, meer gelijktijdige gebruikers te ondersteunen en strikte latentie-SLO's te handhaven zonder extra GPU-investeringen. De naadloze integratie met frameworks zoals NVIDIA Dynamo en vLLM garandeert brede toepasbaarheid in moderne AI-serving stacks.

Naarmate LLM's complexer worden en de acceptatie binnen bedrijven toeneemt, wordt het ontkoppelen van geheugenschaling van dure GPU-resources cruciaal. Pliops XDP LightningAI ondersteunt de volgende generatie AI-infrastructuur en stelt aanbieders in staat om snellere, schaalbare en kostenefficiëntere AI-services op schaal te leveren. Voor organisaties die hun AI-implementaties toekomstbestendig willen maken en de ROI van hardware willen maximaliseren, biedt Pliops een aantrekkelijke, productieklare oplossing voor een van de meest urgente uitdagingen op het gebied van grootschalige inferentie.

Vraag een Pliops-demo aan

Neem contact op met StorageReview