Pliops XDP LightningAI steigert die LLM-Inferenz durch Auslagern des KV-Cache und ermöglicht so eine schnellere, skalierbare KI mit NVIDIA Dynamo-Integration.
Pliops ist führend in der Datenbeschleunigung und spezialisiert auf Hardware- und Softwarelösungen zur Optimierung und Beschleunigung datenintensiver Workloads in Cloud- und Unternehmensrechenzentren. Der Pliops Extreme Data Processor (XDP) verbessert die Leistung und Effizienz moderner Dateninfrastrukturen, indem er den Datenfluss zwischen Anwendungen und Speicher steuert, Engpässe beseitigt und Latenzen reduziert. Der XDP eignet sich hervorragend für anspruchsvolle Umgebungen, die hohen Durchsatz und minimale Latenz erfordern, wie beispielsweise Umgebungen für KI, komplexe Datenbanken, erweiterte Analysen und umfangreiche Speichersysteme im großen Maßstab.
Da KI zunehmend zu einem Eckpfeiler von Geschäftsabläufen und Innovationen wird, steigen die Anforderungen an die Rechenzentrumsinfrastruktur exponentiell, insbesondere für KI-Inferenz-Workloads. Diese Workloads erfordern die schnelle und effiziente Verarbeitung riesiger Datenmengen und belasten die vorhandenen Rechen- und Speicherressourcen enorm. Unternehmen stehen vor der Herausforderung, eine skalierbare, kostengünstige und energieeffiziente Infrastruktur bereitzustellen, die strenge Leistungs-SLAs dauerhaft erfüllen kann.
Pliops XDP LightningAI geht diese dringenden Herausforderungen direkt an. Diese innovative Lösung führt eine universelle Speicherbeschleunigungs-Engine ein, die sich nahtlos in führenden Serverplattformen, wie Dell PowerEdge-Systeme, und arbeiten mit fortschrittlichen Inferenzlösungen wie NVIDIA Dynamo, was effiziente KI-Operationen verspricht.
Warum KV-Caching für skalierbare LLM-Inferenz entscheidend ist
Die Mechanik und Bedeutung des KV-Caching
Der Kern der Optimierung transformerbasierter Large Language Models ist KV-Caching, eine grundlegende Technik zur Reduzierung von Rechenredundanzen bei autoregressiver Inferenz. In Transformer-Architekturen erfordert die Generierung jedes neuen Tokens die Berücksichtigung der Abfrage des aktuellen Tokens und der Schlüssel und Werte aller vorhergehenden Token.
Ohne einen effektiven Caching-Mechanismus müsste dieser Prozess die Schlüssel und Werte für jedes Token in der Sequenz bei jedem Generierungsschritt redundant neu berechnen. Dies führt zu einer Rechenkomplexität von O(n²) bzw. quadratischer Komplexität für eine Sequenz der Länge n. KV-Caching umgeht dies, indem die berechneten Schlüssel- und Wertematrizen vorheriger Token direkt im GPU-Speicher gespeichert werden. Das Modell kann diese vorberechneten Tensoren für nachfolgende Schritte wiederverwenden. Diese Wiederverwendung reduziert die Rechenkomplexität nach der anfänglichen Token-Verarbeitung drastisch auf O(n) und beschleunigt die Inferenzgeschwindigkeit erheblich.
Dieser Effizienzgewinn ist von größter Bedeutung für Echtzeit-KI-Anwendungen wie interaktive Chatbots, sofortige Übersetzungsdienste und dynamische Codegenerierung, bei denen die Latenz ein kritischer Faktor ist, der sich direkt auf das Benutzererlebnis und die Anwendungstauglichkeit auswirkt.
GPU-Speicherbeschränkungen: Der versteckte Engpass
KV-Caching verbessert zwar die Inferenzgeschwindigkeit erheblich, belastet aber gleichzeitig die GPU-Speicherressourcen. Die Größe des KV-Cache wächst linear mit der Sequenzlänge (Kontextfenster) und der Batchgröße (Anzahl gleichzeitiger Anfragen).
In Multi-Tenant-Cloud-Umgebungen oder Unternehmenssystemen, die Hunderte, wenn nicht Tausende gleichzeitiger Anfragen verarbeiten, kann dieser Speicherverbrauch selbst die modernste GPU-Infrastruktur schnell überlasten. Diese Erschöpfung zwingt zu schwierigen Kompromissen: Reduzierung der Batchgrößen (geringerer Durchsatz), Verkürzung der Kontextlängen oder Investition in mehr GPUs (höhere Investitionskosten).
Darüber hinaus ist es bei Inferenzanbietern üblich, KV-Caches zwischen Benutzerwechseln oder Nachrichten nicht beizubehalten. Dies bedeutet, dass die quadratische Berechnungskomplexität für zuvor berechnete Token bei jeder nachfolgenden Interaktion erneut auftritt, was einige potenzielle Effizienzgewinne zunichte macht.
NVIDIA Dynamo: LLM-Inferenz im großen Maßstab neu denken
Was ist NVIDIA Dynamo?
NVIDIA Dynamo, ein kürzlich veröffentlichtes und bahnbrechendes Open-Source-Framework, wurde entwickelt, um die komplexen Herausforderungen der verteilten und disaggregierten LLM-Inferenzbereitstellung zu bewältigen. Dynamo unterstützt verschiedene Backends, darunter PyTorch, SGLang, TensorRT-LLM und vLLM, und ist speziell für die nahtlose Skalierung von Inferenzoperationen von Einzel-GPU-Bereitstellungen bis hin zu Clustern mit tausend GPUs konzipiert. Es bietet bedeutende architektonische Innovationen, um KV-Cache-bedingte Speicherbeschränkungen zu überwinden und gleichzeitig maximalen Durchsatz und minimale Latenz zu optimieren.
Disaggregierte Serving-Architektur
Eine zentrale Innovation von NVIDIA Dynamo ist der disaggregierte Serving-Ansatz. Diese Architektur entkoppelt die rechenintensive Vorfüllphase strategisch von der speicherintensiven Dekodierungsphase (Generierung nachfolgender Token). Durch die intelligente Zuordnung dieser unterschiedlichen Phasen zu separaten, spezialisierten GPU-Pools ermöglicht Dynamo deren unabhängige Optimierung. Dies führt zu einer effizienteren Ressourcennutzung und einer insgesamt verbesserten Leistung.
KV-Cache-Verbesserungen
NVIDIA Dynamo verfügt außerdem über ausgefeilte KV-Cache-Verwaltungsfunktionen. Der KV Cache-Aware Smart Router verfolgt den Zustand und den Speicherort der KV-Cache-Daten über die gesamte GPU-Flotte hinweg. Dadurch können eingehende Inferenzanfragen intelligent an GPUs mit relevanten Cache-Einträgen weitergeleitet werden, wodurch kostspielige Neuberechnungen und der Datenübertragungsaufwand minimiert werden.
Darüber hinaus behebt der Dynamo Distributed KV Cache Manager Speicherkapazitätsbeschränkungen direkt durch die Implementierung von mehrstufigem Offloading. Diese Funktion ermöglicht die Verschiebung seltener abgerufener oder weniger priorisierter KV-Cache-Blöcke vom teuren, schnellen HBM auf kostengünstigere Speicherlösungen wie gemeinsam genutzten CPU-Speicher, lokale SSDs oder vernetzten Objektspeicher. Dieser hierarchische Speicheransatz ermöglicht es Unternehmen, deutlich größere Mengen an KV-Cache-Daten zu einem Bruchteil der Kosten zu verwalten und zu speichern, was die Inferenzleistung und die Wirtschaftlichkeit verbessert.
Es ist wichtig zu klären, dass die oben beschriebenen KV-Cache-Offloading-Funktionen ab heute Teil von Dynamos zukünftiger Fahrplan und sind in der Open-Source-Version noch nicht verfügbar. Daher unterstützen aktuelle Open-Source-Dynamo-Bereitstellungen die KV-Cache-Auslagerung in Tiered Storage nicht. Das bedeutet, dass die Leistung von Dynamo in der Praxis weiterhin durch den verfügbaren GPU-Speicher eingeschränkt ist.
Pliops XDP LightningAI: KV-Cache im großen Maßstab lösen
Pliops XDP LightningAI bietet eine ultraschnelle, skalierbare Petabyte-Speicherschicht, die strategisch unterhalb des HBM der GPU positioniert ist. Dies adressiert die kritischen Kompromisse zwischen Batchgröße, Kontextlänge, Modellkomplexität und steigenden Hardwarekosten. Die Pliops-Lösung kombiniert den hochmodernen XDP-PRO ASIC und den KVIO Store. Sie ermöglicht GPU-Servern die effiziente Auslagerung großer Mengen von KV-Cache-Daten auf kostengünstigen NVMe-SSD-Speicher und gewährleistet dabei außergewöhnlich niedrige Zugriffslatenzen von unter einer Millisekunde.
In der Praxis führt die Nutzung von Pliops XDP LightningAI für das KV-Cache-Offloading zu praktisch kein unterschied erkennbar in TTFT (Time-To-First-Token) im Vergleich zu Szenarien, in denen der gesamte KV-Cache im knappen und teuren HBM gespeichert wird. Dies ermöglicht Unternehmen, ihre effektive Speicherkapazität für KV-Caching drastisch zu erweitern, ohne die kritische Latenzzeit zu beeinträchtigen, die für Echtzeit-KI-Anwendungen erforderlich ist.
Nahtlose Integration durch standardbasiertes Design
Ein Vorteil von Pliops XDP LightningAI ist die Verwendung offener Standards, die eine mühelose Einführung gewährleisten. Die NVMe-oF-native Architektur der Lösung garantiert umfassende Kompatibilität mit bestehenden GPU-Server-Ökosystemen und erfordert für die Bereitstellung keine Hardware-Änderungen an den Servern. Standard-NVMe-oF über RDMA sorgt für eine schnelle Cache-Synchronisierung mit geringer Latenz über GPU-Cluster hinweg. Dies nutzt die vorhandene Netzwerkinfrastruktur des Rechenzentrums, vereinfacht die Bereitstellung und reduziert Integrationsprobleme.
Pliops erreicht dies mit einer schlüssigen Lösung, die auf zwei sich ergänzenden Technologien basiert: XDP LightningAI und FusIOnX. Diese Komponenten arbeiten zwar als Teil der Gesamtarchitektur zusammen, erfüllen jedoch unterschiedliche Aufgaben. Die Pliops XDP LightningAI-Lösung basiert auf einer dedizierten Hardware-Appliance mit einer PCIe-Zusatzkarte, die von einem benutzerdefinierten XDP ASIC und einer Reihe von SSDs angetrieben wird.
FusIOnX hingegen ist die ergänzende Softwareplattform, die die intelligente Nutzung der XDP LightningAI-Hardware orchestriert und verwaltet. Es handelt sich um ein disaggregiertes KV-Cache-Offloading-System, das redundante Berechnungen durch die Speicherung und Wiederverwendung bereits berechneter KV-Caches eliminiert. FusIOnX bietet die nötige Intelligenz, um Kontextdaten zu identifizieren, zu speichern und effizient abzurufen, die andernfalls neu berechnet werden müssten, und beschleunigt so die LLM-Inferenz. Der Software-Stack bietet mehrere Konfigurationen für unterschiedliche Einsatzszenarien, darunter einen vLLM-Produktions-Stack mit intelligentem Routing über mehrere GPU-Knoten und Integration mit Frameworks wie Dynamo und SGLang.
Pliops LightningAI FusIOnX-Architektur
Die Systemarchitektur basiert auf Initiatorknoten, die die GPUs beherbergen, und LightningAI-Zielknoten, die für die Auslagerung des KV-Caches auf Hochleistungsspeicher zuständig sind. Diese Knoten kommunizieren über ein Hochgeschwindigkeitsnetzwerk unter Verwendung des NVMe-oF-Protokolls und nutzen dabei die Standard-NICs der DPUs.
Um tiefer in den Datenfluss einzutauchen, interagiert der Nvidia Dynamo Worker mit dem FusIOnX Client SDK im Anwendungscontainer auf dem GPU-Server. Dieses SDK ermöglicht dann die Kommunikation über NVMe-oF über DPUs oder Standard-NICs mit dem XDP LightningAI-Speicherserver, der den FusIOnX KV Store und eine Pliops XDP Pro1-Beschleunigungskarte hostet.
LightningAI trifft NVIDIA Dynamo: Leistungsbenchmarks
Die Benchmarks der FusIOnX-Dynamo-Integration zeigen beeindruckende Leistungssteigerungen über mehrere Konfigurationen hinweg. Die Tests wurden mit dem Modell Meta-Llama-3.1-70B-Instruct-FP8-dynamic mit einer Tensorparallelität von 2 (TP2) durchgeführt.
Testkonfiguration
- Initiator (GPU-Server): Dell PowerEdge XE9680-Server, konfiguriert mit:
- GPUs: 8 x NVIDIA H100 SXM, jeweils mit 80 GB HBM3
- DRAMs: 2TB
- CPUs: Dual-Socket Intel Xeon Platinum 8568Y+ Prozessoren
- Netzwerk: 2 x NVIDIA ConnectX-7-Adapter (400 Gbit/s)
- Ziel (Pliops Storage Server): Ein Dell PowerEdge R860-Knoten, konfiguriert mit:
- DRAMs: 512GB
- CPUs: Quad-Sockel Intel Xeon Gold 6418H Prozessoren
- Pliops-Beschleunigung: 1 x Pliops XDP Pro1-Karte
- Lagerung: 24 x Samsung PM1733a 3.84 TB NVMe SSDs, die eine beträchtliche Rohkapazität für die KV-Cache-Auslagerung bieten
- Netzwerk: 1 x NVIDIA ConnectX-7 HHHL-Adapterkarte (400 GbE, Single-Port-OSFP, PCIe 5.0 x16)
- Netzwerkverbindung: Diese beiden Server sind über einen NVIDIA SN5600 Spectrum-X 800-Gbit/s-Ethernet-Switch verbunden, wodurch eine Kommunikation mit hoher Bandbreite und geringer Latenz für NVMe-oF-Verkehr gewährleistet wird.
Gemessene Schlüsselmetriken:
- Zeit bis zum ersten Token (TTFT): Wie schnell Benutzer generierte Inhalte sehen
- Zeit-pro-Ausgabe-Token (TPOT): Zeit zwischen generierten Token
- Anfragen pro Sekunde (RPS): Systemdurchsatz
- Tokens pro Sekunde (TPS): Generierungsgeschwindigkeit
Die Benchmarks simulierten mehrstufige Gespräche mit einer durchschnittlichen Eingabeaufforderungslänge von 2,200 Token und 100–230 Ausgabetoken pro Runde, wobei sich die Gespräche über 2–28 Runden erstreckten.
Dynamo-Einzelarbeiterleistung
Konfiguration | TTFT (ms) | TPOT (ms) | #Kunden | RPS |
---|---|---|---|---|
vLLM | 310 | 33 | 8 | 1.35 |
Pliops FusIOnX | 111 | 30 | 16 | 3.03 |
Verstärkung | 2.79x | - | 2x | 2.24x |
Dynamo-Zwei-Arbeiter-Leistung
Konfiguration | TTFT (ms) | TPOT (ms) | #Kunden | RPS |
---|---|---|---|---|
vLLM | 557 | 40 | 26 | 3.49 |
vLLM 1P1D | 753 | 36 | 26 | 3.76 |
Pliops FusIOnX | 166 | 38 | 56 | 8.43 |
Verstärkung | 3.3–4.5x | - | 2.15x | 2.24–2.4x |
Dynamo-Vier-Arbeiter-Leistung
Konfiguration | TTFT (ms) | TPOT (ms) | #Kunden | RPS |
---|---|---|---|---|
vLLM | 1192 | 41 | 60 | 7.32 |
vLLM 2P2D | 719 | 39 | 60 | 7.99 |
Pliops FusIOnX | 329 | 40 | 148 | 20.7 |
Verstärkung | 2.2–3.6x | - | 2.46x | 2.6–2.8x |
Bei einem typischen TPOT-SLO von 40 ms (entsprechend ca. 25 TPS/Benutzer) zeigt FusIOnX eine 2.8-mal höhere Effizienz als Standard-Dynamo und eine 2.24-mal höhere Effizienz als Dynamos Prefill-Decode-Disaggregated-Setup (bezogen auf RPS/GPU). Bei einem weniger strengen TPOT-SLO, z. B. 60 ms (ca. 17 TPS/Benutzer), steigt die Effizienz auf über das Dreifache.
Darüber hinaus visualisiert die folgende Grafik den durchschnittlichen RPS-Gewinn von Pliops im Vergleich zu Standard-Dynamo in der Vier-Worker-Konfiguration, gemessen über die Dauer des Experiments. Während des gesamten Testzeitraums zeigte Pliops eine mehr als doppelt so hohe Leistung wie Dynamo und verdeutlichte damit die Fähigkeit der Lösung, unter realistischen, produktionsähnlichen Lastbedingungen eine hohe Leistung aufrechtzuerhalten. Dieser anhaltende Durchsatzgewinn führt direkt zu einer höheren Benutzerparallelität und einer verbesserten Servicereaktion und bestätigt die Effektivität des KV-Cache-Offloadings im großen Maßstab.
Quantifizierung des Vorteils: Reale Vorteile von KV Cache Offload
Was bedeutet das für Unternehmen und das KI-Ökosystem insgesamt? Die drastisch reduzierte Time-To-First-Token (TTFT) führt direkt zu einer deutlich verbesserten Benutzererfahrung mit schnelleren und reaktionsfähigeren Interaktionen. Dies ist besonders wichtig für interaktive Anwendungen wie Chatbots, virtuelle Assistenten und Echtzeit-Coding-Copiloten, bei denen die Latenz die Benutzerfreundlichkeit entscheidend beeinflussen kann.
Über das individuelle Benutzererlebnis hinaus ermöglicht die Fähigkeit, zwei- bis dreimal mehr gleichzeitige Benutzer zu bedienen und gleichzeitig die Service-Level-Ziele (SLOs) strikt einzuhalten, Unternehmen, mit ihrer bestehenden Hardware-Infrastruktur einen deutlich größeren Kundenstamm zu bedienen. Diese verbesserte Kapazität ist entscheidend für Cloud-basierte Inferenz-Implementierungen, bei denen die Skalierung zur Deckung schwankender Nachfrage von größter Bedeutung ist.
Darüber hinaus ermöglicht die nahezu unbegrenzte Speicherkapazität für KV-Caches, die durch Pliops XDP LightningAI ermöglicht wird, deutlich längere Kontextfenster und eine höhere Dichte gleichzeitiger Benutzer, als herkömmliche HBM-basierte Ansätze unterstützen können. Diese Fähigkeit ist nicht mehr nur den größten KI-Forschungslaboren vorbehalten. Inferenzanbieter jeder Größe können nun die Lösung von Pliops nutzen, um anspruchsvolle KV-Caching-Mechanismen zu implementieren, ähnlich denen, die von großen KI-Unternehmen wie OpenAI, Anthropic und Google eingesetzt werden.
Darüber hinaus können diese Anbieter den Gesamtstromverbrauch durch die Vermeidung redundanter Berechnungen und die Optimierung der Speichernutzung senken und so zu einer nachhaltigeren KI-Infrastruktur beitragen. Diese Effizienzgewinne können letztlich durch preisgünstigere KI-Dienste an die Endnutzer weitergegeben werden. Gleichzeitig können Anbieter die Auslastung und Rendite ihrer Hardware-Investitionen mit minimalem zusätzlichen Investitionsaufwand maximieren.
Was das für die KI-Infrastruktur bedeutet
Pliops XDP LightningAI mit seiner FusIOnX-Architektur stellt einen bedeutenden Fortschritt in der LLM-Inferenzoptimierung dar. Die Behebung des kritischen Engpasses im KV-Cache-Management durch intelligentes Offloading auf kostengünstigen Speicher führt zu erheblichen Leistungsverbesserungen in allen wichtigen Bereichen.
Die nahtlose Integration der Lösung mit NVIDIA Dynamo und vLLM ist sofort in verschiedenen Einsatzszenarien anwendbar. Ob mit den hochentwickelten Distributed-Serving-Funktionen von Dynamo oder direkt mit vLLM – Unternehmen können mit deutlichen Verbesserungen bei Durchsatz, Latenz und Kosteneffizienz rechnen.
Da LLMs immer größer und leistungsfähiger werden und ihre Anwendungen zunehmend unternehmenskritischer werden, werden Lösungen wie Pliops XDP LightningAI zu einem unverzichtbaren Werkzeug für Unternehmen, die eine skalierbare, effiziente und kostengünstige KI-Infrastruktur aufbauen möchten.
Fazit
Pliops XDP LightningAI, ergänzt durch die FusIOnX-Architektur, ermöglicht einen deutlichen Effizienzsprung in der LLM-Inferenz, indem es den anhaltenden KV-Cache-Engpass behebt. Durch die intelligente Auslagerung von KV-Cache-Daten auf leistungsstarke, kostengünstige Speicher ermöglicht Pliops Unternehmen, Kontextfenster drastisch zu erweitern, mehr gleichzeitige Benutzer zu unterstützen und strikte Latenz-SLOs ohne zusätzliche GPU-Investitionen einzuhalten. Die nahtlose Integration mit Frameworks wie NVIDIA Dynamo und vLLM gewährleistet eine breite Anwendbarkeit in modernen KI-Serving-Stacks.
Da LLMs immer komplexer werden und die Akzeptanz in Unternehmen zunimmt, ist die Entkopplung der Speicherskalierung von teuren GPU-Ressourcen entscheidend. Pliops XDP LightningAI ermöglicht die KI-Infrastruktur der nächsten Generation und ermöglicht Anbietern die Bereitstellung schnellerer, skalierbarerer und kosteneffizienterer KI-Dienste im großen Maßstab. Unternehmen, die ihre KI-Implementierungen zukunftssicher gestalten und den Hardware-ROI maximieren möchten, bietet Pliops eine überzeugende, produktionsreife Lösung für eine der drängendsten Herausforderungen der groß angelegten Inferenz.
Fordern Sie eine Pliops-Demo an
Beteiligen Sie sich an StorageReview
Newsletter | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS Feed