NVIDIA Spectrum-X bevat adaptieve routering om de stroom van botsingen in te dammen en het bandbreedtegebruik te optimaliseren.
AI-fabrieken hebben meer nodig dan high-performance compute fabrics om efficiënt te kunnen werken. Hoewel East-West-netwerken een cruciale rol spelen bij het verbinden van GPU's, zijn storage fabrics, die verantwoordelijk zijn voor het koppelen van high-speed storage arrays, net zo essentieel. Storageprestaties hebben een aanzienlijke impact op meerdere AI-levenscyclusfasen, waaronder training checkpointing en inferentietechnieken zoals retrieval-augmented generation (RAG). Om aan deze eisen te voldoen, hebben NVIDIA en zijn storage-ecosysteem het NVIDIA Spectrum-X-netwerkplatform uitgebreid om de storage fabric-prestaties te verbeteren en de tijd tot AI-inzichten te versnellen.
Inzicht in netwerkbotsingen in AI-clusters
Netwerkbotsingen treden op wanneer meerdere datapakketten tegelijkertijd hetzelfde netwerkpad proberen te doorkruisen, wat resulteert in interferentie, vertragingen en, af en toe, de noodzaak tot hertransmissie. In grootschalige AI-clusters zijn dergelijke botsingen waarschijnlijker wanneer GPU's volledig zijn belast of wanneer er veel verkeer is van data-intensieve bewerkingen.
Omdat GPU's complexe berekeningen tegelijkertijd verwerken, kunnen netwerkbronnen verzadigd raken, wat leidt tot communicatieknelpunten. Spectrum-X is ontworpen om deze problemen tegen te gaan door automatisch en dynamisch verkeer om te leiden en congestie te beheren, waardoor kritieke gegevensstromen ononderbroken blijven zonder de noodzaak van implementaties zoals Meta's Enhanced ECMP beschreven in de LLAMA 3 papier.
Optimaliseren van opslagprestaties met Spectrum-X
NVIDIA Spectrum-X introduceert adaptieve routingmogelijkheden die flowcollisions verminderen en bandbreedtegebruik optimaliseren. Vergeleken met RoCE v2, het Ethernet-netwerkprotocol dat veel wordt gebruikt in AI-reken- en opslagfabrics, behaalt Spectrum-X superieure opslagprestaties. Tests tonen een verbetering van maximaal 48% in leesbandbreedte en een toename van 41% in schrijfbandbreedte. Deze ontwikkelingen vertalen zich in snellere uitvoering van AI-workloads, verkorten de voltooiingstijden van trainingstaken en minimaliseren de inter-tokenlatentie voor inferentietaken.
Naarmate AI-workloads complexer worden, moeten storageoplossingen dienovereenkomstig evolueren. Toonaangevende storageproviders, waaronder DDN, VAST Data en WEKA, zijn een partnerschap aangegaan met NVIDIA om Spectrum-X te integreren in hun storageoplossingen. Deze samenwerking stelt AI-storagefabrics in staat om geavanceerde netwerkmogelijkheden te benutten, wat de prestaties en schaalbaarheid verbetert.
De Israel-1 Supercomputer: Validatie van de Spectrum-X Impact
NVIDIA bouwde de generatieve AI-supercomputer Israel-1 als testbed om de prestaties van Spectrum-X in real-world scenario's te optimaliseren. Het Israel-1-team voerde uitgebreide benchmarking uit om de impact van Spectrum-X op de prestaties van het opslagnetwerk te evalueren. Met behulp van de Flexible I/O Tester (FIO)-benchmark vergeleken ze een standaard RoCE v2-netwerkconfiguratie met Spectrum-X's adaptieve routing en congestiecontrole ingeschakeld.
De tests omvatten configuraties variërend van 40 tot 800 GPU's, wat consistent superieure prestaties met Spectrum-X aantoonde. Verbeteringen in leesbandbreedte varieerden van 20% tot 48%, terwijl de schrijfbandbreedte winsten tussen 9% en 41% liet zien. Deze resultaten sluiten nauw aan bij prestatieverbeteringen die zijn waargenomen in partner ecosysteemoplossingen, wat de effectiviteit van de technologie in AI-opslagfabrics verder valideert.
De rol van opslagnetwerken in AI-prestaties
De efficiëntie van het opslagnetwerk is cruciaal voor AI-bewerkingen. Modeltraining duurt vaak dagen, weken of zelfs maanden, waardoor periodieke controlepunt om gegevensverlies door een systeemstoring te voorkomen. Met grootschalige AI-modellen die controlepuntstatussen van terabytes bereiken, zorgt efficiënt opslagnetwerkbeheer voor naadloze trainingscontinuïteit.
RAG-gebaseerde inferentieworkloads benadrukken verder het belang van high-performance storage fabrics. Door een LLM te combineren met een dynamische kennisbank, verbetert RAG de responsnauwkeurigheid zonder dat modelhertraining nodig is. Deze kennisbanken worden doorgaans opgeslagen in grote vectordatabases en vereisen opslagtoegang met lage latentie om optimale inferentieprestaties te behouden, met name in multi-tenant generatieve AI-omgevingen die hoge queryvolumes verwerken.
Adaptieve routering en congestiecontrole toepassen op opslag
Spectrum-X introduceert belangrijke Ethernet-netwerkinnovaties die zijn overgenomen van InfiniBand om de prestaties van de storage fabric te verbeteren:
- Adaptieve routering: Spectrum-X balanceert dynamisch netwerkverkeer om botsingen tussen olifantenstromen te voorkomen tijdens checkpointing en data-intensieve bewerkingen. Spectrum-4 Ethernet-switches analyseren realtime congestiegegevens en selecteren het minst gecongesteerde pad voor elk pakket. In tegenstelling tot legacy Ethernet, waar out-of-order-pakketten opnieuw moeten worden verzonden, gebruikt Spectrum-X SuperNIC's en DPU's om pakketten op de bestemming opnieuw te ordenen, wat zorgt voor een naadloze werking en een hoger effectief bandbreedtegebruik.
- Congestiecontrole: controlepunt en andere AI-opslagbewerkingen resulteren vaak in many-to-one-congestie, waarbij meerdere clients proberen naar één opslagknooppunt te schrijven. Spectrum-X beperkt dit door de data-injectiesnelheden te reguleren met behulp van hardwaregebaseerde telemetrie, waardoor congestiehotspots worden voorkomen die de netwerkprestaties zouden kunnen verslechteren.
Zorgen voor veerkracht in AI-opslagstructuren
Grootschalige AI-fabrieken omvatten een uitgebreid netwerk van switches, kabels en transceivers, waardoor veerkracht een cruciale factor is bij het behouden van prestaties. Spectrum-X gebruikt wereldwijde adaptieve routing om verkeer snel om te leiden tijdens linkstoringen, waardoor verstoringen worden geminimaliseerd en optimaal gebruik van de storage fabric wordt behouden.
Naadloze integratie met de NVIDIA AI Stack
Naast de hardware-innovaties van Spectrum-X biedt NVIDIA softwareoplossingen om AI-opslagworkflows te versnellen. Deze omvatten:
- NVIDIA Lucht: Een cloudgebaseerde simulatietool voor het modelleren van switches, SuperNIC's en opslag, waarmee implementatie en werking worden gestroomlijnd.
- NVIDIA Cumulus Linux: Een netwerkbesturingssysteem met ingebouwde automatisering en API-ondersteuning voor efficiënt beheer op schaal.
- NVIDIA DOCA: Een SDK voor SuperNIC's en DPU's, die verbeterde programmeerbaarheid en opslagprestaties biedt.
- NVIDIA NetQ: Een realtime netwerkvalidatietool die integreert met switchtelemetrie voor verbeterde zichtbaarheid en diagnostiek.
- NVIDIA GPUDirect-opslag: Een technologie voor directe gegevensoverdracht die de opslag-naar-GPU-geheugenpaden optimaliseert voor een betere gegevensdoorvoer.
Door Spectrum-X te integreren in opslagnetwerken, herdefiniëren NVIDIA en haar partners de prestaties van AI-infrastructuur. De combinatie van adaptieve netwerken, congestiecontrole en softwareoptimalisatie zorgt ervoor dat AI-fabrieken efficiënt kunnen schalen, wat snellere inzichten en verbeterde operationele efficiëntie oplevert.
Neem contact op met StorageReview
Nieuwsbrief | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS Feed