Home EnterpriseAI NVIDIA Spectrum-X-netwerken voeden xAI's kolossale supercomputer

NVIDIA Spectrum-X-netwerken voeden xAI's kolossale supercomputer

by Harold Frits

NVIDIA heeft bekendgemaakt dat de Colossus-supercomputer van xAI, met maar liefst 100,000 NVIDIA Hopper Tensor Core GPU's, nu volledig operationeel is in Memphis, TN.

NVIDIA heeft onthuld dat de Colossus-supercomputer van xAI, met een opmerkelijke 100,000 NVIDIA Hopper Tensor Core GPU's, nu volledig operationeel is in Memphis, TN. Deze prestatie werd mogelijk gemaakt door Spectrum-X™ van NVIDIA Ethernet-netwerkplatform, ontworpen om robuuste prestaties te leveren voor hyperscale, multi-tenant AI-datacenters. Spectrum-X gebruikt op standaarden gebaseerd Ethernet met RDMA-netwerken om efficiënte communicatie en geoptimaliseerde gegevensverwerking binnen deze grootschalige omgevingen te garanderen.

Colossus supercomputer schakelaar

Als 's werelds grootste AI-supercomputer drijft Colossus momenteel de training aan van xAI's Grok-taalmodelfamilie, die chatbotfunctionaliteiten voor X Premium-abonnees omvat. xAI heeft verdere plannen om Colossus uit te breiden naar 200,000 NVIDIA Hopper GPU's, waarmee de status als toonaangevende AI-computingbron wordt versterkt. xAI en NVIDIA bouwden deze faciliteit en de geavanceerde computinginfrastructuur in een recordtijd van 122 dagen, terwijl vergelijkbare projecten doorgaans enkele maanden tot jaren duren. Colossus begon met de trainingsactiviteiten binnen 19 dagen na de eerste rackinstallatie.

Colossus bereikt uitzonderlijke netwerkprestaties tijdens het trainen van grootschalige modellen, waarbij wordt geprofiteerd van Spectrum-X's congestiecontrole en flow handling. Dit heeft ertoe geleid dat het systeem geen latentiedegradatie of pakketverlies ondervindt door flow collisions en een data throughput rate van 95% handhaaft, een aanzienlijke verbetering ten opzichte van traditioneel Ethernet, dat doorgaans slechts 60% data throughput en frequente flow collisions kent.

De vooruitgang van NVIDIA's Spectrum-X-implementatie ligt in de aanpak van het omgaan met netwerkcongestie in dit enorme GPU-cluster. Traditionele Ethernet-netwerken worstelen met het "incast"-probleem wanneer duizenden GPU's tegelijkertijd communiceren, wat leidt tot pakketverlies en aanzienlijke prestatieverslechtering. Terwijl InfiniBand dit traditioneel oploste met zijn ingebouwde Priority Flow Control (PFC) en hardware-level congestiebeheer, behaalt Spectrum-X vergelijkbare resultaten met RoCE v2 met verbeterde congestiecontrolemechanismen. Hierdoor kan xAI InfiniBand-achtige prestatiekenmerken behouden en tegelijkertijd de kostenvoordelen en flexibiliteit van standaard Ethernet-infrastructuur benutten.

De adaptieve routing en Direct Data Placement-mogelijkheden van Spectrum-X creëren een veerkrachtig netwerkweefsel dat de enorme oost-westverkeerspatronen aankan die kenmerkend zijn voor gedistribueerde AI-trainingsworkloads. Het resultaat is een systeem dat consistente lage latentie en hoge doorvoer behoudt, zelfs wanneer alle 100,000 GPU's actief deelnemen aan collectieve bewerkingen.

Gilad Shainer, NVIDIA's senior vice president of networking, benadrukte dat "AI mission-critical" is en een combinatie van prestaties, beveiliging, schaalbaarheid en kostenefficiëntie vereist. Hij benadrukte hoe NVIDIA's Spectrum-X-platform bedrijven zoals xAI in staat stelt om verwerking, analyse en uitvoering voor AI-workloads te versnellen, wat resulteert in snellere ontwikkeling en implementatie van AI-oplossingen.

Een woordvoerder van xAI erkende de Hopper GPU's en Spectrum-X-technologie van NVIDIA en noemde de schaal en prestaties van het systeem van cruciaal belang voor het mogelijk maken van een geoptimaliseerde AI-'fabriek' op basis van Ethernet-standaarden.

Centraal in Spectrum-X staat de Spectrum SN5600 Ethernet-switch, die snelheden tot 800 Gb/s ondersteunt met de Spectrum-4 switch ASIC. xAI heeft deze switch strategisch gekoppeld aan NVIDIA's BlueField-3® SuperNIC's, waarmee prestatieniveaus werden bereikt die voorheen exclusief waren voor InfiniBand. Spectrum-X Ethernet-netwerken introduceren functies zoals adaptieve routing met Direct Data Placement, geavanceerde congestiecontrole en verbeterde AI-fabriczichtbaarheid en prestatie-isolatie, waarmee wordt voldaan aan de veeleisende vereisten van multi-tenant AI-omgevingen en AI-implementaties op ondernemingsniveau.

Neem contact op met StorageReview

Nieuwsbrief | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS Feed