NVIDIA har avslöjat att xAI:s Colossus superdator, med anmärkningsvärda 100,000 XNUMX NVIDIA Hopper Tensor Core GPU: er, nu är i full drift i Memphis, TN.
NVIDIA har avslöjat att xAI:s Colossus superdator, med anmärkningsvärda 100,000 XNUMX NVIDIA Hopper Tensor Core GPU: er, nu är i full drift i Memphis, TN. Denna prestation möjliggjordes genom NVIDIAs Spectrum-X™ Ethernet-nätverksplattform, designad för att leverera robust prestanda för hyperskaliga, multi-tenant AI-datacenter. Spectrum-X använder standardbaserat Ethernet med RDMA-nätverk för att säkerställa effektiv kommunikation och optimerad datahantering inom dessa storskaliga miljöer.
Som världens största AI-superdator driver Colossus för närvarande utbildningen av xAI:s Grok-språkmodellfamilj, som inkluderar chatbot-funktioner för X Premium-prenumeranter. xAI har ytterligare planer på att utöka Colossus till 200,000 122 NVIDIA Hopper GPU:er, vilket förstärker dess status som en förstklassig AI-datorresurs. xAI och NVIDIA byggde den här anläggningen och den avancerade datorinfrastrukturen på rekordstora 19 dagar, medan liknande projekt vanligtvis sträcker sig över flera månader till år. Colossus började träna inom XNUMX dagar efter den första rackinstallationen.
Colossus uppnår exceptionell nätverksprestanda samtidigt som man tränar storskaliga modeller, och drar nytta av Spectrum-X:s överbelastningskontroll och flödeshantering. Detta har resulterat i att systemet upplever noll latensförsämring eller paketförlust på grund av flödeskollisioner och bibehåller en datagenomströmningshastighet på 95 %, en betydande förbättring jämfört med traditionellt Ethernet, som vanligtvis bara ser 60 % datagenomströmning och frekventa flödeskollisioner.
Framstegen för NVIDIAs Spectrum-X-implementering ligger i dess tillvägagångssätt för att hantera nätverksöverbelastning i detta massiva GPU-kluster. Traditionella Ethernet-nätverk kämpar med "incast"-problemet när tusentals GPU:er kommunicerar samtidigt, vilket leder till paketförluster och betydande prestandaförsämring. Medan InfiniBand traditionellt löst detta med sin inbyggda Priority Flow Control (PFC) och trängselhantering på hårdvarunivå, uppnår Spectrum-X liknande resultat med hjälp av RoCE v2 med förbättrade trängselkontrollmekanismer. Detta gör att xAI kan bibehålla InfiniBand-liknande prestandaegenskaper samtidigt som standard Ethernet-infrastrukturens kostnadsfördelar och flexibilitet utnyttjas.
Spectrum-X:s adaptiva routing- och direktdataplaceringsmöjligheter skapar en elastisk nätverksstruktur som kan hantera de massiva öst-västtrafikmönstren som är typiska i distribuerade AI-träningsarbetsbelastningar. Resultatet är ett system som bibehåller konsekvent låg latens och hög genomströmning även när alla 100,000 XNUMX GPU:er aktivt deltar i kollektiva operationer.
Gilad Shainer, NVIDIAs senior vice president för nätverk, betonade att "AI är uppdragskritisk" och kräver en kombination av prestanda, säkerhet, skalbarhet och kostnadseffektivitet. Han lyfte fram hur NVIDIAs Spectrum-X-plattform gör det möjligt för företag som xAI att påskynda bearbetning, analys och exekvering för AI-arbetsbelastningar, vilket resulterar i snabbare utveckling och implementering av AI-lösningar.
En talesperson för xAI erkände NVIDIAs Hopper GPU:er och Spectrum-X-teknik, och citerade systemets skala och prestanda som avgörande för att möjliggöra en optimerad AI-"fabrik" baserad på Ethernet-standarder.
Centralt för Spectrum-X är Spectrum SN5600 Ethernet-switch, som stöder hastigheter upp till 800 Gb/s med Spectrum-4-switchen ASIC. xAI parade strategiskt ihop den här switchen med NVIDIAs BlueField-3® SuperNIC, vilket uppnådde prestandanivåer som tidigare var exklusiva för InfiniBand. Spectrum-X Ethernet-nätverk introducerar funktioner som adaptiv routing med direkt dataplacering, sofistikerad överbelastningskontroll och förbättrad AI-tygsynlighet och prestandaisolering – som uppfyller de krävande kraven i multi-tenant AI-miljöer och AI-distributioner på företagsnivå.
Engagera dig med StorageReview
Nyhetsbrev | Youtube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | Rssflöde