Home Enterprise NVIDIA GTC 2024 Keynote Hoogtepunten – Dag 1 Megapost

NVIDIA GTC 2024 Keynote Hoogtepunten – Dag 1 Megapost

by Jordaan Ranous
dgx gb200-knooppunten

NVIDIA GTC 2024 is er; voor het eerst in vele jaren weer persoonlijk terug. Jordan is live aanwezig bij het evenement en brengt al het laatste nieuws en analyses over het toonaangevende AI-evenement.

NVIDIA's GPU Technology Conference (GTC) is na een aantal jaar weer persoonlijk aanwezig als een virtueel evenement. Dit is een fantastisch evenement voor zowel innovators, onderzoekers, wetenschappers als technologieliefhebbers om de nieuwste technologie van de technologiegigant te zien. De NVIDIA GTC 2024 van dit jaar, waar lang naar wordt uitgekeken in de technologiegemeenschap, toont de nieuwste doorbraken op het gebied van AI, deep learning, autonome voertuigen en de nieuwe Blackwell-architectuur.

Hier zijn de hoogtepunten van de keynote van maandag door NVIDIA's CEO, Jensen Huang. Het omringde NVIDIA's nieuwe Blackwell-architectuur, netwerken, verbeteringen op het gebied van kwantumcomputers en updates van de softwarestack.

NVIDIA Blackwell

Zes baanbrekende technologieën die klaar zijn om versneld computergebruik opnieuw te definiëren vormen de kern van de innovatie van Blackwell. Van het verbeteren van de gegevensverwerking tot het revolutioneren van medicijnontwerp en meer: ​​NVIDIA zet een nieuwe standaard. Bekende gebruikers als Amazon en Microsoft staan ​​al in de rij in afwachting van het transformatieve potentieel van Blackwell.

Laten we inzoomen op het technische wonder dat NVIDIA heeft verwezenlijkt. De Blackwell GPU's bevatten maar liefst 208 miljard transistors verdeeld over twee chips, mogelijk gemaakt door gebruik te maken van een 4NP TSMC-proces met twee dradenkruislimieten. Deze aanpak daagt de grenzen van de halfgeleiderfabricage uit en introduceert een nieuwe manier om chips met een razendsnelle 10TB/s-interface te verbinden. Deze stap richting chipletontwerpen weerspiegelt de ambitie van NVIDIA om de traditionele grenzen te overschrijden.

Specificaties H100 B100 B200
Max geheugen 80GB HBM3 192 GB HBM3e 192 GB HBM3e
Geheugenbandbreedte 3.35 TB/s 8 TB/s 8 TB/s
FP4 - 14 PFLOPS 18 PFlops
FP6 - 7 PFLOPS 9 PFLOPS
FP8/INT8 3.958 PFLOPS/POPS 7 PFLOPS/POPS 9 PFLOPS/POPS
FP16/BF16 1979 TFLOPS 3.5 PFLOPS 4.5 PFLOPS
TF32 989 TFLOPS 1.8 PFLOPS 2.2 PFLOPS
FP64 67 TFLOPS 30 TFLOPS 40 TFLOPS
Max Stroomverbruik 700W 700W 1000W

Opmerking: alle getallen hier vertegenwoordigen de prestaties voor berekeningen met beperkte matrix.

Het gaat niet alleen om het inpakken van meer transistors. De introductie van FP4- en FP6-rekenmogelijkheden brengt een nieuw niveau van efficiënte modeltraining met zich mee, zij het met een kleine wisselwerking in de modelprestaties. Deze afweging is een genuanceerd aspect van het platform en weerspiegelt een complexe evenwichtsoefening tussen efficiëntie en precisie.

De transformatorengine van de tweede generatie binnen Blackwell maakt een sprong in rekenkracht, bandbreedte en modelgrootte mogelijk bij gebruik van FP4, wat verbeteringen oplevert die essentieel zijn voor de toekomst van AI-ontwikkeling. Bovendien levert de integratie van PCIe Gen6 en de nieuwe HBM3e-geheugentechnologie een aanzienlijke verhoging van de bandbreedte op, die, in combinatie met de vijfde generatie NVLink, de bandbreedte van de vorige generatie verdubbelt tot maar liefst 1.8 TB/s.

Een van de meer intrigerende introducties is de RAS Engine, die de betrouwbaarheid, beschikbaarheid en onderhoudbaarheid van enorme AI-implementaties verbetert. Deze innovatie zou het gebruik van modelflops aanzienlijk kunnen verbeteren en een van de cruciale uitdagingen bij het opschalen van AI-toepassingen kunnen aanpakken.

Met Blackwell brengt NVIDIA nieuwe vertrouwelijke computermogelijkheden, waaronder de eerste Trusted Execution Environment (TEE)-I/O-compatibele GPU in de branche, waarmee de TEE wordt uitgebreid van CPU's naar GPU's. Dit zorgt voor een veilige en snelle verwerking van privégegevens, cruciaal voor het trainen van generatieve AI. Deze innovatie is vooral van belang voor sectoren die te maken hebben met privacyregelgeving of bedrijfseigen informatie. NVIDIA Blackwell's Confidential Computing levert ongeëvenaarde beveiliging zonder concessies te doen aan de prestaties, en biedt vrijwel identieke doorvoer als niet-gecodeerde modi. Deze vooruitgang waarborgt niet alleen grote AI-modellen, maar maakt ook vertrouwelijke AI-training en federatief leren mogelijk, waardoor intellectueel eigendom op het gebied van AI wordt beschermd.

De decompressie-engine in NVIDIA Blackwell markeert een aanzienlijke sprong voorwaarts in data-analyse en databaseworkflows. Deze engine kan gegevens decomprimeren met een verbazingwekkende snelheid van maximaal 800 GB/s, waardoor de prestaties van gegevensanalyse aanzienlijk worden verbeterd en de tijd tot inzichten wordt verkort. In samenwerking met 8TB/s HBM3e-geheugen en de snelle NVLink-C2C-verbinding versnelt het databasequery's, waardoor Blackwell 18 keer sneller is dan CPU's en 6 keer sneller dan eerdere NVIDIA GPU's in querybenchmarks. Deze technologie ondersteunt de nieuwste compressieformaten en positioneert NVIDIA Blackwell als een krachtpatser voor data-analyse en wetenschap, waardoor de end-to-end analytics-pijplijn drastisch wordt versneld.

Ondanks de technische wonderen doet NVIDIA's claim om de bedrijfskosten en het energieverbruik op LLM-basis tot 25x te verlagen de wenkbrauwen fronsen, vooral gezien het gebrek aan gedetailleerde gegevens over het energieverbruik. Deze bewering is weliswaar opmerkelijk, maar zou baat kunnen hebben bij verdere verduidelijking om de impact ervan volledig te kunnen inschatten.

Samenvattend is het Blackwell-platform van NVIDIA een bewijs van het meedogenloze streven van het bedrijf om de grenzen te verleggen van wat mogelijk is op het gebied van AI en computergebruik. Met zijn revolutionaire technologieën en ambitieuze doelstellingen is Blackwell niet alleen een stap, maar een gigantische sprong voorwaarts, die belooft verschillende ontwikkelingen in verschillende industrieën te stimuleren. Terwijl we dieper ingaan op dit tijdperk van versneld computergebruik en generatieve AI, kunnen de innovaties van NVIDIA de katalysator zijn voor de volgende industriële revolutie.

NVIDIA Blackwell HGX

NVIDIA omarmde de Blackwell-architectuur en vernieuwde de HGX-server- en baseboard-serie. Deze aanzienlijke evolutie ten opzichte van eerdere modellen brengt een overtuigende verandering met zich mee, waarbij met name de totale eigendomskosten worden verlaagd en de prestaties op indrukwekkende wijze worden verbeterd. De vergelijking is opvallend: als je FP8 tegen FP4 vergelijkt, is er een opmerkelijke prestatieverbetering van 4.5x. Zelfs als je FP8 vergelijkt met zijn voorganger, verdubbelen de prestaties bijna. Dit gaat niet alleen over pure snelheid; het is een sprong voorwaarts in geheugenefficiëntie, met een achtvoudige stijging van de totale geheugenbandbreedte.

Specificaties HGX H100 HGX H200 HGX B100 HGX B200
Max geheugen 640GB HBM3 1.1 TB HBM3e 1.5 TB HBM3e 1.5 TB HBM3e
Geheugenbandbreedte 7.2 TB/s 7.2 TB/s 8 TB/s 8 TB / s
FP4 - - 112 PFLOPS 144 PFLOPS
FP6 - - 56 PFLOPS 72 PFLOPS
FP8/INT8 32 PFLOPS/POPS 32 PFLOPS/POPS 56 PFLOPS/POPS 72 PFLOPS/POPS
FP16/BF16 16 PFLOPS 16 PFLOPS 28 PFLOPS 36 PFLOPS

NVIDIA Grace-Blackwell SuperChip

We duiken dieper in de fijne kneepjes van de nieuwste aankondiging van NVIDIA, met de nadruk op de GB200, de hoeksteen van het arsenaal van het Blackwell-platform. Nu NVIDIA voortdurend de grenzen verlegt op het gebied van high-performance computing, vertegenwoordigt de GB200 een aanzienlijke evolutie in zijn GPU-aanbod, waarbij geavanceerde technologie wordt gecombineerd met strategische vooruitgang op het gebied van connectiviteit en schaalbaarheid. De GB200 herbergt twee B200 GPU's; Deze configuratie wijkt af van de GH200 van de vorige generatie, die een één-op-één-verbinding had tussen een GPU en een Grace CPU. Dit keer zijn beide B200 GPU's gekoppeld aan dezelfde Grace CPU via een chip-to-chip (C900C)-koppeling van 2 GB/s.

Specificaties GH200 GB200
Max geheugen 144 GB HBM3e 384 GB HBM3e
Geheugenbandbreedte 8 TB/s 16TB/s (totaal)
FP4 - 40 PFLOPS
FP6 - 20 PFLOPS
FP8/INT8 3.958 PFLOPS/POPS 20 PFLOPS
FP16/BF16 1979 TFLOPS 10 PFLOPS
TF32 989 TFLOPS 5 PFLOPS
FP64 67 TFLOPS 90 TFLOPS
PCIe-rijstroken 4x PCIe Gen 5 x16 2x PCIe Gen 6 x16
Max Stroomverbruik 1000W 2700W

# Opmerking: alle cijfers hier vertegenwoordigen de prestaties voor sparse matrixberekeningen.

Op het eerste gezicht lijkt de beslissing om de 900GB/s C2C-koppeling van de vorige generatie te behouden misschien een beperking. Deze ontwerpkeuze onderstreept echter een berekende strategie om bestaande technologieën te benutten en tegelijkertijd de weg vrij te maken voor nieuwe niveaus van schaalbaarheid. Dankzij de architectuur van de GB200 kan hij communiceren met maximaal 576 GPU's met een snelheid van 1.8 TB/s, dankzij de vijfde generatie NVLink. Dit niveau van interconnectiviteit is cruciaal voor het bouwen van massaal parallelle computeromgevingen die nodig zijn voor het trainen en inzetten van de grootste en meest complexe AI-modellen.

NVIDIA Networking Stack-update

Integratie van de GB200 met NVIDIA's nieuwste netwerktechnologieën, de Quantum-X800 InfiniBand en Spectrum-X800 Ethernet-platforms roept interessante vragen op over connectiviteit en bandbreedte. De vermelding van 800Gb/s-mogelijkheden duidt erop dat NVIDIA de voordelen onderzoekt die PCIe Gen6 kan bieden. 

De GB200-configuratie, met zijn dubbele GPU-installatie en geavanceerde netwerkopties, vertegenwoordigt NVIDIA's visie op de toekomst van HPC. Deze visie gaat niet alleen over de brute kracht van individuele componenten, maar ook over hoe deze componenten kunnen worden georkestreerd in een samenhangend, schaalbaar systeem. Door een hogere mate van interconnectiviteit mogelijk te maken en een evenwicht te bewaren tussen rekenkracht en gegevensoverdrachtsnelheden, pakt NVIDIA enkele van de meest kritische uitdagingen op het gebied van AI-onderzoek en -ontwikkeling aan, met name bij het omgaan met exponentieel groeiende modelgroottes en rekenvereisten.

NVIDIA vijfde generatie NVLink- en NVLink-switches

De vijfde generatie NVLink markeert een belangrijke mijlpaal op het gebied van high-performance computing en AI. Deze technologie verbetert het vermogen om verbinding te maken en te communiceren tussen GPU's, een cruciaal aspect voor de snel evoluerende eisen van fundamentele modellen in AI.

De vijfde generatie NVLink verhoogt de GPU-connectiviteitscapaciteit tot 576 GPU's, een aanzienlijke stijging ten opzichte van de vorige limiet van 256 GPU's. Deze uitbreiding gaat gepaard met een verdubbeling van de bandbreedte vergeleken met zijn voorganger, een cruciale verbetering voor de prestaties van steeds complexere fundamentele AI-modellen.

Elke Blackwell GPU-link beschikt over twee snelle differentiële paren, vergelijkbaar met de Hopper GPU, maar bereikt een effectieve bandbreedte per link van 50 GB/sec in elke richting. Deze GPU's zijn uitgerust met 18 NVLink-koppelingen van de vijfde generatie, wat een duizelingwekkende totale bandbreedte van 1.8 TB/s oplevert. Deze doorvoer is ruim 14 keer groter dan die van de huidige PCIe Gen 5.

Een ander opmerkelijk kenmerk is de NVIDIA NVLink Switch, die een GPU-bandbreedte van 130TB/s ondersteunt in een enkel NVLink-domein met 72 GPU's (NVL72), cruciaal voor modelparallellisme. Deze switch levert ook een viervoudige toename van de bandbreedte-efficiëntie met de nieuwe NVIDIA Scalable Hierarchical Aggregation and Reduction Protocol (SHARP) FP8-ondersteuning.

Bovendien vormt de NVIDIA Unified Fabric Manager (UFM) een aanvulling op de NVLink Switch door robuust en bewezen beheer te bieden voor de NVLink compute fabric.

Exascale-computer in een rack

Voortbouwend op de formidabele basis gelegd door zijn voorganger, de GraceHopper GH200 NVL32, is de DGX GB200 NVL72 niet alleen een upgrade; het is een hoeksteen van de vooruitgang om uit te breiden wat mogelijk is op het gebied van rekenkracht en efficiëntie. Het DGX GB200 NVL72-platform toont verbluffende vooruitgang over de hele linie. Elk DGX GB200 NVL72-systeem bestaat uit 18x ​​GB200 SuperChip-nodes, elk bestaande uit 2x GB200.

Dit platform verdubbelt het aantal GPU's ruimschoots van 32 naar 72 en verhoogt het aantal CPU's bescheiden van 32 naar 36. De sprong in het geheugen is echter opmerkelijk: van 19.5 TB naar een indrukwekkende 30 TB. Deze uitbreiding gaat niet alleen over grotere aantallen; het gaat om het mogelijk maken van een nieuw echelon van rekenmogelijkheden, vooral bij het omgaan met de meest complexe AI-modellen en simulaties.

Een van de meest verbluffende upgrades is de sprong in rekenprestaties. Het platform springt van 127 PetaFLOPS naar 1.4 ExaFLOPS bij het vergelijken van de FP4-prestaties, wat een stijging van ongeveer 11x betekent. Deze vergelijking illustreert de toewijding van NVIDIA om de grenzen van precisie en snelheid te verleggen, vooral op het gebied van AI en machine learning. Maar zelfs wanneer FP8 met FP8 wordt vergeleken, behaalt het platform een ​​toename van 5.6x, van 127PFs naar 720PFs, wat een aanzienlijke vooruitgang op het gebied van efficiëntie en rekenkracht onderstreept.

De toewijding aan het onderhouden van een volledig watergekoeld systeem weerspiegelt de focus van NVIDIA op duurzaamheid en prestatie-optimalisatie. Deze aanpak verbetert de operationele efficiëntie van het systeem en sluit aan bij bredere industriële trends in de richting van milieuvriendelijkere datacentertechnologieën.

NVIDIA DGX SuperPOD aangedreven door NVIDIA GB200 Grace Blackwell Superchips

NVIDIA kondigde ook zijn AI-supercomputer van de volgende generatie aan, de DGX SuperPOD, uitgerust met 8 NVIDIA GB200 NVL72 Grace Blackwell-systemen. Deze formidabele opstelling is ontworpen voor het verwerken van modellen met biljoen parameters en beschikt over 11.5 exaflops aan AI-supercomputerkracht met FP4-precisie in een vloeistofgekoelde rack-scale architectuur. Elk GB200 NVL72-systeem bevat 36 NVIDIA GB200 Superchips, die een prestatieverbetering van 30x beloven ten opzichte van zijn H100-voorgangers voor werkbelastingen met grote taalmodellen. 

Volgens Jensen Huang, CEO van NVIDIA, wil de DGX SuperPOD de “fabriek van de AI-industriële revolutie” zijn.

dgx gb200-knooppunten

Kwantumsimulatiewolk

NVIDIA onthulde ook de Quantum Simulation Cloud-service, waarmee onderzoekers quantum computing in verschillende wetenschappelijke domeinen kunnen verkennen. Deze dienst is gebaseerd op het open-source CUDA-Q-platform en biedt krachtige tools en integraties voor het bouwen en testen van kwantumalgoritmen en -applicaties. Samenwerkingen met de Universiteit van Toronto en bedrijven als Classiq en QC Ware benadrukken de inspanningen van NVIDIA om de innovatie op het gebied van quantumcomputers te versnellen.

NVIDIA NIM-softwarestack

Een andere belangrijke aankondiging was de lancering van de NVIDIA NIM-softwarestack, die tientallen generatieve AI-microservices op bedrijfsniveau biedt. Met deze services kunnen bedrijven aangepaste applicaties op hun platforms creëren en implementeren, waardoor de inferentie op populaire AI-modellen wordt geoptimaliseerd en de ontwikkeling wordt verbeterd met NVIDIA CUDA-X-microservices voor een breed scala aan applicaties. Jensen Huang benadrukte het potentieel van deze microservices om ondernemingen in verschillende sectoren te transformeren in door AI aangedreven entiteiten.

OVX-computersystemen

Als reactie op de snelle groei van generatieve AI in verschillende industrieën heeft NVIDIA de OVX-computersystemen geïntroduceerd, een oplossing die is ontworpen om complexe AI- en grafisch-intensieve werklasten te stroomlijnen. NVIDIA erkent de cruciale rol van krachtige opslag in AI-implementaties en heeft een validatieprogramma voor opslagpartners geïnitieerd met toonaangevende bijdragers als DDN, Dell PowerScale, NetApp, Pure Storage en WEKA.

Het nieuwe programma standaardiseert het proces voor partners om hun opslagapparatuur te valideren, waardoor optimale prestaties en schaalbaarheid voor zakelijke AI-workloads worden gegarandeerd. Door middel van rigoureuze NVIDIA-tests worden deze opslagsystemen gevalideerd op basis van diverse parameters, die de uitdagende eisen van AI-toepassingen weerspiegelen.

Bovendien bieden NVIDIA-gecertificeerde OVX-servers, aangedreven door NVIDIA L40S GPU's en geïntegreerd met uitgebreide software- en netwerkoplossingen, een flexibele architectuur die past in uiteenlopende datacenteromgevingen. Deze aanpak versnelt niet alleen het computergebruik daar waar de gegevens zich bevinden, maar komt ook tegemoet aan de unieke behoeften van generatieve AI, waardoor efficiëntie en kosteneffectiviteit worden gegarandeerd. De NVIDIA OVX-servers zijn uitgerust met robuuste GPU's en bieden verbeterde rekenmogelijkheden, snelle opslagtoegang en netwerken met lage latentie. Dit is vooral van cruciaal belang voor veeleisende toepassingen zoals chatbots en zoektools die uitgebreide gegevensverwerking vereisen.

NVIDIA-gecertificeerde OVX-servers, die momenteel beschikbaar zijn en worden geleverd door wereldwijde leveranciers zoals GIGABYTE, Hewlett Packard Enterprise, Lenovo en Supermicro, vertegenwoordigen een aanzienlijke sprong in het omgaan met complexe AI-workloads en beloven prestaties, beveiliging en schaalbaarheid op ondernemingsniveau.

Sluiting Gedachten

Daarnaast waren er aankondigingen op het gebied van de automobielsector, robotica, gezondheidszorg en generatieve AI. Al deze aankondigingen tonen NVIDIA's meedogenloze streven naar innovatie en bieden geavanceerde tools en platforms om de toekomst van AI en computing in meerdere domeinen te stimuleren. Ze zijn allemaal zeer technisch en kennen veel complexiteiten, vooral in het geval van kwantumcomputing en softwarereleases. Houd ons in de gaten voor analyses van de aankondigingen, want we krijgen meer informatie over elk van deze nieuwe releases.

Neem contact op met StorageReview

Nieuwsbrief | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS Feed