Home Unternehmen NVIDIA GTC 2024 Keynote-Highlights – Tag 1 Megapost

NVIDIA GTC 2024 Keynote-Highlights – Tag 1 Megapost

by Jordan Ranous
dgx gb200-Knoten

NVIDIA GTC 2024 ist da; Zum ersten Mal seit vielen Jahren wieder persönlich. Jordan ist live bei der Veranstaltung und bringt die neuesten Nachrichten und Analysen zum führenden KI-Event.

Die GPU Technology Conference (GTC) von NVIDIA findet nach einigen Jahren als rein virtuelle Veranstaltung wieder persönlich statt. Dies ist eine fantastische Veranstaltung für Innovatoren, Forscher, Wissenschaftler und Technologiebegeisterte, um die neueste Technologie des Technologieriesen zu sehen. Die diesjährige NVIDIA GTC 2024, die in der Tech-Community mit Spannung erwartet wird, präsentiert die neuesten Durchbrüche in den Bereichen KI, Deep Learning, autonome Fahrzeuge und die neue Blackwell-Architektur.

Hier sind die Höhepunkte der Montags-Keynote von NVIDIAs CEO Jensen Huang. Dabei ging es um NVIDIAs neue Blackwell-Architektur, Netzwerke, Fortschritte im Quantencomputing und Software-Stack-Updates.

NVIDIA Blackwell

Sechs bahnbrechende Technologien, die das beschleunigte Computing neu definieren werden, bilden den Kern der Innovation von Blackwell. Von der Verbesserung der Datenverarbeitung bis zur Revolutionierung des Medikamentendesigns und darüber hinaus setzt NVIDIA einen neuen Standard. Namhafte Anwender wie Amazon und Microsoft stehen bereits in Erwartung des transformativen Potenzials von Blackwell Schlange.

Werfen wir einen genaueren Blick auf das technische Wunder, das NVIDIA vollbracht hat. Die Blackwell-GPUs packen satte 208 Milliarden Transistoren auf zwei Chips, was durch die Nutzung eines 4NP-TSMC-Prozesses mit zwei Reticle-Limits ermöglicht wird. Dieser Ansatz sprengt die Grenzen der Halbleiterfertigung und führt eine neuartige Möglichkeit ein, Chips mit einer rasanten 10-TB/s-Schnittstelle zu verbinden. Dieser Schritt hin zu Chiplet-Designs spiegelt NVIDIAs Bestreben wider, über traditionelle Grenzen hinauszugehen.

Normen H100 B100 B200
Maximaler Speicher 80GB HBM3 192 GB HBM3e 192 GB HBM3e
Speicherbandbreite 3.35 TB / s 8 TB / s 8 TB / s
FP4 - 14 PFLOPS 18 PFlops
FP6 - 7 PFLOPS 9 PFLOPS
FP8/INT8 3.958 PFLOPS/POPS 7 PFLOPS/POPS 9 PFLOPS/POPS
FP16/BF16 1979 TFLOPS 3.5 PFLOPS 4.5 PFLOPS
TF32 989 TFLOPS 1.8 PFLOPS 2.2 PFLOPS
FP64 67 TFLOPS 30 TFLOPS 40 TFLOPS
Max Leistungsaufnahme 700W 700W 1000W

Hinweis: Alle Zahlen hier stellen die Leistung für Berechnungen mit dünnbesetzten Matrizen dar.

Es geht nicht nur darum, mehr Transistoren unterzubringen. Die Einführung der FP4- und FP6-Rechenfähigkeit bringt ein neues Maß an effizientem Modelltraining mit sich, wenn auch mit einem leichten Kompromiss bei der Modellleistung. Dieser Kompromiss ist ein nuancierter Aspekt der Plattform und spiegelt einen komplexen Balanceakt zwischen Effizienz und Präzision wider.

Die Transformer-Engine der zweiten Generation in Blackwell ermöglicht einen Sprung in den Rechen-, Bandbreiten- und Modellgrößenfunktionen bei Verwendung von FP4 und bringt Verbesserungen mit sich, die für die Zukunft der KI-Entwicklung von entscheidender Bedeutung sind. Darüber hinaus sorgt die Integration von PCIe Gen6 und der neuen HBM3e-Speichertechnologie für eine erhebliche Steigerung der Bandbreite, die in Verbindung mit dem NVLink der fünften Generation die Bandbreite gegenüber der vorherigen Generation auf unglaubliche 1.8 TB/s verdoppelt.

Eine der interessanteren Neuerungen ist die RAS Engine, die die Zuverlässigkeit, Verfügbarkeit und Wartungsfreundlichkeit bei umfangreichen KI-Bereitstellungen verbessert. Diese Innovation könnte die Modell-Flop-Nutzung erheblich verbessern und eine der entscheidenden Herausforderungen bei der Skalierung von KI-Anwendungen angehen.

Mit Blackwell bringt NVIDIA neue vertrauliche Computing-Funktionen auf den Markt, darunter die branchenweit erste Trusted Execution Environment (TEE)-I/O-fähige GPU, die das TEE über die CPUs hinaus auf GPUs erweitert. Dies gewährleistet eine sichere und schnelle Verarbeitung privater Daten, die für das Training generativer KI von entscheidender Bedeutung sind. Diese Innovation ist besonders wichtig für Branchen, die sich mit Datenschutzbestimmungen oder geschützten Informationen befassen. Confidential Computing von NVIDIA Blackwell bietet beispiellose Sicherheit ohne Leistungseinbußen und bietet einen nahezu identischen Durchsatz wie unverschlüsselte Modi. Dieser Fortschritt sichert nicht nur große KI-Modelle, sondern ermöglicht auch vertrauliches KI-Training und föderiertes Lernen und schützt so geistiges Eigentum in der KI.

Die Dekomprimierungs-Engine in NVIDIA Blackwell markiert einen bedeutenden Sprung in der Datenanalyse und in Datenbank-Workflows. Diese Engine kann Daten mit einer erstaunlichen Geschwindigkeit von bis zu 800 GB/s dekomprimieren, was die Leistung der Datenanalyse erheblich steigert und die Zeit bis zur Gewinnung von Erkenntnissen verkürzt. In Zusammenarbeit mit 8 TB/s HBM3e-Speicher und der Hochgeschwindigkeits-NVLink-C2C-Verbindung beschleunigt es Datenbankabfragen, wodurch Blackwell in Abfrage-Benchmarks 18-mal schneller als CPUs und 6-mal schneller als frühere NVIDIA-GPUs ist. Diese Technologie unterstützt die neuesten Komprimierungsformate und positioniert NVIDIA Blackwell als Kraftpaket für Datenanalyse und Wissenschaft, indem sie die End-to-End-Analysepipeline drastisch beschleunigt.

Trotz der technischen Wunder sorgt NVIDIAs Behauptung, die Betriebskosten und den Energieverbrauch der LLM-Inferenz um das bis zu 25-fache zu senken, für Stirnrunzeln, insbesondere angesichts des Mangels an detaillierten Stromverbrauchsdaten. Diese Behauptung ist zwar bemerkenswert, könnte aber einer weiteren Klärung bedarf, um ihre Auswirkungen vollständig abzuschätzen.

Zusammenfassend ist die Blackwell-Plattform von NVIDIA ein Beweis für das unermüdliche Streben des Unternehmens, die Grenzen dessen, was in den Bereichen KI und Computer möglich ist, zu verschieben. Mit seinen revolutionären Technologien und ehrgeizigen Zielen ist Blackwell nicht nur ein Schritt, sondern ein riesiger Sprung nach vorne und verspricht, verschiedene Fortschritte in verschiedenen Branchen voranzutreiben. Während wir tiefer in diese Ära des beschleunigten Computings und der generativen KI eintauchen, könnten die Innovationen von NVIDIA die Katalysatoren für die nächste industrielle Revolution sein.

NVIDIA Blackwell HGX

NVIDIA hat die Blackwell-Architektur übernommen und seine HGX-Server- und Baseboard-Serie aktualisiert. Diese bedeutende Weiterentwicklung gegenüber früheren Modellen bringt eine überzeugende Veränderung mit sich, die insbesondere die Gesamtbetriebskosten senkt und gleichzeitig die Leistung eindrucksvoll steigert. Der Vergleich ist beeindruckend: Wenn man FP8 gegen FP4 antritt, ergibt sich eine bemerkenswerte Leistungssteigerung um das 4.5-fache. Selbst wenn FP8 mit seinem Vorgänger verglichen wird, verdoppelt sich die Leistung nahezu. Hier geht es nicht nur um pure Geschwindigkeit; Es ist ein Sprung nach vorne in der Speichereffizienz und zeigt einen 8-fachen Anstieg der gesamten Speicherbandbreite.

Normen HGX H100 HGX H200 HGX B100 HGX B200
Maximaler Speicher 640GB HBM3 1.1 TB HBM3e 1.5 TB HBM3e 1.5 TB HBM3e
Speicherbandbreite 7.2 TB / s 7.2 TB / s 8 TB / s 8 TB / s
FP4 - - 112 PFLOPS 144 PFLOPS
FP6 - - 56 PFLOPS 72 PFLOPS
FP8/INT8 32 PFLOPS/POPS 32 PFLOPS/POPS 56 PFLOPS/POPS 72 PFLOPS/POPS
FP16/BF16 16 PFLOPS 16 PFLOPS 28 PFLOPS 36 PFLOPS

NVIDIA Grace-Blackwell SuperChip

Tauchen Sie tiefer in die Feinheiten der neuesten Ankündigung von NVIDIA ein und konzentrieren Sie sich auf den GB200, den Eckpfeiler des Arsenals der Blackwell-Plattform. Da NVIDIA im Bereich Hochleistungsrechnen kontinuierlich neue Maßstäbe setzt, stellt der GB200 eine bedeutende Weiterentwicklung seines GPU-Angebots dar und verbindet Spitzentechnologie mit strategischen Fortschritten bei Konnektivität und Skalierbarkeit. Der GB200 beherbergt zwei B200-GPUs; Diese Konfiguration weicht vom GH200 der vorherigen Generation ab, der über eine Eins-zu-eins-Verbindung zwischen einer GPU und einer Grace-CPU verfügte. Dieses Mal sind beide B200-GPUs über eine Chip-zu-Chip-Verbindung (C900C) mit 2 GB/s mit derselben Grace-CPU verbunden.

Normen GH200 GB200
Maximaler Speicher 144 GB HBM3e 384 GB HBM3e
Speicherbandbreite 8 TB / s 16 TB/s (insgesamt)
FP4 - 40 PFLOPS
FP6 - 20 PFLOPS
FP8/INT8 3.958 PFLOPS/POPS 20 PFLOPS
FP16/BF16 1979 TFLOPS 10 PFLOPS
TF32 989 TFLOPS 5 PFLOPS
FP64 67 TFLOPS 90 TFLOPS
PCIe-Lanes 4x PCIe Gen 5 x16 2x PCIe Gen 6 x16
Max Leistungsaufnahme 1000W 2700W

# Hinweis: Alle Zahlen hier stellen die Leistung für Berechnungen mit dünnbesetzten Matrizen dar.

Auf den ersten Blick könnte die Entscheidung, die 900-GB/s-C2C-Verbindung der vorherigen Generation beizubehalten, wie eine Einschränkung erscheinen. Diese Designwahl unterstreicht jedoch eine kalkulierte Strategie, bestehende Technologien zu nutzen und gleichzeitig den Weg für neue Ebenen der Skalierbarkeit zu ebnen. Die Architektur des GB200 ermöglicht die Kommunikation mit bis zu 576 GPUs mit einer Geschwindigkeit von 1.8 TB/s, dank NVLink der fünften Generation. Dieses Maß an Interkonnektivität ist entscheidend für den Aufbau massiv paralleler Computerumgebungen, die für das Training und den Einsatz der größten und komplexesten KI-Modelle erforderlich sind.

NVIDIA-Netzwerk-Stack-Update

Integration des GB200 mit den neuesten Netzwerktechnologien von NVIDIA, den Ethernet-Plattformen Quantum-X800 InfiniBand und Spectrum-X800 wirft interessante Fragen zu Konnektivität und Bandbreite auf. Die Erwähnung von 800-Gbit/s-Fähigkeiten deutet darauf hin, dass NVIDIA die Vorteile von PCIe Gen6 untersucht. 

Die GB200-Konfiguration mit ihrem Dual-GPU-Setup und erweiterten Netzwerkoptionen repräsentiert NVIDIAs Vision für die Zukunft des HPC. Bei dieser Vision geht es nicht nur um die reine Leistung einzelner Komponenten, sondern auch darum, wie diese Komponenten in einem kohärenten, skalierbaren System orchestriert werden können. Indem NVIDIA ein höheres Maß an Interkonnektivität ermöglicht und ein Gleichgewicht zwischen Rechenleistung und Datenübertragungsraten aufrechterhält, begegnet es einigen der kritischsten Herausforderungen in der KI-Forschung und -Entwicklung, insbesondere bei der Bewältigung exponentiell wachsender Modellgrößen und Rechenanforderungen.

NVIDIA NVLink und NVLink-Switches der fünften Generation

Der NVLink der fünften Generation markiert einen bedeutenden Meilenstein im Bereich Hochleistungsrechnen und KI. Diese Technologie verbessert die Fähigkeit zur Verbindung und Kommunikation zwischen GPUs, ein entscheidender Aspekt für die sich schnell entwickelnden Anforderungen grundlegender Modelle in der KI.

Der NVLink der fünften Generation erhöht seine GPU-Konnektivitätskapazität auf 576 GPUs, eine deutliche Steigerung gegenüber der vorherigen Grenze von 256 GPUs. Diese Erweiterung geht mit einer Verdoppelung der Bandbreite im Vergleich zum Vorgänger einher, eine entscheidende Verbesserung für die Leistung immer komplexer werdender grundlegender KI-Modelle.

Jede Blackwell-GPU-Verbindung verfügt über zwei Hochgeschwindigkeits-Differenzialpaare, ähnlich der Hopper-GPU, erreicht jedoch eine effektive Bandbreite pro Verbindung von 50 GB/Sek. in jede Richtung. Diese GPUs sind mit 18 NVLink-Links der fünften Generation ausgestattet und bieten eine atemberaubende Gesamtbandbreite von 1.8 TB/s. Dieser Durchsatz ist mehr als 14-mal höher als der des aktuellen PCIe Gen 5.

Ein weiteres bemerkenswertes Merkmal ist der NVIDIA NVLink Switch, der eine GPU-Bandbreite von 130 TB/s in einer einzelnen NVLink-Domäne mit 72 GPUs (NVL72) unterstützt, was für die Modellparallelität entscheidend ist. Dieser Switch bietet außerdem eine vierfache Steigerung der Bandbreiteneffizienz mit der neuen NVIDIA Scalable Hierarchical Aggregation and Reduction Protocol (SHARP) FP8-Unterstützung.

Darüber hinaus ergänzt der NVIDIA Unified Fabric Manager (UFM) den NVLink Switch, indem er eine robuste und bewährte Verwaltung für die NVLink Compute Fabric bietet.

Exascale Computing in einem Rack

Aufbauend auf dem beeindruckenden Fundament seines Vorgängers, dem GraceHopper GH200 NVL32, ist der DGX GB200 NVL72 nicht nur ein Upgrade; Es handelt sich um einen entscheidenden Fortschritt zur Erweiterung des Möglichen an Rechenleistung und Effizienz. Die DGX GB200 NVL72-Plattform weist auf ganzer Linie erstaunliche Fortschritte auf. Jedes DGX GB200 NVL72-System besteht aus 18x GB200 SuperChip-Knoten mit jeweils 2x GB200.

Diese Plattform verdoppelt die Anzahl der GPUs mehr als von 32 auf 72 und erhöht die Anzahl der CPUs geringfügig von 32 auf 36. Der Speichersprung ist jedoch bemerkenswert, nämlich von 19.5 TB auf beeindruckende 30 TB. Bei dieser Erweiterung geht es nicht nur um größere Zahlen; Es geht darum, eine neue Ebene der Rechenfähigkeiten zu ermöglichen, insbesondere bei der Handhabung der komplexesten KI-Modelle und Simulationen.

Eines der atemberaubendsten Upgrades ist der Sprung in der Rechenleistung. Beim Vergleich der FP127-Leistung springt die Plattform von 1.4 PetaFLOPS auf 4 ExaFLOPS, was einer etwa 11-fachen Steigerung entspricht. Dieser Vergleich verdeutlicht das Engagement von NVIDIA, die Grenzen von Präzision und Geschwindigkeit zu verschieben, insbesondere in den Bereichen KI und maschinelles Lernen. Doch selbst beim Vergleich von FP8 mit FP8 erreicht die Plattform eine 5.6-fache Steigerung von 127PFs auf 720PFs, was erhebliche Fortschritte bei Effizienz und Rechenleistung unterstreicht.

Das Engagement für die Aufrechterhaltung eines vollständig wassergekühlten Systems spiegelt NVIDIAs Fokus auf Nachhaltigkeit und Leistungsoptimierung wider. Dieser Ansatz steigert die betriebliche Effizienz des Systems und passt sich den breiteren Branchentrends hin zu umweltfreundlicheren Rechenzentrumstechnologien an.

NVIDIA DGX SuperPOD mit NVIDIA GB200 Grace Blackwell Superchips

NVIDIA kündigte außerdem seinen KI-Supercomputer der nächsten Generation an, den DGX SuperPOD, der mit 8 NVIDIA GB200 NVL72 Grace Blackwell-Systemen ausgestattet ist. Dieses beeindruckende Setup ist für die Verarbeitung von Billionen-Parameter-Modellen konzipiert und verfügt über 11.5 Exaflops KI-Supercomputing-Leistung bei FP4-Präzision in seiner flüssigkeitsgekühlten Rack-Architektur. Jedes GB200 NVL72-System enthält 36 NVIDIA GB200 Superchips und verspricht eine 30-fache Leistungssteigerung gegenüber seinen H100-Vorgängern für große Sprachmodell-Inferenz-Workloads. 

Laut Jensen Huang, CEO von NVIDIA, soll der DGX SuperPOD die „Fabrik der industriellen KI-Revolution“ werden.

dgx gb200-Knoten

Quantensimulationswolke

NVIDIA stellte außerdem den Quantum Simulation Cloud-Dienst vor, der es Forschern ermöglicht, Quantencomputing in verschiedenen wissenschaftlichen Bereichen zu erforschen. Basierend auf der Open-Source-Plattform CUDA-Q bietet dieser Dienst leistungsstarke Tools und Integrationen zum Erstellen und Testen von Quantenalgorithmen und -anwendungen. Kooperationen mit der University of Toronto und Unternehmen wie Classiq und QC Ware unterstreichen NVIDIAs Bemühungen, Innovationen im Quantencomputing zu beschleunigen.

NVIDIA NIM-Software-Stack

Eine weitere wichtige Ankündigung war die Einführung des NVIDIA NIM-Software-Stacks, der Dutzende generative KI-Microservices der Unternehmensklasse bietet. Diese Dienste ermöglichen es Unternehmen, benutzerdefinierte Anwendungen auf ihren Plattformen zu erstellen und bereitzustellen, die Inferenz auf gängige KI-Modelle zu optimieren und die Entwicklung mit NVIDIA CUDA-X-Mikrodiensten für eine breite Palette von Anwendungen zu verbessern. Jensen Huang betonte das Potenzial dieser Microservices, Unternehmen aller Branchen in KI-gestützte Einheiten zu verwandeln.

OVX-Computersysteme

Als Reaktion auf das schnelle Wachstum generativer KI in verschiedenen Branchen hat NVIDIA die OVX-Rechnersysteme eingeführt, eine Lösung zur Rationalisierung komplexer KI- und grafikintensiver Arbeitslasten. NVIDIA ist sich der entscheidenden Rolle von Hochleistungsspeicher bei KI-Bereitstellungen bewusst und hat ein Validierungsprogramm für Speicherpartner mit führenden Anbietern wie DDN, Dell PowerScale, NetApp, Pure Storage und WEKA.

Das neue Programm standardisiert den Prozess für Partner zur Validierung ihrer Speichergeräte und gewährleistet so optimale Leistung und Skalierbarkeit für KI-Workloads in Unternehmen. Durch strenge NVIDIA-Tests werden diese Speichersysteme anhand verschiedener Parameter validiert, die die anspruchsvollen Anforderungen von KI-Anwendungen widerspiegeln.

Darüber hinaus bieten NVIDIA-zertifizierte OVX-Server, die mit NVIDIA L40S-GPUs betrieben werden und in umfassende Software- und Netzwerklösungen integriert sind, eine flexible Architektur für unterschiedliche Rechenzentrumsumgebungen. Dieser Ansatz beschleunigt nicht nur die Datenverarbeitung dort, wo sich die Daten befinden, sondern geht auch auf die besonderen Anforderungen der generativen KI ein und sorgt so für Effizienz und Kosteneffizienz. Die NVIDIA OVX-Server sind mit robusten GPUs ausgestattet und bieten erweiterte Rechenkapazitäten, Hochgeschwindigkeits-Speicherzugriff und Netzwerk mit geringer Latenz. Dies ist besonders wichtig für anspruchsvolle Anwendungen wie Chatbots und Suchtools, die eine umfangreiche Datenverarbeitung erfordern.

Die derzeit von globalen Anbietern wie GIGABYTE, Hewlett Packard Enterprise, Lenovo und Supermicro erhältlichen und ausgelieferten NVIDIA-zertifizierten OVX-Server stellen einen bedeutenden Fortschritt bei der Bewältigung komplexer KI-Workloads dar und versprechen Leistung, Sicherheit und Skalierbarkeit auf Unternehmensniveau.

Abschließende Gedanken

Darüber hinaus gab es Ankündigungen in den Bereichen Automobil, Robotik, Gesundheitswesen und generative KI. Alle diese Ankündigungen verdeutlichen NVIDIAs unermüdliches Streben nach Innovation und bieten fortschrittliche Tools und Plattformen, um die Zukunft von KI und Computing in mehreren Bereichen voranzutreiben. Sie alle sind hochtechnisch und weisen viele Komplexitäten auf, insbesondere im Fall von Quantencomputern und Software-Releases. Seien Sie gespannt auf die Analyse der Ankündigungen, sobald wir weitere Informationen zu jeder dieser Neuerscheinungen erhalten.

Beteiligen Sie sich an StorageReview

Newsletter | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS Feed