Startseite Unternehmen Eine neue Welle von NVIDIA HPC-Innovationen angekündigt

Eine neue Welle von NVIDIA HPC-Innovationen angekündigt

by Harold Fritts

NVIDIA nutzte SC22, um Ankündigungen zu machen, die eine neue Welle von HPC-Innovationen hervorheben, die bahnbrechende wissenschaftliche Entdeckungen ermöglichen. NVIDIA hob Quantum-2, Omniverse, HPC am Edge und Digital Twin Simulation hervor. Hier ist die NVIDIA-Zusammenstellung.

NVIDIA nutzte SC22, um Ankündigungen zu machen, die eine neue Welle von HPC-Innovationen hervorheben, die bahnbrechende wissenschaftliche Entdeckungen ermöglichen. NVIDIA hob Quantum-2, Omniverse, HPC am Edge und Digital Twin Simulation hervor. Hier ist die NVIDIA-Zusammenstellung.

An erster Stelle steht die Ankündigung, dass die nächste Generation eine breite Akzeptanz gefunden hat H100 Tensor-Core-GPUs und Quantum-2 InfiniBand, darunter neue Angebote in der Microsoft Azure-Cloud und mehr als 50 neue Partnersysteme zur Beschleunigung wissenschaftlicher Entdeckungen.

NVIDIA HGX-H100

NVIDIA hat bedeutende Updates für seine Beschleunigungsbibliotheken cuQuantum, CUDA und BlueField DOCA veröffentlicht und die Unterstützung seiner Omniverse-Simulationsplattform auf NVIDIA A100- und H100-basierten Systemen angekündigt. H100, Quantum-2 und die Bibliotheksaktualisierungen sind alle Teil der HPC-Plattform von NVIDIA. Die HPC-Plattform umfasst einen vollständigen Technologie-Stack mit CPUs, GPUs, DPUs, Systemen, Netzwerken und einer breiten Palette an KI- und HPC-Software, die Forschern die Möglichkeit gibt, ihre Arbeit auf leistungsstarken Systemen, vor Ort oder in der Cloud effizient zu beschleunigen.

Azure bietet NVIDIA Quantum-2 für HPC-Workloads

Die Einführung der Quantum-2 InfiniBand-Netzwerkplattform durch Microsoft Azure folgte auf die allgemeine Verfügbarkeit von NVIDIA Quantum-2, die auf der GTC im März angekündigt wurde.

Neue Server mit Turboaufladung mit H100 und NVIDIA AI

ASUS, Atos, Dell, HPE, Lenovo und Supermicro sind nur einige der NVIDIA-Partner, die H100-basierte Server ankündigen. Eine Fünfjahreslizenz für NVIDIA AI Enterprise ist in jeder H100 PCIe GPU enthalten. Dadurch wird sichergestellt, dass Unternehmen Zugriff auf die KI-Frameworks und -Tools haben, die zum Aufbau H100-beschleunigter KI-Lösungen erforderlich sind, von der medizinischen Bildgebung über Wettermodelle bis hin zu Sicherheitswarnsystemen und mehr.

Zu der Welle neuer Systeme gehört der Dell PowerEdge XE9680, der ebenfalls während der SC22 angekündigt wurde und die anspruchsvollsten KI- und Hochleistungs-Workloads bewältigt. Dies ist das erste Acht-Wege-System von Dell, das auf der NVIDIA HGX-Plattform basiert und speziell für die Konvergenz von Simulation, Datenanalyse und KI entwickelt wurde.

Der PowerEdge XE8640, das neue HGX H100-System von Dell mit vier Hopper-GPUs, ermöglicht Unternehmen die Entwicklung, Schulung und Bereitstellung von KI- und maschinellen Lernmodellen. Als 4U-Racksystem bietet der XE8640 eine schnellere KI-Trainingsleistung und erweiterte Kernfunktionen mit bis zu vier PCIe Gen5-Steckplätzen, NVIDIA Multi-Instance GPU (MIG)-Technologie und NVIDIA GPUDirect-Speicher unterstützen.

Wichtige Aktualisierungen der Beschleunigungsbibliotheken

Um die wissenschaftliche Entdeckung voranzutreiben, hat NVIDIA bedeutende Updates für seine Beschleunigungsbibliotheken CUDA, cuQuantum und DOCA veröffentlicht, darunter:

  • NVIDIA CUDA-Bibliotheken umfassen jetzt einen Multi-Node- und Multi-GPU-Eigensolver, der eine beispiellose Skalierbarkeit und Leistung für führende HPC-Anwendungen wie VASP, ein Paket für quantenmechanische First-Principles-Berechnungen, ermöglicht.
  • Das NVIDIA cuQuantum-Softwareentwicklungskit zur Beschleunigung von Quantencomputer-Workflows unterstützt jetzt Approximations-Tensor-Netzwerkmethoden. Dadurch können Forscher Zehntausende Qubits simulieren und mit der cuQuantum Appliance automatisch Multi-Node- und Multi-GPU-Unterstützung für die Quantensimulation mit beispielloser Leistung aktiviert werden.
  • NVIDIA DOCA, das offene Cloud-SDK und Beschleunigungs-Framework für NVIDIA BlueField-DPUs, bietet erweiterte Programmierbarkeit, Sicherheit und Funktionalität zur Unterstützung neuer Speicheranwendungsfälle.

Diese Bibliotheken ermöglichen es Forschern, über mehrere Server hinweg zu skalieren und diese mit Leistungssteigerungen auszustatten, um wissenschaftliche Entdeckungen voranzutreiben. Die NVIDIA HPC-Beschleunigungsbibliotheken sind auf den führenden Cloud-Plattformen AWS, Google Cloud, Microsoft Azure und Oracle Cloud Infrastructure verfügbar.

Offene Omniverse-Portale für Wissenschaftler

Als nächstes gab NVIDIA bekannt, dass NVIDIA Omniverse jetzt eine Verbindung zu führender Visualisierungssoftware für wissenschaftliche Computer herstellt und neue Batch-Rendering-Workloads auf Systemen mit NVIDIA A100- und H100 Tensor Core-GPUs unterstützt.

NVIDIA führte außerdem wissenschaftliche und industrielle digitale Zwillinge in Echtzeit für die High-Performance-Computing-Community ein, ermöglicht durch NVIDIA OVX, ein Computersystem, das für den Betrieb großer digitaler Omniverse-Zwillinge entwickelt wurde, und Omniverse Cloud, eine Software- und Infrastruktur-as-a-Lösung -Serviceangebot.

Omniverse unterstützt jetzt Batch-Workloads, die KI- und HPC-Forscher, Wissenschaftler und Ingenieure auf ihren vorhandenen A100- oder H100-Systemen ausführen können.

NVIDIA stellte außerdem Verbindungen zu populären wissenschaftlichen Computertools wie Kitwares ParaView vor, einer Anwendung zur Visualisierung; NVIDIA IndeX für volumetrisches Rendering; NVIDIA-Modul zur Entwicklung von Physik-ML-Modellen; und NeuraVDB für die Darstellung spärlicher volumetrischer Daten in großem Maßstab.

Mithilfe von Omniverse und Hybrid-Cloud-Workloads können Kunden des wissenschaftlichen Rechnens Legacy-Simulations- und Visualisierungspipelines verbinden, um eine verteilte, vollständig interaktive Interaktion in echter Echtzeit mit ihren Modellen und Datensätzen zu erreichen. NVIDIA-Kunden wie das Argonne National Laboratory, Lockheed Martin und das Princeton Plasma Physics Laboratory erkennen bereits die Vorteile von Omniverse für HPC-Workloads.

Omniverse erhält Unterstützung von globalen wissenschaftlichen Führungskräften.

Das Argonne National Laboratory nutzt NVIDIA Omniverse auf seinem A100-basierten Polaris-Supercomputer, um seine alten Visualisierungstools zu verbinden, als ersten Schritt zur Entwicklung der Grundlagen für zukünftige digitale Zwillinge.

Das Princeton Plasma Physics Laboratory (PPPL), das nationale Labor des US-Energieministeriums für Plasmaphysik und Fusionswissenschaft, nutzt Omniverse, um hochmoderne, synthetische Echtzeit-HPC-Simulatoren zur Modellierung und Steuerung von Fusionsgeräten zu verbinden und zu beschleunigen Systeme und letztendlich die Durchführung des Experiments hin zu einer neuen kommerziell nutzbaren sauberen Energiequelle verbessern.

Im Einklang mit der Earth-2-Initiative von NVIDIA zur Beschleunigung der Klimaforschung hat der führende Luft- und Raumfahrtkonzern Lockheed Martin kürzlich damit begonnen, NVIDIA Omniverse zu nutzen, um der US-amerikanischen National Oceanic and Atmospheric Administration (NOAA) ein besseres globales Umwelt- und Situationsbewusstsein zu bieten und eine interaktive Pipeline für die Klimaforschung zu entwickeln.

Verfügbarkeit

Diese neuen Funktionen werden jetzt in NVIDIA Omniverse unterstützt und sind für Entwickler und Unternehmen verfügbar.

Die NVIDIA-Plattform löst HPC-Probleme am Edge

Universitäten und Unternehmen, die über große Entfernungen arbeiten, benötigen eine gemeinsame Sprache und eine sichere Pipeline, damit jedes Gerät, von Mikroskopen und Sensoren bis hin zu Servern und Campusnetzwerken, die übertragenen Daten sehen und verstehen kann. Die zunehmende Menge an Daten, die gespeichert, übertragen und analysiert werden müssen, macht die Herausforderung nur noch größer.

NVIDIA geht das Problem an, indem es eine Hochleistungs-Computing-Plattform einführt, die Edge-Computing und KI kombiniert, um Streaming-Daten von wissenschaftlichen Edge-Instrumenten zu erfassen und zu konsolidieren, sodass die Geräte über große Entfernungen miteinander kommunizieren können.

Die Plattform besteht aus drei Hauptkomponenten: NVIDIA Holoscan, MetroX-3 und NVIDIA BlueField-3 DPUs. NVIDIA Holoscan ist ein Softwareentwicklungskit, mit dem Datenwissenschaftler und Fachexperten GPU-beschleunigte Pipelines für Sensoren erstellen können, die Daten streamen. MetroX-3 ist ein neues Langstreckensystem, das die Konnektivität der NVIDIA Quantum-2 InfiniBand-Plattform erweitert. Und NVIDIA BlueField-3 DPUs sorgen für eine sichere und intelligente Datenmigration.

Forscher können die neue NVIDIA-Plattform für HPC-Edge-Computing nutzen, um sicher zu kommunizieren und bei der Lösung von Problemen zusammenzuarbeiten und ihre unterschiedlichen Geräte und Algorithmen zusammenzuführen, um als ein großer Supercomputer zu arbeiten.

Holoscan für HPC am Edge

Beschleunigt durch GPU-Computing-Plattformen, zu denen NVIDIA IGX-, HGX- und DGX-Systeme gehören, liefert NVIDIA Holoscan die extreme Leistung, die für die Verarbeitung riesiger Datenströme erforderlich ist, die von wissenschaftlichen Instrumenten auf der ganzen Welt generiert werden.

NVIDIA Holoscan für HPC umfasst neue APIs für C++ und Python, mit denen HPC-Forscher Arbeitsabläufe zur Verarbeitung von Sensordaten erstellen können, die flexibel genug für Nicht-Bildformate und skalierbar genug sind, um Rohdaten in Echtzeiterkenntnisse umzuwandeln.

Holoscan verwaltet auch die Speicherzuweisung, um einen kopierfreien Datenaustausch sicherzustellen, sodass sich Entwickler auf die Workflow-Logik konzentrieren können und sich nicht um die Verwaltung von Datei- und Speicher-E/A kümmern müssen.

Die neuen Funktionen in Holoscan werden nächsten Monat allen HPC-Entwicklern zur Verfügung stehen.

MetroX-3 geht die Distanz

Das NVIDIA MetroX-3-Langstreckensystem, das nächsten Monat verfügbar sein wird, erweitert die neuesten Cloud-nativen Funktionen der NVIDIA Quantum-2 InfiniBand-Plattform vom Edge bis zum HPC-Rechenzentrumskern. Es ermöglicht GPUs zwischen Standorten, Daten über das InfiniBand-Netzwerk in einer Entfernung von bis zu 25 Meilen (40 km) sicher auszutauschen.

Durch die Nutzung des nativen Remote-Direktspeicherzugriffs können Benutzer problemlos Daten und Rechenaufgaben von einem mit InfiniBand verbundenen Mini-Cluster zum Hauptrechenzentrum migrieren oder geografisch verteilte Rechencluster kombinieren, um eine höhere Gesamtleistung und Skalierbarkeit zu erzielen.

Rechenzentrumsbetreiber können alle mit InfiniBand verbundenen Rechenzentrumsnetzwerke bereitstellen, überwachen und betreiben, indem sie den NVIDIA Unified Fabric Manager zur Verwaltung ihrer MetroX-3-Systeme verwenden.

BlueField für sicheres, effizientes HPC

NVIDIA BlueField-DPUs entlasten, beschleunigen und isolieren erweiterte Netzwerk-, Speicher- und Sicherheitsdienste, um die Leistung und Effizienz für modernes HPC zu steigern.

NVIDIA bietet Betreibern von HPC-Rechenzentren die Simulation digitaler Zwillinge

Simulationen und digitale Zwillinge können Entwicklern, Erbauern und Betreibern von Rechenzentren dabei helfen, hocheffiziente und leistungsstarke Anlagen zu schaffen. Die Simulationsplattform NVIDIA Omniverse hilft, indem sie den Prozess des kollaborativen virtuellen Designs rationalisiert.

Mit Omniverse können Rechenzentrumsbetreiber jetzt Echtzeit-Eingaben aus ihren zentralen computergestützten Design-, Simulations- und Überwachungsanwendungen von Drittanbietern zusammenfassen, sodass sie ihre vollständigen Datensätze in Echtzeit sehen und damit arbeiten können.

Die SC22 Omniverse-Demo zeigt, wie Omniverse es Benutzern ermöglicht, die Leistungsfähigkeit von beschleunigtem Computing, Simulation und betrieblichen digitalen Zwillingen zu nutzen, die mit Echtzeitüberwachung und KI verbunden sind. Dadurch können Teams das Anlagendesign rationalisieren, den Bau und die Bereitstellung beschleunigen und den laufenden Betrieb optimieren.

In der Demo wurde auch NVIDIA Air vorgestellt, eine Simulationsplattform für Rechenzentren, die für die Zusammenarbeit mit Omniverse zur Simulation des Netzwerks entwickelt wurde. Mit NVIDIA Air können Teams den gesamten Netzwerk-Stack modellieren und so Netzwerk-Hardware und -Software vor der Einführung automatisieren und validieren.

Erstellen digitaler Zwillinge zur Verbesserung von Design und Simulation

Bei der Planung und dem Bau eines der neuesten KI-Supercomputer von NVIDIA wurden mehrere technische CAD-Datensätze aus Branchentools von Drittanbietern wie Autodesk Revit, PTC Creo und Trimble SketchUp gesammelt. Dadurch konnten Designer und Ingenieure das auf der universellen Szenenbeschreibung basierende Modell in voller Wiedergabetreue betrachten und den Entwurf gemeinsam in Echtzeit iterieren.

PATCH MANAGER ist eine Unternehmenssoftwareanwendung zur Planung von Verkabelung, Anlagen und Punkt-zu-Punkt-Konnektivität auf der physischen Ebene in Netzwerkdomänen. Mit der Anbindung von PATCH MANAGER an Omniverse kann die komplexe Topologie von Port-zu-Port-Verbindungen, Rack- und Knotenlayouts sowie Verkabelungen direkt in das Live-Modell integriert werden. Dadurch können Rechenzentrumsingenieure die vollständige Ansicht des Modells und seiner Abhängigkeiten sehen.

Um Luftströmungen und Wärmeübertragungen vorherzusagen, verwendeten die Ingenieure Cadence 6SigmaDCX, eine Software für numerische Strömungsmechanik. Ingenieure können auch mit NVIDIA Modulus trainierte KI-Ersatzteile für „Was-wäre-wenn“-Analysen nahezu in Echtzeit verwenden. Dadurch können Teams Änderungen in der komplexen Thermik und Kühlung simulieren und die Ergebnisse sofort sehen.

Und mit NVIDIA Air kann die genaue Netzwerktopologie – einschließlich Protokollen, Überwachung und Automatisierung – simuliert und vorab validiert werden.

Sobald ein Rechenzentrum errichtet ist, können seine Sensoren, sein Steuerungssystem und seine Telemetrie mit dem digitalen Zwilling innerhalb von Omniverse verbunden werden, was eine Echtzeitüberwachung des Betriebs ermöglicht.

Mit einem perfekt synchronisierten digitalen Zwilling können Ingenieure häufige Gefahren wie Leistungsspitzen oder Kühlsystemausfälle simulieren. Betreiber können von KI-empfohlenen Änderungen profitieren, die wichtige Prioritäten wie die Steigerung der Energieeffizienz und die Reduzierung des COXNUMX-Fußabdrucks optimieren. Der digitale Zwilling ermöglicht es ihnen außerdem, Software- und Komponenten-Upgrades zu testen und zu validieren, bevor sie im physischen Rechenzentrum bereitgestellt werden.

Beteiligen Sie sich an StorageReview

Newsletter | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS Feed