Startseite Unternehmen Intel wirbt als Spitzenreiter bei der Leistung von HPC- und KI-Workloads und aktualisiert die Granite Rapids-Roadmap auf der ISC 23

Intel wirbt als Spitzenreiter bei der Leistung von HPC- und KI-Workloads und aktualisiert die Granite Rapids-Roadmap auf der ISC 23

by Harold Fritts

Während einer Präsentation auf der ISC 23 betonte Intel seine führende Leistung bei Hochleistungs-Computing (HPC) und künstlicher Intelligenz (KI)-Workloads, stellte sein Portfolio zukünftiger HPC- und KI-Produkte vor und kündigte ehrgeizige Pläne für eine internationale Anstrengung zur Nutzung des Aurora an Supercomputer zur Entwicklung generativer KI-Modelle für Wissenschaft und Gesellschaft.

Während einer Präsentation auf der ISC 23 betonte Intel seine führende Leistung bei Hochleistungs-Computing (HPC) und künstlicher Intelligenz (KI)-Workloads, stellte sein Portfolio zukünftiger HPC- und KI-Produkte vor und kündigte ehrgeizige Pläne für eine internationale Anstrengung zur Nutzung des Aurora an Supercomputer zur Entwicklung generativer KI-Modelle für Wissenschaft und Gesellschaft.

An erster Stelle stand die Wettbewerbsleistung, bei der Intel im Vergleich zur Konkurrenz eindeutig als Sieger hervorging. Die Data Center GPU Max-Serie von Intel übertraf die NVIDIA H100 PCIe-Karte bei verschiedenen Arbeitslasten um durchschnittlich 30 Prozent. Unabhängige Ergebnisse des Softwareanbieters Ansys deuten auf eine 50-prozentige Beschleunigung der GPU der Max-Serie gegenüber der H100 bei KI-beschleunigten HPC-Anwendungen hin.

Die CPU der Xeon Max-Serie zeigte im High-Performance Conjugate Gradients (HPCG)-Benchmark eine Verbesserung von 65 Prozent im Vergleich zum Genoa-Prozessor von AMD und verbrauchte weniger Strom. Ein HPC-Favorit, der skalierbare Intel Xeon Prozessor der 4. Generation, lieferte eine durchschnittliche Geschwindigkeitssteigerung von 50 Prozent gegenüber dem Milan4 von AMD. Der neueste Xeon-HPC-Cluster der 4. Generation von BP zeigte eine 8-fache Leistungssteigerung gegenüber dem Prozessor der vorherigen Generation bei verbesserter Energieeffizienz. Der Deep-Learning-Beschleuniger Gaudi2 war bei Deep Learning, Training und Inferenz konkurrenzfähig und lieferte eine bis zu 2.4-mal schnellere Leistung als der A100 von NVIDIA.

CPUs der nächsten Generation und KI-optimierte GPUs

Jeff McVeigh von Intel, Intel Corporate Vice President und General Manager der Super Compute Group, stellte Intels CPUs der nächsten Generation vor, die für hohe Anforderungen an die Speicherbandbreite ausgelegt sind. Intel hat einen neuen Typ von DIMM – Multiplexer Combined Ranks (MCR) – für Granite Rapids entwickelt. MCR erreicht Geschwindigkeiten von 8,800 Megatransfers pro Sekunde basierend auf DDR5 und mehr als 1.5 Terabyte/Sekunde (TB/s) Speicherbandbreite in einem System mit zwei Sockeln.

Intel stellte außerdem ein neues, KI-optimiertes GPU-basiertes Subsystem der x8 Max Series von Supermicro vor, das das Deep-Learning-Training beschleunigen soll. Es wird erwartet, dass OEMs irgendwann in diesem Sommer Lösungen mit GPUs der Max-Serie, x4- und x8-OAM-Subsystemen und PCIe-Karten anbieten.

Intels GPU der nächsten Generation der Max-Serie, Falcon Shores, bietet Kunden die Flexibilität, CPU- und diskrete GPU-Kombinationen auf Systemebene für neue und sich ständig ändernde Arbeitslasten der Zukunft zu implementieren. Das Falcon Shores-System nutzt eine modulare, kachelbasierte Architektur, die es ermöglicht:

  • Unterstützt HPC- und AI-Datentypen von FP64 über BF16 bis FP8.
  • Ermöglichen Sie bis zu 288 GB HBM3-Speicher mit bis zu 9.8 TB/s Gesamtbandbreite und deutlich verbesserter Hochgeschwindigkeits-E/A.
  • Stärken Sie das CXL-Programmiermodell.
  • Präsentieren Sie eine einheitliche GPU-Programmierschnittstelle über oneAPI.

Generative KI für die Wissenschaft

Das Argonne National Laboratory kündigte in Zusammenarbeit mit Intel und HPE Pläne zur Entwicklung einer Reihe generativer KI-Modelle für die wissenschaftliche Forschungsgemeinschaft an. Diese generativen KI-Modelle für die Wissenschaft werden anhand allgemeiner Texte, Codes, wissenschaftlicher Texte und strukturierter wissenschaftlicher Daten aus Biologie, Chemie, Materialwissenschaften, Physik, Medizin und anderen Quellen trainiert.

Die resultierenden Modelle (mit bis zu 1 Billion Parametern) werden in einer Vielzahl wissenschaftlicher Anwendungen eingesetzt, vom Design von Molekülen und Materialien bis zur Synthese von Wissen aus Millionen von Quellen, um neue und aufregende Experimente in der Systembiologie und Polymerchemie vorzuschlagen und Energiematerialien, Klimawissenschaft und Kosmologie. Das Modell wird auch verwendet, um die Identifizierung biologischer Prozesse im Zusammenhang mit Krebs und anderen Krankheiten zu beschleunigen und Ziele für die Arzneimittelentwicklung vorzuschlagen.

Um das Projekt voranzutreiben, leitet Argonne eine internationale Zusammenarbeit, die Folgendes umfasst:

  • Intel
  • HPE
  • Abteilung für Energielabore
  • US-amerikanische und internationale Universitäten
  • Gemeinnützige Organisationen
  • International Partners

Es wird erwartet, dass Aurora bei seiner Einführung in diesem Jahr mehr als zwei Exaflops Spitzenleistung bei der doppelten Präzisionsrechenleistung bieten wird.

Vorteile von oneAPI für HPC-Anwendungen

Die neuesten Intel oneAPI-Tools beschleunigen HPC-Anwendungen mit OpenMP-GPU-Offload, erweitern die Unterstützung für OpenMP und Fortran und beschleunigen KI und Deep Learning durch optimierte Frameworks, einschließlich TensorFlow und PyTorch, sowie KI-Tools, was höhere Leistungsverbesserungen ermöglicht.

Die Multiarchitektur-Programmierung wird für Programmierer einfacher durch die SYCL-Implementierung von oneAPI, die von Codeplay entwickelten oneAPI-Plug-ins für NVIDIA- und AMD-Prozessoren und das Intel DPC++ Compatibility Tool, das Code von CUDA nach SYCL und C++ migriert, wobei 90–95 Prozent des Codes normalerweise automatisch migriert werden . Der resultierende SYCL-Code zeigt eine vergleichbare Leistung mit demselben Code, der auf NVIDIA- und AMD-nativen Systemsprachen ausgeführt wird. Die Daten zeigen, dass der SYCL-Code für die DPEcho-Astrophysikanwendung, die auf der GPU der Max-Serie läuft, den gleichen CUDA-Code auf NVIDIA H100 um 48 Prozent übertrifft.

Beteiligen Sie sich an StorageReview

Newsletter | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS Feed