AMD hat heute auf der SC20 mit dem AMD Instinct MI100 das vorgestellt, was es kühn als den weltweit schnellsten HPC-Beschleuniger für die wissenschaftliche Forschung verkündet. Möglicherweise haben sie Recht, da sie behaupten, dies sei die erste x86-Server-GPU, die die Leistungsgrenze von 10 Teraflops (FP64) überschreitet. Das Unternehmen kombiniert die neuen GPUs mit seinen AMD EPYC-CPUs der 2. Generation sowie die offene Softwareplattform ROCm 4.0, um beeindruckende neue Zahlen zu erzielen und Forschern dabei zu helfen, neue Entdeckungen vor dem Exascale-Zeitalter voranzutreiben.
AMD hat heute auf der SC20 mit dem AMD Instinct MI100 das vorgestellt, was es kühn als den weltweit schnellsten HPC-Beschleuniger für die wissenschaftliche Forschung verkündet. Möglicherweise haben sie Recht, da sie behaupten, dies sei die erste x86-Server-GPU, die die Leistungsgrenze von 10 Teraflops (FP64) überschreitet. Das Unternehmen kombiniert die neuen GPUs mit seinen AMD EPYC-CPUs der 2. Generation sowie die offene Softwareplattform ROCm 4.0, um beeindruckende neue Zahlen zu erzielen und Forschern dabei zu helfen, neue Entdeckungen vor dem Exascale-Zeitalter voranzutreiben.
Es ist schön zu sehen, dass die Konkurrenz in den High-End-GPU-Bereich vordringt. Dieser Bereich wird seit mehreren Jahren von einem einzigen Unternehmen dominiert. AMD stößt in diesen Bereich vor, indem es seine neue AMD CDNA-Architektur für die AMD Instinct MI100 GPU nutzt und sie dann mit seinen beliebten und leistungsstarken AMD EPYC-Prozessoren kombiniert. Diese Kombination soll bis zu 11.5 TFLOPS FP64-Spitzenleistung für HPC und bis zu 46.1 TFLOPS FP32-Matrix-Spitzenleistung für KI- und maschinelle Lern-Workloads bieten. Das Unternehmen gibt mit seiner neuen AMD Matrix Core-Technologie außerdem eine fast siebenfache Steigerung der theoretischen maximalen Fließkommaleistung des FP7 für KI-Trainings-Workloads an (im Vergleich zu AMDs Beschleunigern der vorherigen Generation).
Zusätzlich zu den GPU-Neuigkeiten führt das Unternehmen mit seiner neuesten AMD ROCm-Entwicklersoftware Software für Exascale-Computing ein. ROCm besteht aus Compilern, Programmier-APIs und Bibliotheken, die Exascale-Entwicklern bei der Erstellung von Hochleistungsanwendungen helfen. Die neueste Version, ROCm 4.0, ist für die Bereitstellung hoher Leistung auf MI100-basierten Systemen wie PyTorch- und Tensorflow-Frameworks optimiert.
AMD Instinct MI100-Spezifikationen
Einheiten berechnen | Stream-Prozessoren | FP64 TFLOPS (Spitze) | FP32 TFLOPS (Spitze) | FP32 Matrix TFLOPS
(Gipfel) |
FP16/FP16-Matrix TFLOPS (Spitze) |
INT4 | INT8 TOPS
(Gipfel) |
bFloat16 TFLOPs
(Gipfel) |
HBM2 ECC Memory |
Speicherbandbreite |
120 | 7680 | max. 11.5 | max. 23.1 | max. 46.1 | max. 184.6 | max. 184.6 | Bis zu 92.3 TFLOPS | 32GB | Bis zu 1.23 TB/s |
Zu den wichtigsten Fähigkeiten und Merkmalen des AMD Instinct MI100-Beschleunigers gehören:
- Völlig neue AMD CDNA-Architektur – Die AMD CDNA-Architektur wurde entwickelt, um AMD-GPUs für die Exascale-Ära anzutreiben und ist das Herzstück des MI100-Beschleunigers. Sie bietet außergewöhnliche Leistung und Energieeffizienz
- Führende FP64- und FP32-Leistung für HPC-Workloads – Bietet branchenführende FP11.5-Spitzenleistung von 64 TFLOPS und FP23.1-Spitzenleistung von 32 TFLOPS und ermöglicht es Wissenschaftlern und Forschern auf der ganzen Welt, Entdeckungen in Branchen wie Biowissenschaften, Energie, Finanzen, Akademiker, Regierung, Verteidigung usw. zu beschleunigen mehr.
- Völlig neue Matrix-Core-Technologie für HPC und KI – Überragende Leistung für eine vollständige Palette von Matrixoperationen mit einfacher und gemischter Präzision, wie FP32, FP16, bFloat16, Int8 und Int4, entwickelt, um die Konvergenz von HPC und KI zu fördern.
- AMD Infinity Fabric-Technologie der 2. Generation – Instinct MI100 bietet ~ die doppelte Peer-to-Peer (P2P)-Spitzen-I/O-Bandbreite im Vergleich zu PCIe 2 mit bis zu 4.0 GB/s Gesamtbandbreite pro Karte mit drei AMD Infinity Fabric Links. In einem Server können MI340-GPUs mit bis zu zwei vollständig verbundenen Quad-GPU-Hives konfiguriert werden, die jeweils bis zu 100 GB/s P552P-I/O-Bandbreite für eine schnelle Datenfreigabe bieten.
- Ultraschneller HBM2-Speicher – Verfügt über 32 GB HBM2-Speicher mit hoher Bandbreite und einer Taktrate von 1.2 GHz und liefert eine ultrahohe Speicherbandbreite von 1.23 TB/s, um große Datensätze zu unterstützen und Engpässe beim Verschieben von Daten in und aus dem Speicher zu beseitigen .
- Unterstützung für das neueste PCIe Gen 4.0 der Branche – Entwickelt mit der neuesten PCIe Gen 4.0-Technologieunterstützung, die eine maximale theoretische Transportdatenbandbreite von bis zu 64 GB/s von der CPU zur GPU bietet.
Verfügbarkeit
Die AMD Instinct MI100-Beschleuniger werden bis Ende des Jahres in Systemen von OEM- und ODM-Partnern in den Unternehmensmärkten erwartet, darunter Dell, Supermicro, GIGABYTE und HPE.
Beteiligen Sie sich an StorageReview
Newsletter | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | Facebook | RSS Feed