Startseite Privatkunden Comino Grando H100 Testbericht – 188 GB NVL-GPU-Speicher

Comino Grando H100 Testbericht – 188 GB NVL-GPU-Speicher

by Lyle Smith

Der Comino Grando H100-Server bietet 2x NVIDIA H100-GPUs, Flüssigkeitskühlung und AMD Threadripper PRO 7995WX, konzipiert für KI- und HPC-Workloads.

Der Comino Grando H100 Server ist die neueste Version der Produktpalette des Unternehmens. Er richtet sich an Benutzer, die Leistung mit raffinierter, flüssigkeitsgekühlter Präzision benötigen. Diese Grando-Konfiguration führt verschiedene Hardware- und Designverbesserungen ein. Sie eignet sich jedoch immer noch gut für anspruchsvolle Anwendungen, von KI und maschinellem Lernen bis hin zu komplexer Datenanalyse und visueller Darstellung.

Comino Grando H100 Vorne

In unserer neuen H100-Konfiguration hat Comino eine leistungsstarke CPU ausgewählt: den AMD Ryzen Threadripper PRO 7995WX, der sich hervorragend für High-Core- und High-Thread-Computing-Aufgaben eignet.

Comino Grando H100 Deckel abgenommen

Diese 96-Core-CPU ist ideal für parallelisierte Verarbeitung, bei der Benutzer umfangreiche Datensätze ausführen oder Multithread-Anwendungen handhaben können, die mehr Kerne und Threads benötigen. Das ASUS SAGE WRX90-Motherboard ergänzt diese CPU und bietet die Architektur, um die erweiterten Speicher- und Konnektivitätsanforderungen des H100 zu unterstützen.

Comino Grando H100: Prozessor- und Speicheroptionen

Mit 96 Kernen/192 Threads, Zen 4-Architektur und fortschrittlicher 5-nm-Technologie ist es für Aufgaben wie 3D-Rendering, Videobearbeitung und komplexe Simulationen geeignet. Es verfügt über eine Basistaktfrequenz von 2.5 GHz (Boost bis zu 5.1 GHz) und ist damit ideal für Multithread- und Singlethread-Aufgaben. Es unterstützt bis zu 2 TB DDR5-Speicher über acht Kanäle und bietet damit eine enorme Bandbreite für riesige Datensätze. Darüber hinaus bedeutet seine Kompatibilität mit der WRX90-Plattform reichlich PCIe Gen5-Lanes für Hochgeschwindigkeitsspeicher und GPU-Setups.

Das GPU-Setup in diesem Grando-Modell umfasst zwei NVIDIA H100 NVL GPUs mit jeweils 94 GB Speicher. Diese Dual-GPU-Konfiguration bietet beeindruckende 188 GB GPU-Speicher und verbessert die Leistung für anspruchsvolle Anwendungen. Dies ist besonders vorteilhaft für Profis in den Bereichen künstliche Intelligenz, 3D-Rendering und wissenschaftliche Simulationen, bei denen GPU-Speicherbeschränkungen die Produktivität beeinträchtigen können. Das Grando-Modell ist eine ausgezeichnete Wahl für alle, die leistungsstarke Rechenressourcen benötigen, um große Datensätze und komplexe Aufgaben effizient zu verarbeiten. Und dank der Flüssigkeitskühlung von Comino können diese Hochleistungs-GPUs in einem Single-Slot-Formfaktor betrieben werden und erreichen Dichten, die herkömmliche luftgekühlte Systeme nicht erreichen können.

NVIDIA H100 NVL GPU-Spezifikationen

FP64 30 TeraFLOPs
FP64 Tensorkern 60 TeraFLOPs
FP32 60 TeraFLOPs
TF32 Tensorkern* 835 TeraFLOPs
BFLOAT16 Tensorkern* 1,671 TeraFLOPS
FP16 Tensorkern* 1,671 TeraFLOPS
FP8 Tensorkern* 3,341 TeraFLOPS
INT8 Tensorkern* 3,341 TOPS
GPU-Speicher 94GB
GPU-Speicherbandbreite 3.9 TB / s
Decoder 7 NVDEC
7 JPEG
Maximale thermische Designleistung (TDP) 350–400 W (konfigurierbar)
GPUs mit mehreren Instanzen Bis zu 7 MIGS mit jeweils 12 GB
Formfaktor PCIe
Dual-Slot luftgekühlt
Interconnect NVIDIA NVLink: 600 GB/s
PCIe Gen5: 128 GB/s
Serveroptionen Partner- und NVIDIA-zertifizierte Systeme mit 1–8 GPUs
NVIDIA AI Enterprise Im Preis inbegriffen

Benutzer können zwischen dem Hochgeschwindigkeitsspeicher in Desktopqualität mit Kingston Fury (ideal für Aufgaben mit geringerer Latenz) oder einer größeren Kapazität von 512 GB mit Kingston Server Premier für Zuverlässigkeit auf Unternehmensniveau und speicherintensivere Arbeitslasten wählen.

Comino Grando H100: Kühlung und Leistung

Wie bei früheren Grando-Versionen steht auch hier die praktische Anwendbarkeit im Mittelpunkt der Designphilosophie, ebenso wie die Leistung. Das fortschrittliche interne Kühlsystem verfügt über einen speziell angefertigten Wasserblock, der alle Komponenten auch bei hoher Arbeitsbelastung kühl hält.

Dieses Flüssigkeitskühlsystem sorgt dafür, dass GPUs ihre Spitzenleistung ohne thermische Drosselung aufrechterhalten und gleichzeitig den Geräuschpegel senken. Im Gegensatz zu herkömmlichen Server-Builds, die auf große, laute Lüfter angewiesen sind, ist die Flüssigkeitskühllösung von Grando effizient und gut konzipiert. Die Kühlarchitektur umfasst einen zentralen Wasserverteilungsblock mit tropffreien Schnellkupplungen, die eine einfache Wartung mit minimalem Risiko von Lecks oder Verschütten ermöglichen.

Comino Grando H100 hinten

Mit vier separaten 1600-W-Netzteilen kann der Grando H100 auch bei einem Stromausfall betriebsbereit bleiben, eine Funktion, die für Unternehmensumgebungen von entscheidender Bedeutung ist, in denen Ausfallzeiten um jeden Preis vermieden werden müssen. Diese Netzteile arbeiten nahtlos zusammen, um eine konstante Stromversorgung zu gewährleisten, selbst bei extremer Belastung durch den 7995WX und die beiden H100-GPUs.

Comino Grando H100: Design und Aufbau

Neben der Stromversorgung und Kühlung ist das Layout des Comino Grando H100 so organisiert, dass wichtige Komponenten leicht zugänglich sind. Wir haben das Design und den Aufbau in unserem vorherigen Artikel ausführlich geprüft. Comino Grando Bewertung, also werden wir die Highlights abdecken.

Das Frontpanel verfügt über ein umfassendes I/O-Array, einschließlich Audiobuchsen, mehreren USB-Anschlüssen und Netzwerkkonnektivitätsoptionen, sodass es für Rack-Umgebungen und den eigenständigen Einsatz geeignet ist. Das integrierte LED-Display ist mehr als nur ein dekoratives Element. Es liefert Telemetriedaten in Echtzeit, einschließlich Luft- und Kühlmitteltemperaturen, Lüftergeschwindigkeiten und Pumpenstatus.

Die hintergrundbeleuchteten Menütasten erleichtern dem Benutzer die Navigation durch diese Informationen. Sie ermöglichen auch den Zugriff auf tiefere Einstellungen und Diagnosen zur Überwachung und Anpassung und verbessern so die Benutzerfreundlichkeit und den Komfort bei der regelmäßigen Wartung.

Im Inneren ist jede Komponente so angeordnet, dass sie sich während des Transports nicht bewegt. Empfindliche Teile wie GPUs und SSDs sind zusätzlich versteift. Dies spiegelt Grandos Engagement wider, dafür zu sorgen, dass seine Server langlebig sind und sicher geliefert werden.

Der Comino-Server ist außerdem leicht zu warten und zu warten. Die Kabel, Schläuche und Komponenten sind sehr gut verlegt, was dem Inneren ein sauberes, fast modulares Aussehen verleiht. Dies spielt auch eine praktische Rolle bei der Luftzirkulation und der Wartungsfreundlichkeit, da es einfacher ist, jede Komponente zu isolieren und anzusprechen, ohne den Rest des Setups zu stören.

Comino Grando Server H100 Leistung

Nun werden wir uns damit befassen, wie sich diese Build-Entscheidungen auf die tatsächliche Leistung auswirken. Wir werden dieses Setup mit den beiden Comino Grando-Modellen vergleichen, die wir Anfang des Jahres getestet haben, und spezifische Benchmarks bei Rechen- und Grafikaufgaben besprechen. Wir werden es auch mit dem vergleichen Supermicro AS-2115HV-TNRT.

Getestete Systeme

Unser Grando Server H100 Der Build verfügt über den AMD Threadripper PRO 7995WX-Prozessor, der 96 Kerne und 192 Threads bietet und damit die CPU mit der höchsten Kerndichte in dieser Reihe ist. Das System wird von 512 GB Kingston Server Premier DDR5-Speicher angetrieben, der für bandbreitenintensive Workloads und intensives Multitasking ausgelegt ist. Das GPU-Setup umfasst zwei NVIDIA H100 NVL-GPUs mit jeweils 94 GB Speicher.

Comino Grando H100 GPUs

Die Supermicro AS-2115HV-TNRT Das System verwendet denselben AMD Threadripper PRO 7995WX, verfügt jedoch über 520 GB DDR5-4800 ECC-Speicher und vier NVIDIA RTX 6000 Ada-GPUs. Diese GPUs sind auf High-End-Grafik-Rendering und professionelle Visualisierungsaufgaben ausgerichtet. Das Supermicro-System verfügt außerdem über einen Micron 7450 Max 3.2 TB NVMe.

The Grando Server Wir haben Anfang des Jahres den AMD Threadripper PRO 5995WX-Prozessor getestet, eine 64-Kern-CPU mit 128 Threads, zusammen mit 512 GB RAM und sechs NVIDIA RTX 4090-GPUs. Diese Konfiguration konzentrierte sich stark auf die grafische Leistung, wobei die RTX 4090s einen hohen Durchsatz für Rendering und allgemeine GPU-Workloads lieferten. Das System umfasste außerdem 4x 1600-W-Netzteile und eine 2 TB NVMe-SSD.

Das andere Comino-System ist das 3975W-betriebene Grando-Workstation, das 32 Kerne und 64 Threads bietet. Seine GPU-Konfiguration besteht aus vier NVIDIA A100-GPUs, die ein Gleichgewicht zwischen rechenorientierten Workloads und Visualisierungsaufgaben betonen. Es wurde mit 512 GB RAM und einer 2 TB NVMe-SSD gepaart, wodurch es weniger rechenintensiv ist als die neueren Systeme, aber anspruchsvolle Workflows bewältigen kann.

Es ist wichtig zu beachten, dass der vorherige Grando Server, den wir getestet haben, wahrscheinlich eine bessere Leistung bei GPU-fokussierten Benchmarks liefern wird, insbesondere bei solchen, die sich auf Rendering- und Visualisierungsaufgaben beziehen. Die RTX 4090-GPUs sind für grafische High-End-Workloads konzipiert und bieten erhebliche Rechenleistung für solche Anwendungen.

Die Nvidia H100 GPUs sind speziell entwickelte Rechenbeschleuniger, die bewusst auf Display-Ausgänge und Verbraucherfunktionen verzichten, sodass sie sich ausschließlich auf Rechenzentrums-Workloads konzentrieren. Im Gegensatz zu ihren Gegenstücken für Verbraucher und Workstations verfügen H100s nicht über Display-Ports oder Windows-Grafiktreiber, da sie für den Headless-Serverbetrieb konzipiert sind. Das Fehlen von NVENC-Codierungshardware unterstreicht ihren reinen Rechencharakter noch weiter und optimiert den Chipplatz für KI- und HPC-Aufgaben statt für die Mediencodierung.

Benchmark-Ergebnisse

Mixer 4.0

Unser erster Benchmark ist Blender – eine umfassende Open-Source-3D-Erstellungssuite für Modellierungs-, Animations-, Simulations- und Rendering-Projekte. Blender-Benchmarks bewerten die Leistung eines Systems beim Rendern komplexer Szenen, ein entscheidender Aspekt für Profis in den Bereichen visuelle Effekte, Animation und Spieleentwicklung. Dieser Benchmark misst die CPU- und GPU-Rendering-Fähigkeiten, die für Server und Workstations relevant sind, die für High-End-Grafikverarbeitung und Rechenaufgaben entwickelt wurden.

Hier zeichnet sich die Grando H100 Server-Konfiguration bei CPU-basierten Tests aufgrund der hohen Kernanzahl des AMD Threadripper PRO 7995WX aus. Bei Rendering-Aufgaben wie Monster-, Junkshop- und Klassenzimmer-Szenen übertrifft sie durchweg die anderen Systeme wie den Supermicro AS-2115HV-TNRT. Die GPU-Tests offenbaren jedoch die Einschränkungen der H100-GPUs bei Grafik-Rendering-Workloads. Während die H100-Konfiguration anständige Ergebnisse liefert, schneiden Systeme mit allgemeineren GPUs wie der RTX 6000 Ada oder der RTX 4090 deutlich besser ab. Dies unterstreicht die Spezialisierung des H100 auf Rechen- und nicht auf Grafikaufgaben.

Mixer
(Proben pro Minute; höher ist besser)
Grando Server
(AMD 7995WX, 2x H100)
Supermicro AS-2115HV-TNRT (AMD 7995WX, 4x RTX 6000 Ada) Supermicro AS-2115HV-TNRT übertaktet (AMD 7995WX, 4x RTX 6000 Ada)
Blender 4.2 CPU-Tests
Monster  1,352.19 931 969
Trödelladen  969.44 682 640
Klassenzimmer 683.30 451 472
Blender 4.2 GPU-Tests
Monster 2,521 5,745 N / A
Trödelladen 1,888.28 2,698 N / A
Klassenzimmer 1,401.96 2,824 N / A

Die zuvor getesteten Grando-Server wurden unter Blender Version 4.0 getestet. Hier sind die Ergebnisse:

Mixer
(Proben pro Minute; höher ist besser)
Grando Server
(TR W5995WX, 512 GB, 6x 4090)
Grando-Workstation
(TR 3975WX, 512 GB, 4x A100)
Blender 4.0 CPU-Tests
Monster  568.02 334.40
Trödelladen  386.53 231.90
Klassenzimmer 293.91 174.21
Blender 4.0 GPU-Tests
Monster 5,880.71 1,656.34
Trödelladen 2,809.36 1,137.73
Klassenzimmer 2,895.54 953.46

Blackmagic RAW-Geschwindigkeitstest

Der Blackmagic RAW Speed ​​Test misst die Verarbeitungsgeschwindigkeit für hochwertige Videoformate, ein wesentlicher Aspekt für Server und Workstations bei der Videoproduktion und -bearbeitung. Es bewertet, wie Systeme RAW-Videodateien verwalten, was sich auf die Workflow-Effizienz und Produktivität in Medienproduktionsumgebungen auswirkt.

Im Blackmagic RAW-Geschwindigkeitstest zeigt der Grando Server H100 eine starke CPU-Leistung bei der 8K-RAW-Videodekodierung, bleibt aber bei CUDA-basierten Aktivitäten zurück, da der kleinere T1000 diese in diesem System bewältigte. Systeme mit GPUs wie der RTX 4090 und RTX 6000 Ada bieten DirectX-Unterstützung in Windows, während die auf Unternehmen ausgerichteten GPUs diese Unterstützung nicht nativ haben.

Blackmagic RAW-Geschwindigkeitstest Grando Server
(AMD 7995WX, 2x H100)
Grando Server
(TR W5995WX, 512 GB, 6x 4090)
Grando-Workstation
(TR 3975WX, 512 GB, 4x A100)
Supermicro AS-2115HV-TNRT (AMD 7995WX, 4x RTX 6000 Ada)
8K-CPU 156 FPS 132 FPS 135 FPS 132 fps
8K CUDA 144 FPS 345 FPS 309 FPS 664 fps

7-Reißverschluss-Komprimierung

Der 7-zip-Komprimierungs-Benchmark testet die Effizienz eines Systems bei der Handhabung der Datenkomprimierung und -dekomprimierung, was für die Verwaltung großer Datensätze und die Optimierung des Speichers von entscheidender Bedeutung ist. Dieser Benchmark spiegelt die Leistung von Servern und Workstations bei datenintensiven Vorgängen wider, bei denen Geschwindigkeit und Effizienz bei der Datenbearbeitung von entscheidender Bedeutung sind.

Hier der Grando Fertige Server lieferte die besten Komprimierungs- und Dekomprimierungsergebnisse unter den getesteten Systemen. In Bezug auf die Gesamteffizienz kommt die übertaktete Supermicro AS-2115HV-TNRT-Konfiguration jedoch nahe heran.

7-Zip-Komprimierungs-Benchmark (höher ist besser) Grando Server
(AMD 7995WX, 2x H100)
Grando Server
(TR W5995WX, 512 GB, 6x 4090)
Grando-Workstation
(TR 3975WX, 512 GB, 4x A100)
Supermicro AS-2115HV-TNRT
(AMD 7995WX, 4x RTX 6000 Ada)
Supermicro AS-2115HV-TNRT – Übertaktet
(AMD 7995WX, 4x RTX 6000 Ada)
Komprimieren
Aktuelle CPU-Auslastung 5,582% 3,379% 3,439% 5,571% 6,456%
Aktuelle Bewertung/Nutzung 8.627 GIPS 7.630 GIPS 7.094 GIPS 7.835 GIPS 9.373 GIPS
Aktuelle Bewertung 481.539 GIPS 257.832 GIPS 243.994 GIPS 436.490 GIPS 605.097 GIPS
Resultierende CPU-Auslastung 5,561% 3,362% 3,406% 5,599% 6,433%
Resultierende Bewertung/Nutzung 8.631 GIPS 7.697 GIPS 7.264 GIPS 7.863 GIPS 9.420 GIPS
Resultierende Bewertung 480.006 GIPS 258.756 GIPS 247.396 GIPS 440.288 GIPS 605.984 GIPS
Dekomprimieren
Aktuelle CPU-Auslastung 6,270% 6,015% 6,286% 6,223% 6,343%
Aktuelle Bewertung/Nutzung 7.411 GIPS 5.585 GIPS 5.434 GIPS 7.215 GIPS 9.810 GIPS
Aktuelle Bewertung 464.701 GIPS 335.958 GIPS 341.599 GIPS 449.012 GIPS 622.250 GIPS
Resultierende CPU-Auslastung 6,238% 6,053% 6,269% 6,213% 6,312%
Resultierende Bewertung/Nutzung 7.589 GIPS 5.603 GIPS 5.468 GIPS 7.165 GIPS 9.834 GIPS
Resultierende Bewertung 473.375 GIPS 339.171 GIPS 342.766 GIPS 445.130 GIPS 620.749 GIPS
Gesamtbewertungen
Gesamt-CPU-Auslastung 5,900% 4,708% 4,837% 5,906% 6,373%
Gesamtbewertung/Nutzung 8.110 GIPS 6.650 GIPS 6.366 GIPS 7.514 GIPS 9.627 GIPS
Gesamtbewertung 476.690 GIPS 298.963 GIPS 295.081 GIPS 442.709 GIPS 613.366 GIPS

Y-Cruncher

Y-Cruncher ist ein rechnerischer Benchmark, der die Fähigkeit eines Systems testet, komplexe mathematische Operationen durchzuführen und Pi auf Billionen von Ziffern genau zu berechnen. Dieser Benchmark gibt die Rechenleistung von Servern und Workstations an, insbesondere für den Einsatz in wissenschaftlichen Forschungen und Simulationen, die eine intensive Zahlenverarbeitung erfordern.

In Y-Cruncher übertrifft die Konfiguration Grando Server H100 die Gesamtrechenzeit bei der Berechnung von Pi auf allen Ziffernebenen. Die hohe Kernanzahl des AMD Threadripper PRO 7995WX sorgt dafür, dass dieses System bei CPU-intensiven Aufgaben die Nase vorn hat. Die übertaktete Konfiguration Supermicro AS-2115HV-TNRT verringert den Abstand jedoch erheblich und zeigt die Vorteile einer optimierten Leistungsabstimmung für diese Workloads.

Y-Cruncher (Gesamtrechenzeit) Grando Server
(AMD 7995WX, 2x H100)
Grando Server
(TR W5995WX, 512 GB, 6x 4090)
Grando Arbeitsstation
(TR 3975WX, 512 GB, 4x A100)
Supermicro AS-2115HV-TNRT (AMD 7995WX, 4x RTX 6000 Ada) Supermicro AS-2115HV-TNRT – Übertaktet (AMD 7995WX, 4x RTX 6000 Ada)
1 Milliarde Ziffern 7.523 Sekunden 11.023 Sekunden 11.759 Sekunden 8.547 Sekunden 6.009 Sekunden
2.5 Milliarde Ziffern 15.392 Sekunden 28.693 Sekunden 32.073 Sekunden 17.493 Sekunden 13.838 Sekunden
5 Milliarde Ziffern 29.420 Sekunden 61.786 Sekunden 69.869 Sekunden 33.584 Sekunden 27.184 Sekunden
10 Milliarde Ziffern 60.089 Sekunden 130.547 Sekunden 151.820 Sekunden 67.849 Sekunden 58.283 Sekunden
25 Milliarde Ziffern 214.246 Sekunden 353.858 Sekunden 425.824 Sekunden 182.880 Sekunden 161.913 Sekunden
50 Milliarde Ziffern 594.939 Sekunden 788.912 Sekunden 971.086 Sekunden 417.853 Sekunden N / A

Y-Cruncher BBP

Dieser Y-Cruncher-Benchmark verwendet die Bailey-Borwein-Plouffe-Formeln (BBP), um große Hexadezimalzahlen von Pi zu berechnen und die gesamte Rechenzeit, Auslastung und Multi-Core-Effizienz der CPU zu messen.

Der y-cruncher BBP-Benchmark unterstreicht die Effizienz des Grando Server H100 bei der Bewältigung massiver Rechenaufgaben. In allen Tests schneidet der Grando Server gut ab und erreicht die schnellste Gesamtrechenzeit für 1 BBP- und 10 BBP-Berechnungen. Seine Multi-Core-Effizienz im 100 BBP-Test ist mit 98.68 % etwas niedriger als die der Supermicro AS-2115HV-TNRT-Systeme, aber immer noch hocheffektiv. Die übertaktete Supermicro-Konfiguration übertrifft die Standard-Supermicro in der Gesamtzeit für alle BBP-Stufen. Dennoch ist der Grando H100 bei der realen Rechengeschwindigkeit für kleinere BBP-Aufgaben durchweg führend, wahrscheinlich aufgrund seiner optimierten Multithreading-Fähigkeiten und des schnellen Kontextwechsels.

Allerdings weisen die Supermicro-Systeme im Hinblick auf die CPU-Auslastung eine etwas bessere Kernnutzungseffizienz auf, was darauf schließen lässt, dass sie ihre Architektur für anhaltende parallele Arbeitslasten möglicherweise effektiver nutzen.

Benchmark Grando Server
(AMD 7995WX, 2x H100)
Supermicro AS-2115HV-TNRT
(AMD 7995WX, 4x RTX 6000 Ada)
Supermicro AS-2115HV-TNRT – Übertaktet
(AMD 7995WX, 4x RTX 6000 Ada)
1 BBP
  • Gesamtzeit: 0.173 Sekunden
  • CPU-Auslastung: 6,140.43 %
  • Multi-Core-Effizienz: 31.98 %
  • Gesamtzeit: 0.256 Sekunden
  • CPU-Auslastung: 7,061.79 %
  • Multi-Core-Effizienz: 36.78 %
  • Gesamtzeit: 0.178 Sekunden
  • CPU-Auslastung: 3,968.01 %
  • Multi-Core-Effizienz: 41.33 %
10 BBP
  • Gesamtzeit: 1.301 Sekunden
  • CPU-Auslastung: 16,590.73 %
  • Multi-Core-Effizienz: 84.41 %
  • Gesamtzeit: 2.006 Sekunden
  • CPU-Auslastung: 17,317.36 %
  • Multi-Core-Effizienz: 90.19 %
  • Gesamtzeit: 1.458 Sekunden
  • CPU-Auslastung: 8,574.02 %
  • Multi-Core-Effizienz: 89.31 %
100 BBP
  • Gesamtzeit: 13.966 Sekunden
  • CPU-Auslastung: 18,846.58 %
  • Multi-Core-Effizienz: 98.68 %
  • Gesamtzeit: 21.434 Sekunden
  • CPU-Auslastung: 18,989.11 %
  • Multi-Core-Effizienz: 98.90 %
  • Gesamtzeit: 15.876 Sekunden
  • CPU-Auslastung: 9,488.48 %
  • Multi-Core-Effizienz: 98.84 %

Geekbench 6

Geekbench 6 misst die Rechenleistung von CPUs und GPUs und umfasst Single-Core- und Multi-Core-Fähigkeiten sowie grafische Verarbeitungsleistung. Dieser Benchmark ist wichtig für die Bewertung der gesamten Recheneffizienz von Servern und Workstations für verschiedene Aufgaben, einschließlich Simulationen, Datenanalyse und Grafik-Rendering.

Die Ergebnisse von Geekbench 6 zeigen, dass der Grando Server H100 dank seines 96-Core-Prozessors bei Multi-Core-CPU-Aufgaben Spitzenleistungen erbringt. Bei den GPU-Wertungen übertrifft die H100-Konfiguration jedoch den Supermicro AS-2115HV-TNRT, der die RTX 6000 Ada GPUs für eine überlegene Grafikleistung nutzt.

Geekbench 6 (Höher ist besser) Grando Server
(AMD 7995WX, 2x H100)
Grando Server (TR W5995WX, 512 GB, 6x 4090) Grando Workstation (TR 3975WX, 512 GB, 4x A100) Supermicro AS-2115HV-TNRT
(AMD 7995WX, 4x RTX 6000 Ada)
CPU Single-Core 2,893 2,127 2,131 2,875
CPU-Mehrkern 28,600 21,621 20,411 24,985
GPU 298,220 294,894 193,447 307,510

Cinebench R23

Cinebench R23 misst die Rendering-Fähigkeit der CPU und konzentriert sich dabei auf die Single-Core- und Multi-Core-Leistung. Dies ist ein wesentlicher Maßstab für die Bewertung der Leistung eines Servers oder einer Workstation bei der Inhaltserstellung, dem 3D-Rendering und anderen CPU-intensiven Aufgaben. Das MP-Verhältnis (Multi-Core-Performance-Verhältnis) gibt darüber hinaus Aufschluss darüber, wie effektiv ein System seine mehreren Kerne nutzt.

Die H100-Konfiguration ist führend in der Multi-Core-Leistung und nutzt die enorme Kernanzahl des Threadripper PRO 7995WX. Die Single-Core-Leistung ist jedoch mit den anderen Systemen vergleichbar. Das MP-Verhältnis betont die Skalierbarkeit des 7995WX in Multi-Thread-Anwendungen. Die GPU-agnostische Natur dieses Benchmarks verhindert jedoch, dass die H100-Konfiguration irgendwelche GPU-bezogenen Einschränkungen zeigt, wodurch sie auf ganzer Linie wettbewerbsfähiger erscheint.

Cinebench R23
(Höher ist besser)
Grando Server
(AMD 7995WX, 2x H100)
Grando Server (TR W5995WX, 512 GB, 6x 4090) Grando Workstation (TR 3975WX, 512 GB, 4x A100) Supermicro AS-2115HV-TNRT (AMD 7995WX, 4x RTX 6000 Ada) Supermicro AS-2115HV-TNRT – Übertaktet (AMD 7995WX, 4x RTX 6000 Ada)
CPU-Mehrkern  159,930 pts 73,556 Punkte 49,534 Punkte 111,792 pts 132,044 Punkte
CPU Single-Core 1,876 Punkte 1,484 Punkte 1,468 Punkte 1,864 Punkte 1,887 Punkte
MP-Verhältnis 85.26 x 49.56x 33.75x 59.98x 69.99x

GPU-Direktspeicher

Einer der Tests, die wir auf diesem Server durchgeführt haben, war der Magnum IO GPU Direct Storage (GDS)-Test. GDS ist eine von NVIDIA entwickelte Funktion, die es GPUs ermöglicht, die CPU zu umgehen, wenn sie auf Daten zugreifen, die auf NVMe-Laufwerken oder anderen Hochgeschwindigkeitsspeichergeräten gespeichert sind. Anstatt Daten über die CPU und den Systemspeicher zu leiten, ermöglicht GDS die direkte Kommunikation zwischen der GPU und dem Speichergerät, wodurch die Latenz erheblich reduziert und der Datendurchsatz verbessert wird.

So funktioniert GPU Direct Storage

Wenn eine GPU Daten verarbeitet, die auf einem NVMe-Laufwerk gespeichert sind, müssen die Daten normalerweise zuerst durch die CPU und den Systemspeicher laufen, bevor sie die GPU erreichen. Dieser Prozess führt zu Engpässen, da die CPU zum Mittelsmann wird, was zu Latenz führt und wertvolle Systemressourcen verbraucht. GPU Direct Storage beseitigt diese Ineffizienz, indem es der GPU ermöglicht, über den PCIe-Bus direkt vom Speichergerät auf Daten zuzugreifen. Dieser direkte Pfad reduziert den mit der Datenbewegung verbundenen Overhead und ermöglicht schnellere und effizientere Datenübertragungen.

KI-Workloads, insbesondere solche mit Deep Learning, sind äußerst datenintensiv. Das Training großer neuronaler Netzwerke erfordert normalerweise die Verarbeitung von Terabyte an Daten, und jede Verzögerung bei der Datenübertragung kann zu einer Unterauslastung der GPUs und längeren Trainingszeiten führen. GPU Direct Storage bewältigt diese Herausforderung, indem es sicherstellt, dass die Daten so schnell wie möglich an die GPU übermittelt werden, wodurch Leerlaufzeiten minimiert und die Rechenleistung maximiert werden.

Darüber hinaus ist GDS besonders vorteilhaft für Workloads, die das Streamen großer Datensätze beinhalten, wie etwa Videoverarbeitung, Verarbeitung natürlicher Sprache oder Echtzeit-Inferenz. Durch die Reduzierung der Abhängigkeit von der CPU beschleunigt GDS die Datenbewegung und gibt CPU-Ressourcen für andere Aufgaben frei, was die Gesamtsystemleistung weiter verbessert.

Wir haben den Server gründlich getestet, indem wir eine umfassende GDSIO-Evaluierung auf dem Comino Grando durchgeführt und verschiedene Konfigurationen untersucht haben, um seine Leistung in verschiedenen Szenarien zu bewerten. Diese Art von Tests ist für einen Server dieses Kalibers von entscheidender Bedeutung, da sie arbeitsplatzähnliche Umgebungen simuliert und Einblicke in seine Fähigkeiten bei ablativen Tests zum Trainieren großer Modelle bietet. Für die Speicherung nutzten wir einen Solidigm D7-PS1010 Gen5 SSD.

Testen der Konfigurationsmatrix

Wir haben jede Kombination der folgenden Parameter systematisch getestet:

  • Blockgrößen: 1 M, 128 K, 64 K, 16 K, 8 K
  • Fadenzahlen: 128, 64, 32, 16, 8, 4, 1
  • Anzahl der Aufträge: 16, 8, 4, 1
  • Chargengrößen: 32, 16, 8, 4, 1

Für diesen Test haben wir uns auf den sequentiellen Lese- und Schreibdurchsatz konzentriert. Wir haben jede GDSIO-Arbeitslast mit der angegebenen Blockgröße und Threadanzahl über mehrere Job- und Batchgrößen hinweg ausgeführt. Die angegebenen Zahlen sind Durchschnittswerte für jede Job- und Batchanzahlkombination.

Performance-Analyse

KI-Workloads, insbesondere in der Trainingsphase, erfordern die effiziente Verarbeitung riesiger Datenmengen. Diese Workloads profitieren in der Regel von großen Blockgrößen, die den Durchsatz beim Lesen von Trainingsdatensätzen oder Schreiben von Modellprüfpunkten maximieren können. In unseren umfassenden Tests der GPU Direct Storage-Funktionen haben wir uns auf verschiedene E/A-Muster und -Konfigurationen konzentriert, um die Leistungsmerkmale des Systems zu verstehen.

Die sequentielle I/O-Leistung mit 1M-Blockgrößen zeigte in unseren Testkonfigurationen beeindruckende Ergebnisse. Das System erreichte einen bemerkenswerten sequentiellen Lesedurchsatz von 8.56 GiB/s (1M-Blockgröße, Batchgröße 4, IO-Tiefe 128 und 128 Threads über 16 Jobs hinweg). Dieses Leistungsniveau ist besonders vorteilhaft für Workloads, bei denen große vorab trainierte Modelle geladen, umfangreiche Datensätze während Trainingsphasen verarbeitet oder sequentielle Datenströme wie die Videoverarbeitung für Computer Vision-Anwendungen verarbeitet werden müssen.

Bei sequentiellen Schreibvorgängen lieferte das System 7.57 GiB/s (Blockgröße 1 MB, Batchgröße 8, IO-Tiefe 16, mit 16 Threads über 8 Jobs). Damit ist es äußerst effektiv für Szenarien, die häufige Modell-Checkpoints während des verteilten Trainings, das Speichern von Zwischenergebnissen oder das Schreiben verarbeiteter Daten in Batchvorgängen erfordern.

Schlussfolgerung

Der Comino Grando H100-Server ist eine beeindruckende Ergänzung der Produktpalette des Unternehmens und bietet eine einzigartige Alternative zu den anderen Konfigurationen. Angetrieben von einer AMD Threadripper PRO 7995WX-CPU und 512 GB DDR5-Speicher, der auf bis zu 1 TB erweiterbar ist, wird das Grando-System durch zwei NVIDIA H100 NVL-GPUs hervorgehoben. Während dieses Setup eine außergewöhnliche Leistung für KI-gesteuerte Workflows bietet, geht dies auf Kosten der GPU-Leistung bei herkömmlichen Rendering-Benchmarks (wie Luxmark und OctaneBench), bei denen Systeme wie der mit RTX 4090 ausgestattete Grando-Server und RTX 6000 Ada-betriebene Supermicro-Konfigurationen führend sind. Dennoch übertrifft die Leistung des H100 bei CPU-intensiven Tests wie Blenders Multi-Core-Rendering, 7-Zip-Komprimierung und Y-Cruncher durchweg die anderen getesteten Systeme.

In Bezug auf das Design kann der Comino Grando H100-Server Hochleistungskomponenten in einem kompakten Formfaktor unterbringen, was für Standardgehäuse oft eine Herausforderung darstellt. Dank seines benutzerdefinierten Direct Liquid Cooling (DLC)-Systems kann der Server problemlos Konfigurationen wie zwei NVIDIA H100-GPUs verarbeiten. Diese fortschrittliche Kühllösung hält die Wärme unter Kontrolle und stellt sicher, dass das System bei anspruchsvollen, leistungsstarken Aufgaben stabil bleibt. Das Besondere an diesem neuen Comino-System ist, dass es hauptsächlich Hardware in Verbraucherqualität nutzt, um eine Lösung zu schaffen, die sowohl effizient als auch relativ erschwinglich ist. Damit ist es eine attraktive Option für Profis und Unternehmen, die die GPU-Leistung maximieren möchten, ohne die Bank zu sprengen.

Insgesamt ist der Comino Grando H100 eine ausgezeichnete Wahl für Unternehmen und Fachleute, die KI-Optimierung, Rechenaufgaben und Zuverlässigkeit in anspruchsvollen Umgebungen priorisieren. Sein einzigartiges Design und seine Kühlinnovationen bieten Flexibilität und Leistung für KI-gesteuerte Workloads. Alternative Konfigurationen wie der mit RTX 4090 ausgestattete Grando Server oder RTX 6000 Ada-betriebene Systeme sind jedoch möglicherweise besser für Benutzer geeignet, die sich auf traditionelles GPU-Rendering konzentrieren.

Comino Systeme

Beteiligen Sie sich an StorageReview

Newsletter | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS Feed