Home Consument Comino Grando H100 Review – 188GB NVL GPU-geheugen

Comino Grando H100 Review – 188GB NVL GPU-geheugen

by Lyle Smit

De Comino Grando H100-server beschikt over 2x NVIDIA H100 GPU's, vloeistofkoeling en AMD Threadripper PRO 7995WX, ontworpen voor AI- en HPC-workloads.

De Comino Grando H100 Server is de nieuwste release in de line-up van het bedrijf. Het is bedoeld voor gebruikers die behoefte hebben aan vermogen met verfijnde, vloeistofgekoelde precisie. Deze Grando-configuratie introduceert verschillende hardware- en ontwerpverbeteringen. Het is echter nog steeds zeer geschikt voor toepassingen met hoge vraag, van AI en machine learning tot complexe data-analyse en visuele rendering.

Comino Grando H100 Voorzijde

In onze nieuwe H100-configuratie heeft Comino gekozen voor een krachtige CPU: de AMD Ryzen Threadripper PRO 7995WX, die uitblinkt in taken met veel cores en threads.

Comino Grando H100 deksel eraf

Deze 96-core CPU is ideaal voor geparallelliseerde verwerking, waarbij gebruikers uitgebreide datasets kunnen uitvoeren of multi-threaded applicaties kunnen verwerken die gedijen op meer cores en threads. Het ASUS SAGE WRX90 moederbord vult deze CPU aan en biedt de architectuur om de verbeterde geheugen- en connectiviteitsbehoeften van de H100 te ondersteunen.

Comino Grando H100: Processor- en geheugenopties

Met 96 cores/192 threads, Zen 4-architectuur en geavanceerde 5nm-technologie is het gebouwd om taken als 3D-rendering, videobewerking en complexe simulaties eenvoudig aan te kunnen. Het beschikt over een basiskloksnelheid van 2.5 GHz (tot 5.1 GHz), waardoor het ideaal is voor multi-threaded en single-threaded taken. Het ondersteunt tot 2 TB DDR5-geheugen over acht kanalen, wat zorgt voor een enorme bandbreedte voor enorme datasets. Bovendien betekent de compatibiliteit met het WRX90-platform voldoende PCIe Gen5-lanes voor snelle opslag en GPU-instellingen.

De GPU-opstelling in dit Grando-model bevat twee NVIDIA H100 NVL GPU's met elk 94 GB geheugen. Deze dual-GPU-configuratie levert een indrukwekkende 188 GB GPU-geheugen, wat de prestaties voor veeleisende toepassingen verbetert. Het is vooral gunstig voor professionals in kunstmatige intelligentie, 3D-rendering en wetenschappelijke simulaties, waar beperkingen van het GPU-geheugen de productiviteit kunnen beïnvloeden. Het Grando-model is een uitstekende keuze voor degenen die krachtige computerbronnen nodig hebben om grote datasets en complexe taken efficiënt te verwerken. En dankzij de vloeistofkoeling van Comino kunnen deze krachtige GPU's werken in een single-slot form factor, waardoor dichtheden worden bereikt die traditionele luchtgekoelde systemen niet kunnen evenaren.

NVIDIA H100 NVL GPU-specificaties

FP64 30 teraFLOP's
FP64 Tensorkern 60 teraFLOP's
FP32 60 teraFLOP's
TF32 Tensorkern* 835 teraFLOP's
BFLOAT16 Tensorkern* 1,671 teraFLOPS
FP16 Tensorkern* 1,671 teraFLOPS
FP8 Tensorkern* 3,341 teraFLOPS
INT8 Tensorkern* 3,341 TOPS
GPU-geheugen 94GB
GPU-geheugenbandbreedte 3.9 TB/s
decoders 7 NVDEC
7 JPEG's
Maximaal thermisch ontwerpvermogen (TDP) 350-400W (configureerbaar)
GPU's met meerdere instanties Tot 7 MIGS van elk 12 GB
Form Factor PCIe
luchtgekoeld met dubbele sleuf
interconnect NVIDIA NVLink: 600 GB/s
PCIe Gen5: 128 GB/sec
Server-opties Partner en NVIDIA-gecertificeerde systemen met 1–8 GPU's
NVIDIA AI Enterprise Inbegrepen

Gebruikers kunnen kiezen tussen supersnel geheugen van desktopkwaliteit met Kingston Fury (ideaal voor taken met een lagere latentie) of een grotere capaciteit van 512 GB met Kingston Server Premier voor betrouwbaarheid op ondernemingsniveau en zwaardere geheugenintensieve workloads.

Comino Grando H100: Koeling en vermogen

Net als bij eerdere Grando-iteraties draait de ontwerpfilosofie hier net zo goed om bruikbaarheid als om prestaties. Het geavanceerde interne koelsysteem beschikt over een op maat gemaakte waterblokopstelling die alle componenten koel houdt, zelfs bij zware werklasten.

Dit vloeistofkoelsysteem zorgt ervoor dat GPU's hun piekprestaties behouden zonder thermische beperking, terwijl het geluidsniveau wordt verlaagd. In tegenstelling tot conventionele serverbuilds die afhankelijk zijn van grote, luidruchtige ventilatoren, is de vloeistofkoeloplossing van de Grando efficiënt en goed ontworpen. De koelarchitectuur omvat een gecentraliseerd waterdistributieblok met druppelvrije snelkoppelingen, wat eenvoudig onderhoud mogelijk maakt met minimaal risico op lekken of morsen.

Comino Grando H100 achterzijde

Met vier afzonderlijke 1600W PSU's kan de Grando H100 uptime behouden, zelfs bij een stroomstoring, een functie die cruciaal is voor bedrijfsomgevingen waar downtime koste wat kost moet worden vermeden. Deze voedingen werken naadloos samen om consistente stroomlevering te garanderen, zelfs onder extreme belasting van de 7995WX en dubbele H100 GPU's.

Comino Grando H100: ontwerp en bouw

Naast vermogen en koeling is de lay-out van de Comino Grando H100 zo georganiseerd dat u eenvoudig toegang hebt tot kritieke componenten. We hebben het ontwerp en de bouw gedetailleerd besproken in onze vorige Comino Grando recensie, dus we zullen de hoogtepunten bespreken.

Het frontpaneel heeft een uitgebreide I/O-array, inclusief audio-aansluitingen, meerdere USB-poorten en netwerkconnectiviteitsopties, waardoor het geschikt is voor rack-mounted omgevingen en stand-alone gebruik. Het ingebouwde LED-display is meer dan alleen een decoratief detail. Het levert realtime telemetriegegevens, inclusief lucht- en koelmiddeltemperaturen, ventilatorsnelheden en pompstatus.

De verlichte menuknoppen maken het voor gebruikers gemakkelijk om door deze informatie te navigeren. Ze bieden ook toegang tot diepere instellingen en diagnostiek voor monitoring en aanpassingen, wat de bruikbaarheid en het gemak voor regulier onderhoud verbetert.

Binnenin is elk onderdeel zo geplaatst dat beweging tijdens het transport wordt voorkomen, met extra versteviging rond gevoelige onderdelen zoals de GPU's en SSD's. Dit weerspiegelt Grando's toewijding om ervoor te zorgen dat hun servers duurzaam en veilig worden geleverd.

De Comino-server is ook eenvoudig te onderhouden en te repareren. De kabels, buizen en componenten zijn heel netjes gerouteerd, waardoor het interieur een schone, bijna modulaire uitstraling heeft. Dit speelt ook een praktische rol in de luchtstroom en het gemak van onderhoud, waardoor het gemakkelijker is om componenten te isoleren en aan te pakken zonder de rest van de opstelling te verstoren.

Comino Grando Server H100-prestaties

Nu gaan we dieper in op hoe deze buildkeuzes de prestaties in de echte wereld beïnvloeden. We vergelijken deze opstelling met de twee Comino Grando-modellen die we eerder dit jaar hebben beoordeeld en bespreken specifieke benchmarks in computationele en grafische taken. We vergelijken het ook met de Supermicro AS-2115HV-TNRT.

Geteste systemen

Ons Grote server H100 build beschikt over de AMD Threadripper PRO 7995WX processor, die 96 cores en 192 threads biedt, wat het de meest core-dense CPU in deze line-up maakt. Het systeem wordt aangestuurd door 512 GB Kingston Server Premier DDR5 geheugen, ontworpen voor workloads met hoge bandbreedte en intensieve multitasking. De GPU-opstelling omvat twee NVIDIA H100 NVL GPU's met elk 94 GB geheugen.

Comino Grando H100 GPU's

De Supermicro AS-2115HV-TNRT systeem gebruikt dezelfde AMD Threadripper PRO 7995WX, maar bevat 520 GB DDR5-4800 ECC-geheugen en vier NVIDIA RTX 6000 Ada GPU's. Deze GPU's zijn gericht op high-end grafische rendering en professionele visualisatietaken. Het Supermicro-systeem heeft ook een Micron 7450 Max 3.2 TB NVMe.

ThDe Grote Server die we eerder dit jaar hebben besproken, bevatten de AMD Threadripper PRO 5995WX-processor, een 64-core, 128-thread CPU, naast 512 GB RAM en zes NVIDIA RTX 4090 GPU's. Deze configuratie was sterk gericht op grafische prestaties, waarbij de RTX 4090's een hoge doorvoer leverden voor rendering en algemene GPU-workloads. Het systeem omvatte ook 4x 1600W PSU's en een 2TB NVMe SSD.

Het andere Comino-systeem is het 3975W-aangedreven Grando-werkstation, die 32 cores en 64 threads biedt. De GPU-configuratie bestaat uit vier NVIDIA A100 GPU's, met de nadruk op een balans tussen rekengerichte workloads en visualisatietaken. Het werd gecombineerd met 512 GB RAM en een 2 TB NVMe SSD, waardoor het minder rekenintensief is dan de nieuwere systemen, maar wel in staat is om veeleisende workflows aan te kunnen.

Het is belangrijk om op te merken dat de vorige Grando Server die we hebben beoordeeld waarschijnlijk superieure prestaties zal leveren in GPU-gerichte benchmarks, met name die gerelateerd aan rendering- en visualisatietaken. De RTX 4090 GPU's zijn ontworpen voor high-end grafische workloads en bieden substantiële rekenkracht voor dergelijke applicaties.

De Nvidia H100 GPU's zijn speciaal gebouwde compute accelerators die opzettelijk display outputs en consumer features weglaten, waardoor ze puur gericht zijn op datacenter workloads. In tegenstelling tot hun Consumer en Workstation tegenhangers, bevatten H100's geen display ports of Windows graphics drivers omdat ze ontworpen zijn voor headless server operation. De afwezigheid van NVENC encoding hardware benadrukt hun compute-only aard verder, waardoor de die space geoptimaliseerd wordt voor AI en HPC taken in plaats van media encoding.

Benchmarkresultaten

Blender 4.0

Onze eerste benchmark is Blender, een uitgebreide open-source 3D-creatiesuite voor modellering, animatie, simulatie en renderingprojecten. Blender-benchmarks evalueren de prestaties van een systeem bij het renderen van complexe scènes, een cruciaal aspect voor professionals in visuele effecten, animatie en game-ontwikkeling. Deze benchmark meet CPU- en GPU-renderingmogelijkheden, die relevant zijn voor servers en werkstations die zijn ontworpen voor high-end grafische verwerking en computationele taken.

Hier blinkt de Grando H100 Server-configuratie uit in CPU-gebaseerde tests vanwege het hoge aantal cores van de AMD Threadripper PRO 7995WX. Het overtreft consequent andere systemen zoals de Supermicro AS-2115HV-TNRT in renderingtaken zoals Monster, Junkshop en Classroom-scènes. De GPU-tests onthullen echter de beperkingen van de H100 GPU's in grafische rendering-workloads. Hoewel de H100-configuratie behoorlijke resultaten levert, presteren systemen met meer algemene GPU's aanzienlijk beter, zoals de RTX 6000 Ada of RTX 4090. Dit benadrukt de specialisatie van de H100 in computationele in plaats van grafische taken.

Blenders
(Monsters per minuut; hoger is beter)
Grote server
(AMD 7995WX, 2x H100)
Supermicro AS-2115HV-TNRT (AMD 7995WX, 4x RTX 6000 Ada) Supermicro AS-2115HV-TNRT overgeklokt (AMD 7995WX, 4x RTX 6000 Ada)
Blender 4.2 CPU-tests
Monster  1,352.19 931 969
Junkshop  969.44 682 640
Klas 683.30 451 472
Blender 4.2 GPU-tests
Monster 2,521 5,745 NB
Junkshop 1,888.28 2,698 NB
Klas 1,401.96 2,824 NB

De eerder beoordeelde Grando-servers zijn getest onder Blender versie 4.0. Hier zijn de resultaten:

Blenders
(Monsters per minuut; hoger is beter)
Grando-server
(TR W5995WX, 512GB, 6x 4090)
Grando-werkstation
(TR-3975WX, 512 GB, 4x A100)
Blender 4.0 CPU-tests
Monster  568.02 334.40
Junkshop  386.53 231.90
Klas 293.91 174.21
Blender 4.0 GPU-tests
Monster 5,880.71 1,656.34
Junkshop 2,809.36 1,137.73
Klas 2,895.54 953.46

Blackmagic RAW-snelheidstest

De Blackmagic RAW Speed ​​Test meet de verwerkingssnelheid voor videoformaten van hoge kwaliteit, een essentieel aspect voor servers en werkstations bij videoproductie en -bewerking. Het evalueert hoe systemen RAW-videobestanden beheren, wat de workflowefficiëntie en productiviteit in mediaproductieomgevingen beïnvloedt.

In de Blackmagic RAW Speed ​​Test laat de Grando Server H100 sterke CPU-prestaties zien bij het decoderen van 8K RAW-video, maar schiet tekort bij CUDA-gebaseerde activiteiten, aangezien de kleinere T1000 dat in dit systeem wel aankon. Systemen met GPU's zoals de RTX 4090 en RTX 6000 Ada bieden DirectX-ondersteuning in Windows, terwijl de op ondernemingen gerichte GPU's die ondersteuning niet standaard hebben.

Blackmagic RAW-snelheidstest Grote server
(AMD 7995WX, 2x H100)
Grando-server
(TR W5995WX, 512GB, 6x 4090)
Grando-werkstation
(TR-3975WX, 512 GB, 4x A100)
Supermicro AS-2115HV-TNRT (AMD 7995WX, 4x RTX 6000 Ada)
8K CPU 156 FPS 132 FPS 135 FPS 132 fps
8K CUDA 144 FPS 345 FPS 309 FPS 664 fps

Compressie met 7 ritsen

De 7-zip Compression benchmark test de efficiëntie van een systeem bij het verwerken van datacompressie en decompressie, wat cruciaal is voor het beheren van grote datasets en het optimaliseren van opslag. Deze benchmark weerspiegelt de prestaties van servers en werkstations bij data-intensieve operaties, waarbij snelheid en efficiëntie bij datamanipulatie van cruciaal belang zijn.

Hier, de Grando Servers leverde de beste compressie- en decompressieresultaten van de geteste systemen. Echter, qua algehele efficiëntie komt de overgeklokte Supermicro AS-2115HV-TNRT-configuratie in de buurt.

7-Zip Compressie Benchmark (Hoger is beter) Grote server
(AMD 7995WX, 2x H100)
Grando-server
(TR W5995WX, 512GB, 6x 4090)
Grando-werkstation
(TR-3975WX, 512 GB, 4x A100)
Supermicro AS-2115HV-TNRT
(AMD 7995WX, 4x RTX 6000 Ada)
Supermicro AS-2115HV-TNRT – Overklokt
(AMD 7995WX, 4x RTX 6000 Ada)
Comprimeren
Huidig ​​​​CPU-gebruik 5,582% 3,379% 3,439% 5,571% 6,456%
Huidige beoordeling/gebruik 8.627 GIP'S 7.630 GIP'S 7.094 GIP'S 7.835 GIP'S 9.373 GIP'S
Nominale stroom 481.539 GIP'S 257.832 GIP'S 243.994 GIP'S 436.490 GIP'S 605.097 GIP'S
Resulterend CPU-gebruik 5,561% 3,362% 3,406% 5,599% 6,433%
Resulterende beoordeling/gebruik 8.631 GIP'S 7.697 GIP'S 7.264 GIP'S 7.863 GIP'S 9.420 GIP'S
Resulterende beoordeling 480.006 GIP'S 258.756 GIP'S 247.396 GIP'S 440.288 GIP'S 605.984 GIP'S
Decomprimeren
Huidig ​​​​CPU-gebruik 6,270% 6,015% 6,286% 6,223% 6,343%
Huidige beoordeling/gebruik 7.411 GIP'S 5.585 GIP'S 5.434 GIP'S 7.215 GIP'S 9.810 GIP'S
Nominale stroom 464.701 GIP'S 335.958 GIP'S 341.599 GIP'S 449.012 GIP'S 622.250 GIP'S
Resulterend CPU-gebruik 6,238% 6,053% 6,269% 6,213% 6,312%
Resulterende beoordeling/gebruik 7.589 GIP'S 5.603 GIP'S 5.468 GIP'S 7.165 GIP'S 9.834 GIP'S
Resulterende beoordeling 473.375 GIP'S 339.171 GIP'S 342.766 GIP'S 445.130 GIP'S 620.749 GIP'S
Totaal aantal beoordelingen
Totaal CPU-gebruik 5,900% 4,708% 4,837% 5,906% 6,373%
Totale beoordeling/gebruik 8.110 GIP'S 6.650 GIP'S 6.366 GIP'S 7.514 GIP'S 9.627 GIP'S
Totale beoordeling 476.690 GIP'S 298.963 GIP'S 295.081 GIP'S 442.709 GIP'S 613.366 GIP'S

Y-Cruncher

Y-Cruncher is een computationele benchmark die het vermogen van een systeem test om complexe wiskundige bewerkingen uit te voeren, waarbij Pi nauwkeurig wordt berekend tot biljoenen cijfers. Deze benchmark geeft de rekenkracht van servers en werkstations aan, met name voor gebruik in wetenschappelijk onderzoek en simulaties die intensief rekenwerk vereisen.

In Y-Cruncher blinkt de Grando Server H100-configuratie uit in totale rekentijd voor het berekenen van Pi over alle digitniveaus. Het hoge core-aantal van de AMD Threadripper PRO 7995WX zorgt ervoor dat dit systeem vooroploopt bij CPU-intensieve taken. De overgeklokte Supermicro AS-2115HV-TNRT-configuratie verkleint de kloof echter aanzienlijk, wat de voordelen van geoptimaliseerde prestatie-afstemming voor deze workloads laat zien.

Y-Cruncher (totale rekentijd) Grote server
(AMD 7995WX, 2x H100)
Grando-server
(TR W5995WX, 512GB, 6x 4090)
Grando-werkstation
(TR-3975WX, 512 GB, 4x A100)
Supermicro AS-2115HV-TNRT (AMD 7995WX, 4x RTX 6000 Ada) Supermicro AS-2115HV-TNRT – Overlock (AMD 7995WX, 4x RTX 6000 Ada)
1 miljard cijfers 7.523 seconden 11.023 seconden 11.759 seconden 8.547 seconden 6.009 seconden
2.5 miljard cijfers 15.392 seconden 28.693 seconden 32.073 seconden 17.493 seconden 13.838 seconden
5 miljard cijfers 29.420 seconden 61.786 seconden 69.869 seconden 33.584 seconden 27.184 seconden
10 miljard cijfers 60.089 seconden 130.547 seconden 151.820 seconden 67.849 seconden 58.283 seconden
25 miljard cijfers 214.246 seconden 353.858 seconden 425.824 seconden 182.880 seconden 161.913 seconden
50 miljard cijfers 594.939 seconden 788.912 seconden 971.086 seconden 417.853 seconden NB

y-cruncher BBP

Deze y-cruncher benchmark maakt gebruik van de Bailey-Borwein-Plouffe (BBP) formules om enorme hexadecimale cijfers van Pi te berekenen, waarbij de totale rekentijd, het gebruik en de multi-core efficiëntie van de CPU worden gemeten.

De y-cruncher BBP-benchmark benadrukt de efficiëntie van de Grando Server H100 bij het verwerken van enorme rekentaken. In alle tests presteert de Grando Server goed en behaalt de snelste totale rekentijd voor 1 BBP- en 10 BBP-berekeningen. De multi-core-efficiëntie in de 100 BBP-test, met 98.68%, is iets lager dan de Supermicro AS-2115HV-TNRT-systemen, maar nog steeds zeer effectief. De overgeklokte Supermicro-configuratie overtreft de standaard Supermicro in totale tijd voor alle BBP-niveaus. Toch leidt de Grando H100 consequent in real-world rekensnelheid voor kleinere BBP-taken, waarschijnlijk vanwege de geoptimaliseerde multi-threading-mogelijkheden en snelle contextwisseling.

Wat betreft CPU-gebruik vertonen de Supermicro-systemen echter een iets betere kernefficiëntie, wat erop wijst dat ze hun architectuur mogelijk effectiever benutten voor aanhoudende parallelle workloads.

criterium Grote server
(AMD 7995WX, 2x H100)
Supermicro AS-2115HV-TNRT
(AMD 7995WX, 4x RTX 6000 Ada)
Supermicro AS-2115HV-TNRT – Overlock
(AMD 7995WX, 4x RTX 6000 Ada)
1 BBP
  • Totale tijd: 0.173 seconden
  • CPU-gebruik: 6,140.43%
  • Multi-core-efficiëntie: 31.98%
  • Totale tijd: 0.256 seconden
  • CPU-gebruik: 7,061.79%
  • Multi-core-efficiëntie: 36.78%
  • Totale tijd: 0.178 seconden
  • CPU-gebruik: 3,968.01%
  • Multi-core-efficiëntie: 41.33%
10 BBP
  • Totale tijd: 1.301 seconden
  • CPU-gebruik: 16,590.73%
  • Multi-core-efficiëntie: 84.41%
  • Totale tijd: 2.006 seconden
  • CPU-gebruik: 17,317.36%
  • Multi-core-efficiëntie: 90.19%
  • Totale tijd: 1.458 seconden
  • CPU-gebruik: 8,574.02%
  • Multi-core-efficiëntie: 89.31%
100 BBP
  • Totale tijd: 13.966 seconden
  • CPU-gebruik: 18,846.58%
  • Multi-core-efficiëntie: 98.68%
  • Totale tijd: 21.434 seconden
  • CPU-gebruik: 18,989.11%
  • Multi-core-efficiëntie: 98.90%
  • Totale tijd: 15.876 seconden
  • CPU-gebruik: 9,488.48%
  • Multi-core-efficiëntie: 98.84%

Geekbench 6

Geekbench 6 meet de rekenprestaties van CPU's en GPU's, waarbij zowel single-core als multi-core mogelijkheden en grafische verwerkingskracht worden omvat. Deze benchmark is essentieel voor het beoordelen van de algehele computerefficiëntie van servers en werkstations voor verschillende taken, waaronder simulaties, gegevensanalyse en grafische weergave.

De Geekbench 6-resultaten laten zien dat de Grando Server H100 een toppresteerder is in multi-core CPU-taken, dankzij zijn 96-core processor. In GPU-scores overtreft de H100-configuratie echter de Supermicro AS-2115HV-TNRT, die de RTX 6000 Ada GPU's benut voor superieure grafische prestaties.

Geekbench 6 (hoger is beter) Grote server
(AMD 7995WX, 2x H100)
Grando-server (TR W5995WX, 512 GB, 6x 4090) Grando-werkstation (TR 3975WX, 512 GB, 4x A100) Supermicro AS-2115HV-TNRT
(AMD 7995WX, 4x RTX 6000 Ada)
CPU Single-Core 2,893 2,127 2,131 2,875
CPU multi-core 28,600 21,621 20,411 24,985
GPU 298,220 294,894 193,447 307,510

Cinebench R23

Cinebench R23 meet de weergavemogelijkheden van de CPU, waarbij de nadruk ligt op single-core en multi-core prestaties. Het is een essentiële maatstaf voor het evalueren van hoe goed een server of werkstation kan presteren bij het maken van inhoud, 3D-rendering en andere CPU-intensieve taken. De MP Ratio (multi-core performance ratio) geeft verder inzicht in hoe effectief een systeem zijn meerdere cores gebruikt.

De H100-configuratie is toonaangevend in multi-core prestaties, waarbij gebruik wordt gemaakt van het enorme aantal cores van de Threadripper PRO 7995WX. De single-core prestaties zijn echter vergelijkbaar met die van andere systemen. De MP Ratio benadrukt de schaalbaarheid van de 7995WX in multi-threaded toepassingen. Toch voorkomt de GPU-agnostische aard van deze benchmark dat de H100-configuratie GPU-gerelateerde beperkingen vertoont, waardoor deze over de hele linie competitiever lijkt.

Cinebench R23
(Hoger is beter)
Grote server
(AMD 7995WX, 2x H100)
Grando-server (TR W5995WX, 512 GB, 6x 4090) Grando-werkstation (TR 3975WX, 512 GB, 4x A100) Supermicro AS-2115HV-TNRT (AMD 7995WX, 4x RTX 6000 Ada) Supermicro AS-2115HV-TNRT – Overlock (AMD 7995WX, 4x RTX 6000 Ada)
CPU multi-core  159,930 pt 73,556 punten 49,534 punten 111,792 pt 132,044 punt
CPU Single-Core 1,876 punten 1,484 punten 1,468 punten 1,864 punt 1,887 punt
MP-verhouding 85.26 x 49.56x 33.75x 59.98x 69.99x

GPU directe opslag

Een van de tests die we op deze server hebben uitgevoerd, was de Magnum IO GPU Direct Storage (GDS)-test. GDS is een functie die is ontwikkeld door NVIDIA waarmee GPU's de CPU kunnen omzeilen bij het benaderen van gegevens die zijn opgeslagen op NVMe-schijven of andere snelle opslagapparaten. In plaats van gegevens via de CPU en het systeemgeheugen te routeren, maakt GDS directe communicatie tussen de GPU en het opslagapparaat mogelijk, wat de latentie aanzienlijk vermindert en de gegevensdoorvoer verbetert.

Hoe GPU Direct Storage werkt

Traditioneel, wanneer een GPU gegevens verwerkt die zijn opgeslagen op een NVMe-schijf, moeten de gegevens eerst door de CPU en het systeemgeheugen reizen voordat ze de GPU bereiken. Dit proces introduceert knelpunten, omdat de CPU een tussenpersoon wordt, latentie toevoegt en waardevolle systeembronnen verbruikt. GPU Direct Storage elimineert deze inefficiëntie door de GPU in staat te stellen om rechtstreeks vanaf het opslagapparaat toegang te krijgen tot gegevens via de PCIe-bus. Dit directe pad vermindert de overhead die gepaard gaat met gegevensverplaatsing, wat snellere en efficiëntere gegevensoverdrachten mogelijk maakt.

AI-workloads, met name die met deep learning, zijn zeer data-intensief. Het trainen van grote neurale netwerken vereist doorgaans de verwerking van terabytes aan data, en elke vertraging in dataoverdracht kan leiden tot onderbenutte GPU's en langere trainingstijden. GPU Direct Storage pakt deze uitdaging aan door ervoor te zorgen dat data zo snel mogelijk naar de GPU wordt geleverd, waardoor inactieve tijd wordt geminimaliseerd en de rekenefficiëntie wordt gemaximaliseerd.

Bovendien is GDS met name gunstig voor workloads die het streamen van grote datasets omvatten, zoals videoverwerking, natuurlijke taalverwerking of realtime-inferentie. Door de afhankelijkheid van de CPU te verminderen, versnelt GDS de databeweging en maakt CPU-bronnen vrij voor andere taken, wat de algehele systeemprestaties verder verbetert.

We hebben de server grondig getest door een uitgebreide GDSIO-evaluatie uit te voeren op de Comino Grando, waarbij we verschillende configuraties hebben onderzocht om de prestaties in verschillende scenario's te beoordelen. Dit type testen is cruciaal voor een server van dit kaliber, omdat het werkstationachtige omgevingen simuleert en inzicht biedt in de mogelijkheden ervan tijdens ablatieve tests voor het trainen van grote modellen. Voor opslag hebben we gebruikgemaakt van een Solide D7-PS1010 Gen5 SSD.

Testconfiguratiematrix

We hebben systematisch elke combinatie van de volgende parameters getest:

  • Blokformaten: 1M, 128K, 64K, 16K, 8K
  • Aantal draden: 128, 64, 32, 16, 8, 4, 1
  • Aantal banen: 16, 8, 4, 1
  • Batchgroottes: 32, 16, 8, 4, 1

Voor deze review hebben we ons gericht op sequentiële lees- en schrijfdoorvoer. We hebben elke GDSIO-workload uitgevoerd op de gegeven blokgrootte en thread-aantal over meerdere job- en batchgroottes. De gerapporteerde cijfers zijn de gemiddelden van elke job- en batch-aantalcombinatie.

Performance Analysis

AI-workloads, met name in de trainingsfase, vereisen efficiënte verwerking van enorme hoeveelheden data. Deze workloads profiteren doorgaans van grote blokgroottes die de doorvoer kunnen maximaliseren bij het lezen van trainingsdatasets of het schrijven van modelcontrolepunten. In onze uitgebreide GPU Direct Storage-capaciteitstests hebben we ons gericht op verschillende I/O-patronen en -configuraties om de prestatiekenmerken van het systeem te begrijpen.

De sequentiële I/O-prestaties met 1M blokgroottes lieten indrukwekkende resultaten zien in onze testconfiguraties. Het systeem behaalde een opmerkelijke sequentiële leesdoorvoer van 8.56 GiB/s (1M blokgrootte, batchgrootte 4, IO-diepte 128 en 128 threads over 16 taken). Dit prestatieniveau is met name gunstig voor workloads waarbij grote, vooraf getrainde modellen worden geladen, uitgebreide datasets worden verwerkt tijdens trainingsfasen of sequentiële datastromen worden verwerkt, zoals videoverwerking voor computer vision-toepassingen.

Voor sequentiële schrijfbewerkingen leverde het systeem 7.57 GiB/s (1M blokgrootte, batchgrootte 8, IO-diepte 16, met 16 threads verdeeld over 8 taken), waardoor het zeer effectief is voor scenario's waarbij frequente modelcontroles nodig zijn tijdens gedistribueerde training, het opslaan van tussenresultaten of het schrijven van verwerkte gegevens in batchbewerkingen.

Conclusie

De Comino Grando H100-server is een indrukwekkende toevoeging aan de line-up van het bedrijf en biedt een uniek alternatief voor hun andere configuraties. Aangedreven door een AMD Threadripper PRO 7995WX CPU en 512 GB DDR5-geheugen, uitbreidbaar tot 1 TB, wordt het Grando-systeem gekenmerkt door twee NVIDIA H100 NVL GPU's. Hoewel deze opstelling uitzonderlijke prestaties levert voor AI-gestuurde workflows, gaat dit wel ten koste van GPU-prestaties in traditionele renderingbenchmarks (zoals Luxmark en OctaneBench), waar systemen zoals de met RTX 4090 uitgeruste Grando Server en RTX 6000 Ada-aangedreven Supermicro-configuraties vooroplopen. Dat gezegd hebbende, overtreffen de prestaties van de H100 in CPU-intensieve tests zoals Blender's multi-core rendering, 7-Zip-compressie en Y-Cruncher consequent de andere geteste systemen.

Wat betreft het ontwerp kan de Comino Grando H100 Server hoogwaardige componenten in een compacte vormfactor huisvesten, iets dat vaak een uitdaging is voor standaardbehuizingen. Dankzij het aangepaste Direct Liquid Cooling (DLC)-systeem kan de server eenvoudig configuraties zoals dubbele NVIDIA H100 GPU's aan. Deze geavanceerde koeloplossing houdt de warmte onder controle en zorgt ervoor dat het systeem stabiel blijft tijdens veeleisende, hoogwaardige taken. Wat dit nieuwe Comino-systeem met name uniek maakt, is hoe het erin slaagt om voornamelijk hardware van consumentenkwaliteit te gebruiken om een ​​oplossing te creëren die zowel efficiënt als relatief betaalbaar is, waardoor het een aantrekkelijke optie is voor professionals en ondernemingen die de GPU-kracht willen maximaliseren zonder de bank te breken.

Over het geheel genomen is de Comino Grando H100 een uitstekende keuze voor bedrijven en professionals die prioriteit geven aan AI-optimalisatie, computationele taken en betrouwbaarheid in veeleisende omgevingen. Het unieke ontwerp en de koelinnovaties bieden flexibiliteit en prestaties voor AI-gestuurde workloads. Alternatieve configuraties zoals de met RTX 4090 uitgeruste Grando Server of RTX 6000 Ada-aangedreven systemen zijn echter mogelijk geschikter voor gebruikers die zich richten op traditionele GPU-rendering.

Comino-systemen

Neem contact op met StorageReview

Nieuwsbrief | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS Feed