Comino Grando H100 Server erbjuder 2x NVIDIA H100 GPU:er, vätskekylning och AMD Threadripper PRO 7995WX, designad för AI- och HPC-arbetsbelastningar.
Comino Grando H100 Server är den senaste utgåvan i företagets sortiment. Den vänder sig till användare som behöver kraft med förfinad, vätskekyld precision. Denna Grando-konfiguration introducerar olika hårdvaru- och designförbättringar. Den är dock fortfarande väl lämpad för applikationer med hög efterfrågan, från AI och maskininlärning till komplex dataanalys och visuell rendering.
I vår nya H100-konfiguration har Comino valt en kraftfull CPU: AMD Ryzen Threadripper PRO 7995WX, som är en utmärkelse för högkärniga, högtrådiga datoruppgifter.
Denna 96-kärniga CPU är idealisk för parallell bearbetning, där användare kan köra omfattande datauppsättningar eller hantera flertrådade applikationer som trivs med fler kärnor och trådar. ASUS SAGE WRX90 moderkort kompletterar denna CPU och tillhandahåller arkitekturen för att stödja H100:s förbättrade minnes- och anslutningsbehov.
Comino Grando H100: Processor och minnesalternativ
Med 96 kärnor/192 trådar, Zen 4-arkitektur och avancerad 5nm-teknik är den byggd för att enkelt hantera uppgifter som 3D-rendering, videoredigering och komplexa simuleringar. Den har en basklocka på 2.5 GHz (ökning upp till 5.1 GHz), vilket gör den idealisk för flertrådiga och enkeltrådade uppgifter. Den stöder upp till 2 TB DDR5-minne över åtta kanaler, vilket ger enorm bandbredd för massiva datamängder. Dessutom innebär dess kompatibilitet med WRX90-plattformen gott om PCIe Gen5-banor för höghastighetslagring och GPU-inställningar.
GPU-uppsättningen i denna Grando-modell har två NVIDIA H100 NVL GPU: er med 94 GB minne vardera. Denna konfiguration med dubbla GPU ger imponerande 188 GB GPU-minne, vilket förbättrar prestandan för krävande applikationer. Det är särskilt fördelaktigt för proffs inom artificiell intelligens, 3D-rendering och vetenskapliga simuleringar, där GPU-minnesbegränsningar kan påverka produktiviteten. Grando-modellen är ett utmärkt val för dem som behöver kraftfulla datorresurser för att effektivt hantera stora datamängder och komplexa uppgifter. Och tack vare Cominos vätskekylning kan dessa kraftfulla GPU:er arbeta i en formfaktor med en plats, och uppnå densiteter som traditionella luftkylda system inte kan matcha.
NVIDIA H100 NVL GPU-specifikationer
FP64 | 30 teraFLOPs |
FP64 Tensor Core | 60 teraFLOPs |
FP32 | 60 teraFLOPs |
TF32 Tensor Core* | 835 teraFLOPs |
BFLOAT16 Tensor Core* | 1,671 teraFLOPS |
FP16 Tensor Core* | 1,671 teraFLOPS |
FP8 Tensor Core* | 3,341 teraFLOPS |
INT8 Tensor Core* | 3,341 TOPS |
GPU-minne | 94GB |
GPU-minnes bandbredd | 3.9 TB/s |
dekodrar | 7 NVDEC 7 JPEG |
Max Thermal Design Power (TDP) | 350-400W (konfigurerbar) |
Multi-instans GPU:er | Upp till 7 MIGS @ 12 GB vardera |
Formfaktor | PCIe luftkyld med dubbla spår |
Interconnect | NVIDIA NVLink: 600 GB/s PCIe Gen5: 128 GB/s |
Serveralternativ | Partner och NVIDIA-certifierade system med 1–8 GPU:er |
NVIDIA AI Enterprise | Vad ingår |
Användare kan välja mellan höghastighetsminne i skrivbordsklass med Kingston Fury (perfekt för uppgifter med lägre latens) eller en större kapacitet på 512 GB med Kingston Server Premier för tillförlitlighet i företagsklass och högre minnesintensiv arbetsbelastning.
Comino Grando H100: Kyla och kraft
Liksom med tidigare Grando-iterationer handlar designfilosofin här lika mycket om praktiska som om prestanda. Dess avancerade interna kylsystem har en specialbyggd vattenblockuppsättning som håller alla komponenter svala, även under tunga arbetsbelastningar.
Detta vätskekylningssystem säkerställer att GPU:er bibehåller toppprestanda utan termisk strypning samtidigt som ljudnivåerna minskar. Till skillnad från konventionella serverbyggen som förlitar sig på stora, bullriga fläktar, är Grandos vätskekylningslösning effektiv och väldesignad. Kylarkitekturen inkluderar ett centraliserat vattenfördelningsblock med droppfria snabbkopplingar, vilket möjliggör enkel service med minimal risk för läckor eller spill.
Med fyra separata 1600W nätaggregat kan Grando H100 upprätthålla drifttid även vid strömavbrott, en funktion som är avgörande för företagsmiljöer där stilleståndstider måste undvikas till varje pris. Dessa nätaggregat samarbetar sömlöst för att säkerställa konsekvent kraftleverans, även under extrema belastningar från 7995WX och dubbla H100 GPU:er.
Comino Grando H100: Design och bygg
Utöver kraft och kylning är Comino Grando H100:s layout organiserad för att ge enkel åtkomst till viktiga komponenter. Vi har granskat designen och konstruktionen i detalj i vår tidigare Comino Grando recension, så vi täcker höjdpunkterna.
Frontpanelen har en omfattande I/O-array, inklusive ljuduttag, flera USB-portar och nätverksanslutningsmöjligheter, vilket gör den lämplig för rackmonterade miljöer och fristående användning. Den inbyggda LED-displayen är mer än bara en dekorativ touch. Den levererar telemetridata i realtid, inklusive luft- och kylvätsketemperaturer, fläkthastigheter och pumpstatus.
De bakgrundsbelysta menyknapparna gör det enkelt för användare att navigera genom denna information. De ger också tillgång till djupare inställningar och diagnostik för övervakning och justeringar, vilket förbättrar användbarheten och bekvämligheten för regelbundet underhåll.
Inuti är varje komponent arrangerad för att förhindra rörelse under transport, med ytterligare stöd runt känsliga delar som GPU:er och SSD:er. Detta återspeglar Grandos engagemang för att säkerställa att deras servrar är hållbara och säkert levererade.
Comino-servern är också enkel att underhålla och serva. Kablarna, rören och komponenterna är mycket snyggt dragna, vilket ger interiören ett rent, nästan modulärt utseende. Detta spelar också en praktisk roll för luftflödet och enkel underhåll, vilket gör det lättare att isolera och adressera alla komponenter utan att störa resten av installationen.
Comino Grando Server H100 Prestanda
Nu ska vi fördjupa oss i hur dessa byggval påverkar verkliga prestanda. Vi kommer att jämföra den här installationen med de två Comino Grando-modellerna som vi granskade tidigare i år och diskutera specifika riktmärken för beräknings- och grafiska uppgifter. Vi kommer också att jämföra det med Supermicro AS-2115HV-TNRT.
Testade system
Vår Grando Server H100 build innehåller AMD Threadripper PRO 7995WX-processorn, som ger 96 kärnor och 192 trådar, vilket gör den till den mest kärntäta processorn i denna serie. Systemet drivs av 512 GB Kingston Server Premier DDR5-minne, designat för arbetsbelastningar med hög bandbredd och intensiv multitasking. GPU-inställningen inkluderar två NVIDIA H100 NVL GPU: er med 94 GB minne vardera.
Smakämnen Supermicro AS-2115HV-TNRT Systemet använder samma AMD Threadripper PRO 7995WX men inkluderar 520 GB DDR5-4800 ECC-minne och fyra NVIDIA RTX 6000 Ada GPU:er. Dessa GPU:er är inriktade på avancerad grafisk rendering och professionella visualiseringsuppgifter. Supermicro-systemet har även en Micron 7450 Max 3.2TB NVMe.
Thoch Grando Server vi recenserade tidigare i år innehöll AMD Threadripper PRO 5995WX-processor, en 64-kärnig, 128-trådig CPU, tillsammans med 512 GB RAM och sex NVIDIA RTX 4090 GPU:er. Den här konfigurationen fokuserade mycket på grafisk prestanda, med RTX 4090s som levererar hög genomströmning för rendering och generella GPU-arbetsbelastningar. Systemet inkluderade också 4x 1600W PSU och en 2TB NVMe SSD.
Det andra Comino-systemet är det 3975W-drivna Grando arbetsstation, som erbjuder 32 kärnor och 64 trådar. Dess GPU-konfiguration består av fyra NVIDIA A100 GPU:er, som betonar en balans mellan datorfokuserade arbetsbelastningar och visualiseringsuppgifter. Den parades ihop med 512 GB RAM och en 2TB NVMe SSD, vilket gjorde den mindre beräkningstät än de nyare systemen men klarar av krävande arbetsflöden.
Det är viktigt att notera att den tidigare Grando Server som vi granskade sannolikt kommer att leverera överlägsen prestanda i GPU-fokuserade riktmärken, särskilt de som är relaterade till renderings- och visualiseringsuppgifter. RTX 4090 GPU:erna är designade för avancerade grafiska arbetsbelastningar, vilket ger betydande beräkningskraft för sådana applikationer.
Nvidia H100 GPU:erna är specialbyggda datoracceleratorer som medvetet utelämnar skärmutgångar och konsumentfunktioner, vilket gör dem enbart fokuserade på datacenterarbetsbelastningar. Till skillnad från sina motsvarigheter till Consumer och Workstation, inkluderar H100s inte bildskärmsportar eller Windows-grafikdrivrutiner eftersom de är designade för huvudlös serverdrift. Frånvaron av NVENC-kodningshårdvara understryker ytterligare deras beräkningsbara natur, och optimerar formutrymmet för AI- och HPC-uppgifter snarare än mediakodning.
Referensresultat
Blender 4.0
Vårt första riktmärke är Blender – en omfattande svit för skapande av 3D med öppen källkod för modellering, animering, simulering och renderingsprojekt. Blender-riktmärken utvärderar ett systems prestanda vid rendering av komplexa scener, en avgörande aspekt för proffs inom visuella effekter, animation och spelutveckling. Detta riktmärke mäter CPU- och GPU-renderingskapacitet, vilket är relevant för servrar och arbetsstationer som är designade för avancerad grafikbearbetning och beräkningsuppgifter.
Här utmärker Grando H100 Server-konfigurationen i CPU-baserade tester på grund av det höga antalet kärnor i AMD Threadripper PRO 7995WX. Det överträffar konsekvent de andra systemen som Supermicro AS-2115HV-TNRT när det gäller rendering av uppgifter som Monster, Junkshop och Classroom-scener. GPU-testerna avslöjar dock begränsningarna hos H100 GPU:er i arbetsbelastningar för grafikrendering. Medan H100-konfigurationen ger anständiga resultat, presterar system med mer generella GPU:er betydligt bättre, som RTX 6000 Ada eller RTX 4090. Detta belyser H100:s specialisering inom beräkningsuppgifter snarare än grafiska uppgifter.
Blandare (Sampler per minut; högre är bättre) |
Grando Server (AMD 7995WX, 2x H100) |
Supermicro AS-2115HV-TNRT (AMD 7995WX, 4x RTX 6000 Ada) | Supermicro AS-2115HV-TNRT överklockad (AMD 7995WX, 4x RTX 6000 Ada) |
Blender 4.2 CPU-tester | |||
Monster | 1,352.19 | 931 | 969 |
Junkshop | 969.44 | 682 | 640 |
Klassrum | 683.30 | 451 | 472 |
Blender 4.2 GPU-test | |||
Monster | 2,521 | 5,745 | Ja |
Junkshop | 1,888.28 | 2,698 | Ja |
Klassrum | 1,401.96 | 2,824 | Ja |
De tidigare granskade Grando-servrarna testades under Blender version 4.0. Här är resultaten:
Blandare (Sampler per minut; högre är bättre) |
Grando Server (TR W5995WX, 512 GB, 6x 4090) |
Grando arbetsstation (TR 3975WX, 512 GB, 4x A100) |
Blender 4.0 CPU-tester | ||
Monster | 568.02 | 334.40 |
Junkshop | 386.53 | 231.90 |
Klassrum | 293.91 | 174.21 |
Blender 4.0 GPU-test | ||
Monster | 5,880.71 | 1,656.34 |
Junkshop | 2,809.36 | 1,137.73 |
Klassrum | 2,895.54 | 953.46 |
Blackmagic RAW Speed Test
Blackmagic RAW Speed Test mäter bearbetningshastigheten för högkvalitativa videoformat, en viktig aspekt för servrar och arbetsstationer i videoproduktion och -redigering. Den utvärderar hur system hanterar RAW-videofiler, vilket påverkar arbetsflödeseffektiviteten och produktiviteten i medieproduktionsmiljöer.
I Blackmagic RAW Speed Test demonstrerar Grando Server H100 stark CPU-prestanda i 8K RAW-videoavkodning men faller till kort i CUDA-baserade aktiviteter eftersom den mindre T1000 hanterade det i detta system. System med GPU:er som RTX 4090 och RTX 6000 Ada erbjuder DirectX-stöd i Windows, medan de företagsfokuserade GPU:erna inte har det inbyggda stödet.
Blackmagic RAW Speed Test | Grando Server (AMD 7995WX, 2x H100) |
Grando Server (TR W5995WX, 512 GB, 6x 4090) |
Grando arbetsstation (TR 3975WX, 512 GB, 4x A100) |
Supermicro AS-2115HV-TNRT (AMD 7995WX, 4x RTX 6000 Ada) |
8K CPU | 156 FPS | 132 FPS | 135 FPS | 132 fps |
8K CUDA | 144 FPS | 345 FPS | 309 FPS | 664 fps |
7-zip-komprimering
7-zip Compression benchmark testar ett systems effektivitet när det gäller att hantera datakomprimering och dekomprimering, vilket är avgörande för att hantera stora datamängder och optimera lagring. Detta riktmärke återspeglar prestanda hos servrar och arbetsstationer i dataintensiva operationer, där snabbhet och effektivitet i datamanipulation är avgörande.
Här, Grando Servrar levererade de bästa kompressions- och dekompressionsresultaten bland de testade systemen. Men i övergripande effektivitet kommer den överklockade Supermicro AS-2115HV-TNRT-konfigurationen nära.
7-Zip Compression Benchmark (Högre är bättre) | Grando Server (AMD 7995WX, 2x H100) |
Grando Server (TR W5995WX, 512 GB, 6x 4090) |
Grando arbetsstation (TR 3975WX, 512 GB, 4x A100) |
Supermicro AS-2115HV-TNRT (AMD 7995WX, 4x RTX 6000 Ada) |
Supermicro AS-2115HV-TNRT – Överklockad (AMD 7995WX, 4x RTX 6000 Ada) |
komprimera | |||||
Aktuell CPU-användning | 5,582% | 3,379% | 3,439% | 5,571% | 6,456% |
Aktuellt betyg/användning | 8.627 XNUMX GIPS | 7.630 XNUMX GIPS | 7.094 XNUMX GIPS | 7.835 XNUMX GIPS | 9.373 XNUMX GIPS |
Ström | 481.539 XNUMX GIPS | 257.832 XNUMX GIPS | 243.994 XNUMX GIPS | 436.490 XNUMX GIPS | 605.097 XNUMX GIPS |
Resulterande CPU-användning | 5,561% | 3,362% | 3,406% | 5,599% | 6,433% |
Resulterande betyg/användning | 8.631 XNUMX GIPS | 7.697 XNUMX GIPS | 7.264 XNUMX GIPS | 7.863 XNUMX GIPS | 9.420 XNUMX GIPS |
Resulterande betyg | 480.006 XNUMX GIPS | 258.756 XNUMX GIPS | 247.396 XNUMX GIPS | 440.288 XNUMX GIPS | 605.984 XNUMX GIPS |
Dekomprimering | |||||
Aktuell CPU-användning | 6,270% | 6,015% | 6,286% | 6,223% | 6,343% |
Aktuellt betyg/användning | 7.411 XNUMX GIPS | 5.585 XNUMX GIPS | 5.434 XNUMX GIPS | 7.215 XNUMX GIPS | 9.810 XNUMX GIPS |
Ström | 464.701 XNUMX GIPS | 335.958 XNUMX GIPS | 341.599 XNUMX GIPS | 449.012 XNUMX GIPS | 622.250 XNUMX GIPS |
Resulterande CPU-användning | 6,238% | 6,053% | 6,269% | 6,213% | 6,312% |
Resulterande betyg/användning | 7.589 XNUMX GIPS | 5.603 XNUMX GIPS | 5.468 XNUMX GIPS | 7.165 XNUMX GIPS | 9.834 XNUMX GIPS |
Resulterande betyg | 473.375 XNUMX GIPS | 339.171 XNUMX GIPS | 342.766 XNUMX GIPS | 445.130 XNUMX GIPS | 620.749 XNUMX GIPS |
Totala betyg | |||||
Total CPU-användning | 5,900% | 4,708% | 4,837% | 5,906% | 6,373% |
Totalt betyg/användning | 8.110 XNUMX GIPS | 6.650 XNUMX GIPS | 6.366 XNUMX GIPS | 7.514 XNUMX GIPS | 9.627 XNUMX GIPS |
Totalt betyg | 476.690 XNUMX GIPS | 298.963 XNUMX GIPS | 295.081 XNUMX GIPS | 442.709 XNUMX GIPS | 613.366 XNUMX GIPS |
Y-Cruncher
Y-Cruncher är ett beräkningsriktmärke som testar ett systems förmåga att hantera komplexa matematiska operationer, exakt beräkna Pi till biljoner siffror. Detta riktmärke indikerar beräkningskraften hos servrar och arbetsstationer, särskilt för användning i vetenskaplig forskning och simuleringar som kräver intensiv sifferknäppning.
I Y-Cruncher utmärker Grando Server H100-konfigurationen i total beräkningstid för att beräkna Pi över alla siffernivåer. AMD Threadripper PRO 7995WX:s höga antal kärnor säkerställer att detta system leder i CPU-intensiva uppgifter. Den överklockade Supermicro AS-2115HV-TNRT-konfigurationen minskar dock gapet avsevärt, vilket visar upp fördelarna med optimerad prestandajustering för dessa arbetsbelastningar.
Y-Cruncher (total beräkningstid) | Grando Server (AMD 7995WX, 2x H100) |
Grando Server (TR W5995WX, 512 GB, 6x 4090) |
Grando arbetsstation (TR 3975WX, 512 GB, 4x A100) |
Supermicro AS-2115HV-TNRT (AMD 7995WX, 4x RTX 6000 Ada) | Supermicro AS-2115HV-TNRT – överlåst (AMD 7995WX, 4x RTX 6000 Ada) |
1 miljard siffror | 7.523 sekunder | 11.023 sekunder | 11.759 sekunder | 8.547 sekunder | 6.009 sekunder |
2.5 miljard siffror | 15.392 sekunder | 28.693 sekunder | 32.073 sekunder | 17.493 sekunder | 13.838 sekunder |
5 miljard siffror | 29.420 sekunder | 61.786 sekunder | 69.869 sekunder | 33.584 sekunder | 27.184 sekunder |
10 miljard siffror | 60.089 sekunder | 130.547 sekunder | 151.820 sekunder | 67.849 sekunder | 58.283 sekunder |
25 miljard siffror | 214.246 sekunder | 353.858 sekunder | 425.824 sekunder | 182.880 sekunder | 161.913 sekunder |
50 miljard siffror | 594.939 sekunder | 788.912 sekunder | 971.086 sekunder | 417.853 sekunder | Ja |
y-cruncher BBP
Detta y-cruncher-riktmärke använder Bailey-Borwein-Plouffe (BBP)-formler för att beräkna massiva hexadecimala siffror för Pi, som mäter CPU:ns totala beräkningstid, användning och effektivitet med flera kärnor.
Y-cruncher BBP-riktmärket framhäver Grando Server H100:s effektivitet när det gäller att hantera massiva beräkningsuppgifter. Genom alla tester presterar Grando Server bra och uppnår den snabbaste totala beräkningstiden för 1 BBP och 10 BBP beräkningar. Dess flerkärniga effektivitet i 100 BBP-testet, på 98.68 %, är något lägre än Supermicro AS-2115HV-TNRT-systemen men fortfarande mycket effektiv. Den överklockade Supermicro-konfigurationen överträffar standard Supermicro i total tid för alla BBP-nivåer. Ändå leder Grando H100 konsekvent i den verkliga beräkningshastigheten för mindre BBP-uppgifter, troligtvis på grund av dess optimerade multi-threading-kapacitet och snabba kontextväxling.
Men när det gäller CPU-användning visar Supermicro-systemen något bättre kärnanvändningseffektivitet, vilket indikerar att de kan utnyttja sin arkitektur mer effektivt för ihållande parallella arbetsbelastningar.
riktmärke | Grando Server (AMD 7995WX, 2x H100) |
Supermicro AS-2115HV-TNRT (AMD 7995WX, 4x RTX 6000 Ada) |
Supermicro AS-2115HV-TNRT – överlåst (AMD 7995WX, 4x RTX 6000 Ada) |
1 BBP |
|
|
|
10 BBP |
|
|
|
100 BBP |
|
|
|
Geekbench 6
Geekbench 6 mäter beräkningsprestandan för CPU: er och GPU: er, spänner över enkärniga och flerkärniga funktioner och grafisk processorkraft. Detta riktmärke är viktigt för att bedöma den övergripande beräkningseffektiviteten för servrar och arbetsstationer över olika uppgifter, inklusive simuleringar, dataanalys och grafikrendering.
Geekbench 6-resultaten visar att Grando Server H100 är en högpresterande processor i flerkärniga CPU-uppgifter, tack vare sin 96-kärniga processor. Men i GPU-poäng överträffar H100-konfigurationen Supermicro AS-2115HV-TNRT, som utnyttjar RTX 6000 Ada GPU:er för överlägsen grafisk prestanda.
Geekbench 6 (Höger är bättre) | Grando Server (AMD 7995WX, 2x H100) |
Grando Server (TR W5995WX, 512 GB, 6x 4090) | Grando Workstation (TR 3975WX, 512 GB, 4x A100) | Supermicro AS-2115HV-TNRT (AMD 7995WX, 4x RTX 6000 Ada) |
CPU enkelkärnig | 2,893 | 2,127 | 2,131 | 2,875 |
CPU Multi-Core | 28,600 | 21,621 | 20,411 | 24,985 |
GPU | 298,220 | 294,894 | 193,447 | 307,510 |
Cinebench R23
Cinebench R23 mäter CPU:ns renderingsförmåga, med fokus på enkelkärnig och multikärnig prestanda. Det är ett viktigt riktmärke för att utvärdera hur väl en server eller arbetsstation kan prestera i innehållsskapande, 3D-rendering och andra CPU-intensiva uppgifter. MP-förhållandet (multi-core performance ratio) ger vidare insikt i hur effektivt ett system använder sina flera kärnor.
H100-konfigurationen leder till prestanda med flera kärnor och drar nytta av Threadripper PRO 7995WX:s enorma antal kärnor. Dess enkärniga prestanda är dock i nivå med de andra systemen. MP-förhållandet betonar 7995WX:s skalbarhet i flertrådiga applikationer. Ändå förhindrar detta riktmärkes GPU-agnostiska karaktär att H100-konfigurationen visar några GPU-relaterade begränsningar, vilket gör att den verkar mer konkurrenskraftig över hela linjen.
Cinebench R23 (Högre är bättre) |
Grando Server (AMD 7995WX, 2x H100) |
Grando Server (TR W5995WX, 512 GB, 6x 4090) | Grando Workstation (TR 3975WX, 512 GB, 4x A100) | Supermicro AS-2115HV-TNRT (AMD 7995WX, 4x RTX 6000 Ada) | Supermicro AS-2115HV-TNRT – överlåst (AMD 7995WX, 4x RTX 6000 Ada) |
CPU Multi-Core | 159,930-poäng | 73,556 XNUMX poäng | 49,534 XNUMX poäng | 111,792-poäng | 132,044 poäng |
CPU enkelkärnig | 1,876 XNUMX poäng | 1,484 XNUMX poäng | 1,468 XNUMX poäng | 1,864 poäng | 1,887 poäng |
MP-förhållande | 85.26 x | 49.56x | 33.75x | 59.98x | 69.99x |
GPU direkt lagring
Ett av testerna vi genomförde på den här servern var Magnum IO GPU Direct Storage (GDS)-testet. GDS är en funktion utvecklad av NVIDIA som gör att GPU:er kan kringgå CPU:n när de kommer åt data lagrade på NVMe-enheter eller andra höghastighetslagringsenheter. Istället för att dirigera data genom processorn och systemminnet, möjliggör GDS direkt kommunikation mellan GPU:n och lagringsenheten, vilket avsevärt minskar latensen och förbättrar datagenomströmningen.
Hur GPU Direct Storage fungerar
Traditionellt, när en GPU bearbetar data lagrad på en NVMe-enhet, måste data först färdas genom CPU:n och systemminnet innan de når GPU:n. Denna process introducerar flaskhalsar, eftersom CPU:n blir en mellanhand, lägger till latens och förbrukar värdefulla systemresurser. GPU Direct Storage eliminerar denna ineffektivitet genom att göra det möjligt för GPU:n att komma åt data direkt från lagringsenheten via PCIe-bussen. Denna direkta väg minskar de omkostnader som är förknippade med datarörelser, vilket möjliggör snabbare och mer effektiva dataöverföringar.
AI-arbetsbelastningar, särskilt de som involverar djupinlärning, är mycket dataintensiva. Att träna stora neurala nätverk kräver vanligtvis bearbetning av terabyte med data, och varje fördröjning i dataöverföringen kan leda till underutnyttjade GPU:er och längre träningstider. GPU Direct Storage hanterar denna utmaning genom att säkerställa att data levereras till GPU:n så snabbt som möjligt, vilket minimerar vilotiden och maximerar beräkningseffektiviteten.
Dessutom är GDS särskilt fördelaktigt för arbetsbelastningar som involverar streaming av stora datamängder, såsom videobearbetning, naturlig språkbehandling eller realtidsinferens. Genom att minska beroendet av CPU:n påskyndar GDS datarörelsen och frigör CPU-resurser för andra uppgifter, vilket ytterligare förbättrar den övergripande systemets prestanda.
Vi testade servern grundligt genom att utföra en omfattande GDSIO-utvärdering av Comino Grando, och utforskade olika konfigurationer för att bedöma dess prestanda i olika scenarier. Den här typen av testning är avgörande för en server av denna kaliber, eftersom den simulerar arbetsstationsliknande miljöer och ger insikter om dess kapacitet under ablativa tester för att träna stora modeller. För lagring utnyttjade vi en Solidigm D7-PS1010 Gen5 SSD.
Testar konfigurationsmatris
Vi testade systematiskt varje kombination av följande parametrar:
- Blockstorlekar: 1M, 128K, 64K, 16K, 8K
- Antal trådar: 128, 64, 32, 16, 8, 4, 1
- Antal jobb: 16, 8, 4, 1
- Batchstorlekar: 32, 16, 8, 4, 1
För den här recensionen fokuserade vi på sekventiell läs- och skrivkapacitet. Vi utförde varje GDSIO-arbetsbelastning med dess givna blockstorlek och trådantal över flera jobb- och batchstorlekar. De rapporterade siffrorna är medelvärden för varje jobb- och batch-kombination.
Prestationsanalys
AI-arbetsbelastningar, särskilt i utbildningsfasen, kräver effektiv bearbetning av enorma mängder data. Dessa arbetsbelastningar drar vanligtvis nytta av stora blockstorlekar som kan maximera genomströmningen när du läser träningsdatauppsättningar eller skriver modellkontrollpunkter. I våra omfattande tester av GPU Direct Storage-kapacitet fokuserade vi på olika I/O-mönster och konfigurationer för att förstå systemets prestandaegenskaper.
Den sekventiella I/O-prestandan med 1M blockstorlekar visade imponerande resultat bland våra testkonfigurationer. Systemet uppnådde en anmärkningsvärd sekventiell läskapacitet på 8.56 GiB/s (1M blockstorlek, batchstorlek 4, IO-djup 128 och 128 trådar över 16 jobb). Denna prestandanivå är särskilt fördelaktig för arbetsbelastningar som involverar laddning av stora förtränade modeller, bearbetning av omfattande datauppsättningar under utbildningsfaser eller hantering av sekventiella dataströmmar som videobearbetning för datorseendeapplikationer.
För sekventiella skrivoperationer levererade systemet 7.57 GiB/s (1M blockstorlek, batchstorlek 8, IO-djup 16, med 16 trådar över 8 jobb), vilket gör det mycket effektivt för scenarier som kräver frekvent modellkontroll under distribuerad utbildning, vilket sparar mellanliggande resultat , eller skriva bearbetade data i batchoperationer.
Slutsats
Comino Grando H100-servern är ett imponerande tillägg till företagets sortiment, och erbjuder ett unikt alternativ till deras andra konfigurationer. Drivs av en AMD Threadripper PRO 7995WX CPU och 512 GB DDR5-minne, utbyggbart upp till 1 TB, framhävs Grando-systemet av två NVIDIA H100 NVL GPU:er. Även om den här inställningen ger exceptionell prestanda för AI-drivna arbetsflöden, kommer den på bekostnad av GPU-prestanda i traditionella renderingsriktmärken (som Luxmark och OctaneBench), där system som den RTX 4090-utrustade Grando Server och RTX 6000 Ada-driven Supermicro konfigurationer leder. Som sagt, H100:s prestanda i CPU-intensiva tester som Blenders flerkärniga rendering, 7-Zip-komprimering och Y-Cruncher överträffar konsekvent de andra testade systemen.
När det gäller design kan Comino Grando H100 Server rymma högpresterande komponenter i en kompakt formfaktor, något som ofta är en utmaning för standardchassier. Tack vare sitt anpassade Direct Liquid Cooling-system (DLC) kan servern enkelt hantera konfigurationer som dubbla NVIDIA H100 GPU:er. Denna avancerade kyllösning håller värmen i schack och säkerställer att systemet förblir stabilt under krävande, högpresterande uppgifter. Det som är särskilt unikt med det här nya Comino-systemet är hur det lyckas utnyttja huvudsakligen konsumentklassad hårdvara för att skapa en lösning som är både effektiv och relativt prisvärd, vilket gör det till ett övertygande alternativ för proffs och företag som vill maximera GPU-kraften utan att bryta banken.
Sammantaget är Comino Grando H100 ett utmärkt val för företag och proffs som prioriterar AI-optimering, beräkningsuppgifter och tillförlitlighet i krävande miljöer. Dess unika design- och kylinnovationer erbjuder flexibilitet och prestanda för AI-drivna arbetsbelastningar. Alternativa konfigurationer som den RTX 4090-utrustade Grando Server eller RTX 6000 Ada-drivna system kan dock vara mer lämpade för användare som fokuserar på traditionell GPU-rendering.
Engagera dig med StorageReview
Nyhetsbrev | Youtube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | Rssflöde