I den här detaljerade artikeln tillhandahåller vi verklig NVIDIA® H100 GPU-prestandaanalys för Western Digital OpenFlex™ Data24. Genom att möjliggöra direkta datavägar mellan GPU-minne och lagring, minskar OpenFlex Data24 avsevärt latensen och maximerar bandbredden.
Denna rapport är sponsrad av Western Digital. Alla åsikter och åsikter som uttrycks i denna rapport är baserade på vår opartiska syn på produkten/de produkter som övervägs.
AI är allt som händer nu för tiden, och medan vissa hyperskalare håller på att göra skräddarsydda lösningar på sina AI-dataproblem, har Western Digital (WD) ett svar för oss andra. Western Digital OpenFlex™ Data24™ erbjuder en robust och skalbar lagringslösning för att möta de höga genomströmningskraven för AI och andra GPU-accelererade arbetsbelastningar. Genom att möjliggöra direkta datavägar mellan GPU-minne och lagring, minskar OpenFlex Data24 avsevärt latensen. Det maximerar också bandbredden, vilket säkerställer effektiv datahantering och optimalt GPU-utnyttjande för snabbare och mer effektiv bearbetning av storskaliga datamängder.
Genom att utnyttja NVMe-oF™ kan Western Digital dela disaggregerad höghastighetslagring över flera servrar, vilket säkerställer snabb dataåtkomst och överföring. OpenFlex Data24 sömlösa integration med högpresterande GPU:er gör att den kan leverera den enorma genomströmning som krävs för AI-träning och slutledning, vilket positionerar den som en nyckelfaktor för nästa generations datacenterdrift. Dessa funktioner gör OpenFlex Data24 till ett kraftfullt verktyg för alla organisationer som vill utnyttja den fulla potentialen hos AI och andra avancerade beräkningsbelastningar.
Western Digital OpenFlex Data24 4000
OpenFlex Data24 4000-serien NVMe-oF-lagringsplattform från Western Digital ger oöverträffad prestanda till delade lagringsmiljöer. Denna högpresterande plattform utökar kapaciteten hos NVMe™-flash och ger delning med låg latens över ett Ethernet-tyg. Data24 4000-serien använder sex Western Digital RapidFlex™ A2000 Fabric Bridge-enheter för att leverera sömlös nätverksanslutning med upp till tolv 100 GbE-portar. Dessa gränssnitt stöder båda RoCEv2 och TCP-protokoll, vilket ger mångsidiga alternativ för dataöverföring.
Chassit är designat i en 2U-formfaktor och rymmer upp till 24 U.2 NVMe SSD:er med dubbla portar. Med stöd för PCIe® Gen4 är denna plattform utformad för att fullt ut utnyttja varje SSD:s prestanda och bibehålla hög bandbredd i hela chassit. NVMe SSD:erna finns tillgängliga i olika kapaciteter och uthållighetsalternativ, inklusive Ultrastar® DC SN655 SSD:er med upp till 15.36TB kapacitet för en total råkapacitet på 368TB¹.
Plattformens design eliminerar överprenumeration, vilket säkerställer balanserad åtkomst som bevarar NVMe-prestanda. Data24 4000-serien innehåller även RESTful API-stöd för strömlinjeformad hantering, vilket förbättrar användarvänligheten och integreringen i befintliga IT-infrastrukturer.
Hög tillgänglighet och tillförlitlighet i företagsklass är viktiga egenskaper hos Data24 4000-serien. Touch som dubbla I/O-moduler och N+2 fläktredundans ger sinnesfrid för att säkerställa kontinuerlig drift även under oförutsedda komponentfel. Hela plattformen, inklusive SSD:er, backas upp av en 5-års begränsad garanti.
Western Digital OpenFlex Data24 nyckelspecifikationer
Specifikationer för OpenFlex Data24 | |
---|---|
Max lagringskapacitet | 368TB |
Inspänning | 120V - 240V |
PSU | Dubbel 800W |
Dataöverföringshastighet | 12x 100 Gbps NVMe-oF |
Formfaktor | 2U |
Driftstemperatur | 10 ° C till 35 ° C |
Vikt | 18.25 kg / 40.2 lbs |
Mått (W x L x H) | 491.9 mm x 628.65 mm x 85.5 mm / 19.37 tum x 24.75 tum x 3.37 tum. |
Strömförbrukning (max/typisk) | 750W / ~550W |
PSU effektivitet | 80 Plus titan |
Drive Slots | 24 |
Kylning | 4 systemfläktar (N+2 stöds) |
Rackenheter (U) | 2U |
Nödvändigt rackdjup | 1000 mm (39.4 tum) |
Erforderlig rackbredd | 450 mm (17.72 tum) |
Testar OpenFlex Data24
För att sträcka på benen på OpenFlex Data24 var vi tvungna att dra ihop några viktiga delar: NVIDIA GPUDirect™, NVIDIA IndeX® och hela 5.9 TB Tornado-simuleringsdata. Genom att utnyttja NVIDIA GPUDirect möjliggjorde vi direkt kommunikation mellan GPU-minnet och OpenFlex Data24, vilket drastiskt minskade latensen och maximerade datagenomströmningen. Genom att använda NVIDIAs IndeX kunde vi visualisera och interagera mer effektivt med den massiva tornadodataset, vilket visade upp systemets bearbetningsmöjligheter i realtid. Denna inställning gav en perfekt testbädd för att demonstrera OpenFlex Data24s förmåga att hantera intensiva AI-arbetsbelastningar och storskalig databehandling med anmärkningsvärd hastighet och effektivitet.
NVIDIA GPUDirect
NVIDIA GPUDirect teknologin förbättrar dataöverföringseffektiviteten avsevärt i högpresterande GPU-datormiljöer. Denna svit med teknologier optimerar datarörelsen mellan GPU:er och andra systemkomponenter. Genom att minska latens och overhead möjliggör GPUDirect mer direkt kommunikation mellan GPU:er och kringutrustning som nätverksadaptrar, lagringsenheter och andra GPU:er. Traditionella dataöverföringsprocesser involverar dirigering av data genom CPU:n och systemminnet, vilket skapar flaskhalsar som hindrar prestanda. GPUDirect mildrar dessa flaskhalsar genom att tillåta direkt minnesåtkomst (DMA) till grafikprocessorns minne, kringgå processorn och systemminnet, och därigenom förbättra den totala genomströmningen.
Enligt Harry Petty, NVIDIAs Sr. Technical Marketing Manager:
"NVIDIAs teknologier ger låg latens och snabb dataöverföring från lagring, vilket optimerar prestandan för AI-arbetsbelastningar genom att minska GPU:ns vilotid. Detta ger snabbare modellutbildningstider och mer exakta resultat, vilket möjliggör snabbare upptäckter och effektivare arbetsflöden."
GPUDirect innehåller flera viktiga funktioner, inklusive GPUDirect RDMA, som underlättar direkta dataöverföringar mellan GPU och RDMA-kompatibla nätverksadaptrar. Denna direkta kommunikation är avgörande för applikationer som kräver snabba datautbyten, såsom vetenskapliga simuleringar och storskalig dataanalys. Genom att möjliggöra snabbare dataöverföringar minskar GPUDirect RDMA latensen och ökar effektiviteten hos GPU-kluster. Dessutom integrerar GPUDirect Storage GPU:er tätare med höghastighetslagringssystem, vilket gör att dataintensiva applikationer kan utnyttja den maximala bandbredden hos modern NVMe-lagring. Denna integrering påskyndar dataåtkomst och minskar den tid som ägnas åt att vänta på att data ska laddas in i GPU-minnet, vilket är avgörande för realtidsanalys och storskalig maskininlärning.
GPUDirects möjligheter är särskilt effektiva i miljöer där flera GPU:er arbetar tillsammans, till exempel träningskluster för djupinlärning. Genom att underlätta direkt kommunikation mellan GPU:er optimerar GPUDirect parallell bearbetning och minskar avsevärt de omkostnader som är förknippade med dataöverföringar mellan GPU:er. Denna förbättring är särskilt fördelaktig vid träning av komplexa neurala nätverk, där stora mängder data måste utbytas snabbt över flera GPU:er. Effektivitetsvinsterna med GPUDirect är också uppenbara i applikationer som simuleringar av molekylär dynamik och vätskedynamik, där beräkningsbelastningar fördelas över flera GPU:er för att uppnå snabbare resultat.
NVIDIA IndeX
NVIDIA IndeX är ett avancerat volymetrisk visualiseringsverktyg designat för att hantera stora datamängder med hög tillförlitlighet. IndeX utnyttjar GPU-acceleration för att tillhandahålla interaktiv realtidsvisualisering av 3D-volymetrisk data, vilket gör det oumbärligt för industrier som olje- och gasutforskning, medicinsk bildbehandling och vetenskaplig forskning. Traditionella visualiseringsverktyg kämpar ofta med storleken och komplexiteten hos moderna datauppsättningar, vilket leder till långsammare renderingstider och mindre interaktiva användarupplevelser. IndeX övervinner dessa begränsningar genom att använda NVIDIAs GPU-teknik för att leverera högpresterande rendering och databehandling, vilket säkerställer att användare kan interagera med sina data i realtid.
IndeX kapacitet drivs av dess förmåga att utnyttja den parallella processorkraften hos GPU:er, vilket gör det möjligt för den att hantera och återge storskalig volymetrisk data effektivt. Denna förmåga är värdefull i applikationer som kräver högupplöst visualisering, såsom seismisk tolkning och reservoarsimulering inom olje- och gassektorn. Genom att tillhandahålla detaljerade och korrekta visuella representationer av underjordiska strukturer hjälper IndeX geovetare att fatta mer välgrundade beslut. Inom det medicinska området underlättar IndeX visualisering av komplexa anatomiska strukturer från avbildningsmodaliteter som MRI och CT-skanningar, vilket underlättar diagnos och behandlingsplanering.
Realtidsrenderingsförmågan hos IndeX är också avgörande för vetenskaplig forskning, där stora datamängder från simuleringar och experiment måste visualiseras och analyseras snabbt. Forskare kan interaktivt manipulera och utforska sina data, vilket möjliggör snabbare hypotestestning och upptäckt. IndeX skalbarhet säkerställer att den kan hantera de växande datavolymerna som genereras av avancerade vetenskapliga instrument och simuleringar, vilket ger forskare verktygen för att visualisera och tolka deras data effektivt. Genom att sömlöst integreras med befintliga arbetsflöden och stödja olika dataformat, förbättrar IndeX produktiviteten och accelererar upptäcktstakten över flera discipliner.
Att knyta ihop allt
Att integrera Data24 4000-serien med NVIDIA GPUDirect-teknik förbättrar prestandan avsevärt för GPU-intensiva applikationer genom att strömlinjeforma dataöverföringar mellan GPU:er och lagring. GPUDirect underlättar direkt minnesåtkomst, vilket gör att datarörelser kan kringgå processorn och systemminnet för att minska latensen och öka genomströmningen. I kombination med de högpresterande NVMe-oF-funktionerna i Data24 4000-serien säkerställer GPUDirect att GPU:er snabbt kan komma åt stora datamängder lagrade på NVMe SSD:erna.
Denna integration är särskilt fördelaktig i miljöer där höghastighetsdatautbyte mellan GPU:er och lagring är avgörande, såsom djupinlärning och vetenskapliga simuleringar. Den låga latensen och höga bandbredden i Data24 4000-serien, tillsammans med de direkta datavägarna som aktiveras av GPUDirect, minimerar dataöverföringstider och möjliggör effektivare GPU-användning. Denna synergi optimerar prestandan för parallella bearbetningsuppgifter, där flera GPU:er kräver snabb och frekvent åtkomst till delad data.
För denna testning är OpenFlex Data24 4000 och GPU-servern anslutna via en 200GbE-switch med NVMe-oF RoCEv2-protokollet med matchade MTU:er på 5000. GPU-servern använder 3 Mellanox® CX7 RNIC:er med 2x 200 GbE per RNIC. OpenFlex Data24 4000 är tillgänglig med 12x 100GbE-portar. Varje CX7-port har 2 IP-adresser, vilket gör att en enda CX7 kan mappas till fyra portar på Data24. Detta ger anslutning till alla 4 PCIe-banor på varje enhet med dubbla portar. 6x 200 GbE-länkarna motsvarar bandbreddspotentialen för 12x 100GbE-länkar för en icke-blockerande nätverksarkitektur.
Varje NVIDIA H100 är ansluten via en PCIe Gen5 x16-plats, som teoretiskt sett kan uppnå 64 GB/s bandbredd dubbelriktat. Varje 200GbE och 100GbE RNIC-port kan teoretiskt nå 25 GB/s respektive 12.5 GB/s. En kritisk konstruktionsövervägande är att säkerställa en icke-blockerande arkitektur. Detta kräver att GPU:er, RNIC:er och NVMe-oF-enheter är alla mappade fysiskt på samma CPU, NUMA och PLX-switch. Detta gör att konfigurationen kan dra full nytta av GPUDirect. Som framgår av denna implementering skulle en speglad konfiguration på den andra CPU-, NUMA- och PLX-switchen möjliggöra en förutsägbar beräkningsskala och en teoretisk fördubbling av prestanda.
I AI-träningskluster kan kombinationen av Data24 4000 och GPUDirect möjliggöra snabbare träningstider genom att minska flaskhalsarna i samband med dataladdning. De effektiva datavägarna säkerställer att GPU:er kontinuerligt kan ta emot data utan avbrott, bibehåller höga bearbetningshastigheter och förbättrar den övergripande systemeffektiviteten. Denna inställning är också fördelaktig för realtidsanalys och andra applikationer som kräver snabb dataåtkomst och bearbetning, vilket ger en betydande prestandaökning för olika beräkningsarbetsbelastningar.
NVIDIA IndeX-serverkonfiguration
För NVIDIA IndeX-testet använde vi Supermicro 521GE-TNRT utrustad med det switchade PCIe-bakplanet, ett par NVIDIA H100s och tre NVIDIA ConnectX-7-nätverkskort.
Supermicro® 521GE-TNRT Nyckelspecifikationer | |
---|---|
Modell | Supermicro 521GE-TNRT |
Processorn | 2x Intel® Xeon® Platinum 8462Y+ |
Minne | 1TB DDR5 |
GPU | 2x NVIDIA H100 PCIe |
Nätverksgränssnitt | 3x NVIDIA ConnectX-7 NIC |
GDSIO syntetisk testning
Benchmarking-verktyget som används för detta ändamål är GDSIO, ett specialiserat proprietärt NVIDIA-verktyg utformat för att mäta lagringsprestanda i GPU-direktlagringsmiljöer (GDS). Vi tittade på några konfigurationer för den här testomgången: en enda GPU med 12 enheter och 24 enheter, samt två GPU:er med 24 enheter.
Prestandan hos Western Digital OpenFlex Data24 i GDSIO Performance-testet, tillsammans med NVIDIA H100 GPU:er, avslöjar insikter i hårddiskarnas råa kraft. När det konfigurerades med 12 enheter och en enda GPU, uppnådde systemet en skrivbandbredd på 44.14 GB/s. Att öka antalet enheter till 24 samtidigt som man använder en GPU visade en blygsam förbättring, med skrivprestanda som nådde 54.15 GB/s. Introduktionen av en andra GPU i 24-enheters setup resulterade i en rejäl ökning, vilket höjde skrivbandbredden till 87.91 GB/s.
Läsprestanda följer en liknande trend. Konfigurationen med 12 enheter och en GPU gav en läsbandbredd på 53.47 GB/s. Utvidgning till 24 enheter med en GPU ökar den något till 54.75 GB/s. Den mest dramatiska förbättringen kom dock med installationen med dubbla GPU, där systemet uppnådde en imponerande läsbandbredd på 101.14 GB/s. Dessa resultat understryker förmågan hos OpenFlex Data24 att skala förutsägbart med ett ökat antal enheter.
Tillägget av GPU:er spelar en avgörande roll för att maximera prestanda. Konfigurationen med 24 enheter och två GPU:er framstod som den optimala inställningen och levererade den högsta bandbredden för läs- och skrivoperationer. Detta test understryker vikten av GPU-acceleration för att utnyttja den fulla potentialen hos GDSIO-ramverket. OpenFlex Data24, när den paras ihop med NVIDIA H100 GPU:er, visar exceptionell prestanda, vilket gör den till en robust lösning för krävande lagringsmiljöer.
För AI-arbetsbelastningar, där snabb dataintag och bearbetning är av största vikt, kan prestandan som observeras med OpenFlex Data24 översättas till betydande minskningar av träningstider och effektivare hantering av stora datamängder. Möjligheten att snabbt flytta data från lagring till GPU-minne säkerställer att beräkningsresurserna för kraftfulla GPU:er utnyttjas fullt ut, vilket underlättar snabbare och mer effektiv modellträning och slutledning.
Använder OpenFlex Data24 för att mata H100:s tornados
Klimatforskare har länge studerat supercell-åskväder, de atmosfäriska fenomen som är ansvariga för världens mest våldsamma och farliga tornados. Dessa stormar är dynamiska och komplexa, vilket gör exakta simuleringar tidskrävande och dataintensiva. Att utforska sådan data har varit en långsam, besvärlig process, som ofta tar timmar att återge nya visualiseringar.
Användningen av NVIDIA GPU:er och NVIDIA IndeX har revolutionerat detta område. Forskare kan nu utföra volymetriska visualiseringar i realtid. Simuleringen vi körde på Supermicro-systemet med H100s (matas med data av OpenFlex Data24) visar en Oklahomastorm 2011 simulerad av professor Leigh Orf. Denna simulering, matematiskt härledd från initiala förhållanden precis innan tornadon bildades, inkluderar 250 miljarder rutnätspunkter, var och en med över ett dussin attribut som regn, hagel, tryck och vindhastighet. Denna detaljerade visualisering, som visar 6000 simuleringssteg, ger oöverträffad inblick i tornadons dynamik.
Nyckeln till denna simulering är NanoVDB, en kompakt datastruktur med glesa volymer som minskar datauppsättningsstorlekar och minnesfotavtryck genom att kartlägga data direkt i GPU:ns minne. Tillsammans med GPUDirect Storage-teknik och OpenFlex Data24 uppnådde vi upp till 89 GB/s och kan se resultat med över 13 bilder per sekund. Detta uppskattades till cirka 5.9 TB datauppsättning som tas in var 66:e sekund. Denna kombination gör det möjligt för interaktiv navigering, on-the-fly parameterjusteringar och att enkelt scrubba igenom simuleringen.
Med GPUDirect inaktiverat (och därför data som nu passerar CPU-komplexet) reduceras bandbredden till cirka 15 GB/s och bildhastigheten sjunker avsevärt till 4 bilder per sekund.
Hastigheten är avgörande, men fotorealistisk kvalitet är också avgörande för att validera simuleringarnas noggrannhet. Om simulering och verklighet inte stämmer överens måste modellerna korrigeras. NVIDIA Iray, en GPU-baserad path-tracer som ger fysiskt korrekt ljustransport, används tillsammans med NVIDIA IndeX volymdata för att driva denna visualisering. Trombens tratt, markkontakt och detaljerade element som moln-vattenförhållande och regn, representerat av blågrå porer, är tydligt synliga.
Slutsats
De prestanda-, tids- och kostnadsfördelar som en välkonfigurerad, icke-blockerande arkitektur kan erbjuda GPU-accelererade arbetsbelastningar demonstreras väl i detta projekt. Enkelt uttryckt, att driva GPU:er till sin maximala genomströmning eller bearbetningskapacitet leder till effektivare resultat och avkastning på investeringen.
Western Digitals arkitektur stöder Open Composable Infrastructure (OCI), och OpenFlex Data24 4000-plattformen utnyttjar denna OCI-metod genom att dela upp datalagring med NVMe-over-Fabrics (NVMe-oF). Denna frikoppling av lagringsresurserna från GPU-servern hjälper inte bara till att frigöra servrarnas resurser (frigör dessa resurser från traditionella låsstegsuppgraderingar), utan möjliggör också en finjustering av NVMe Drive-mappning till GPU:er. Denna exakta enhetsmatchning till GPU-kraven gör att GPU-kapacitet, prestanda och datakapacitetsbehov måste behandlas noggrant, vilket i sin tur erbjuder den förutsägbara skalan och flexibiliteten som krävs för dessa resurser.
Eftersom datan inte längre är i silo, blir den en tillgänglig nätverkslagringsresurs som kan delas mellan flera GPU-servrar efter behov, vilket ökar flexibiliteten ytterligare.
Western Digital OpenFlex Data24, kombinerat med NVIDIA GPUDirect-teknologi, visar en formidabel förmåga att hantera AI och andra GPU-accelererade arbetsbelastningar. Genom att möjliggöra direkta datavägar mellan GPU-minne och NVMe-lagring, minskar Data24 avsevärt latensen och maximerar bandbredden, vilket säkerställer effektiv datahantering och optimalt GPU-utnyttjande. Denna integration möjliggör snabbare och mer effektiv bearbetning av storskaliga datauppsättningar, vilket gör Data24 till en ovärderlig tillgång i moderna dataintensiva miljöer.
Våra tester i verkligheten, som involverade en betydande tornadosimuleringsdataset, visade upp de anmärkningsvärda prestandavinsterna som uppnåtts genom denna installation. OpenFlex Data24:s förmåga att leverera dataöverföringar med hög genomströmning och låg latens, tillsammans med NVIDIA IndeX:s realtidsvisualiseringsmöjligheter, understryker dess potential i krävande applikationer som AI-träning, vetenskapliga simuleringar och realtidsanalys.
Att använda Data24-serien och GPUDirect-teknologin för AI-träningskluster kan avsevärt minska träningstiderna genom att säkerställa ett sömlöst dataflöde från lagring till GPU:er. Denna inställning minimerar flaskhalsar och förbättrar den övergripande systemeffektiviteten, vilket gör det till en kritisk komponent för att driva snabbare och mer exakta AI-modeller.
Utöver AI sträcker sig fördelarna med OpenFlex Data24 till andra GPU-accelererade arbetsbelastningar, inklusive högpresterande beräkningar och dataanalys i realtid. Den minskade latensen och ökade genomströmningen som möjliggörs av den här plattformen säkerställer att applikationer som kräver snabb dataåtkomst och bearbetning kan fungera med toppprestanda, vilket ger snabba och exakta resultat.
Se den här demon i aktion 6-8 augusti 2024, på FMS 2024 monter #607.
Western Digital OpenFlex-plattformar
[1] En terabyte (TB) är lika med en biljon byte. Den faktiska användarkapaciteten kan vara mindre på grund av driftsmiljön.
Engagera dig med StorageReview
Nyhetsbrev | Youtube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | Rssflöde