I en tid präglad av generativ AI har mer data skapats än någonsin. Solidigm erbjuder en lösning på många utmaningar i den moderna AI Factory.
Det är ingen hemlighet att vi älskar den massiva densiteten hos Solidigm 61.44TB U.2 NVMe SSD:er. Vi har genomfört många uthållighets- och prestationstester, gjort vetenskapliga upptäckter och drivit världsrekordberäkningar till nya, extraordinära höjder. Så, med AI-vurm som stormade i en rasande takt runt omkring oss, var nästa logiska steg att se hur Solidigm NVMe-enheterna hamnar i den dynamiska världen av AI 2024.
Förstå fördelarna med extrem lagringstäthet
Solidigms 61.44TB QLC SSD sticker ut för sin anmärkningsvärda lagringskapacitet, vilket gör att datacenter kan packa mer lagring på färre enheter. Denna extrema täthet är särskilt fördelaktig i AI-servrar, där datamängder växer exponentiellt och effektiva lagringslösningar är av största vikt. Genom att använda dessa SSD:er med hög kapacitet kan datacenter minska antalet fysiska enheter, minska fotavtrycket, minska strömförbrukningen och förenkla underhållet.
Framifrån av Lenovo ThinkSystem SR675 V3 som visar Solidigm SSD
Begränsade PCIe-banor i GPU-servrar
En av de främsta utmaningarna i moderna GPU-servrar är det begränsade antalet PCIe-banor som är tillgängliga efter att GPU:erna får sin del. Kritiskt för AI-arbetsbelastningar, GPU:er kräver betydande PCIe-bandbredd, vilket ofta lämnar begränsade körfält för andra komponenter, inklusive lagringsenheter och nätverk. Denna begränsning gör det viktigt att optimera användningen av tillgängliga PCIe-banor. Solidigms 61.44 TB QLC SSD erbjuder en lösning genom att tillhandahålla massiv lagringskapacitet på en enda enhet, vilket minskar behovet av flera enheter och sparar PCIe-banor för GPU:er och andra viktiga komponenter.
Inre vy ovanifrån av Lenovo ThinkSystem SR675 V3-hölje
AI-arbetsbelastningar och lagringskrav
AI-arbetsbelastningar kan brett kategoriseras i tre faser: dataförberedelse, utbildning och finjustering samt slutledning. Varje fas har unika lagringskrav, och Solidigms SSD:er med hög kapacitet kan avsevärt förbättra prestanda och effektivitet över dessa faser. Att distribuera QLC-enheter med hög kapacitet, som Solidigm D5-P5336, gynnar alla AI-arbetsbelastningar. De flesta av fördelarna går över från dataförberedelse till utbildning och finjustering till slutledning.
Förberedelse av data
Dataförberedelse är grunden för alla AI-projekt och involverar datainsamling, rengöring, transformation och förstärkning. Denna fas kräver omfattande lagring eftersom rådatauppsättningar kan vara enorma. Solidigms 61.44 TB QLC SSD:er kan lagra expansiva rådata utan att kompromissa med prestanda. Dessutom säkerställer de höga sekventiella läs- och skrivhastigheterna för dessa SSD: er snabb tillgång till data, vilket påskyndar förberedelseprocessen. För dataförberedelse uppfyller Soidigm 61.44TB QLC SSD alla krav som beskrivs ovan med fördelar som:
- Massiv lagringskapacitet: Effektiv hantering av stora datamängder.
- Höga sekventiella hastigheter: Snabb dataåtkomst och bearbetning.
- Reducerad latens: Minimerade förseningar i datahämtning, vilket förbättrar arbetsflödets effektivitet.
Träning och finjustering
Att träna AI-modeller är en intensiv process som innebär att omfattande datauppsättningar matas in i neurala nätverk för att justera vikter och fördomar. Denna fas är beräkningskrävande och kräver hög IOPS (Input/Output Operations Per Second) och lagring med låg latens för att hålla jämna steg med det snabba datautbytet mellan lagringen och GPU:erna. Solidigms SSD:er utmärker sig i detta avseende och erbjuder hög prestanda och hållbarhet. Den extrema tätheten hos dessa SSD-enheter gör att mer omfattande datamängder kan användas i träning, vilket potentiellt leder till mer exakta modeller. För att möta utbildnings- och finjusteringskraven levererar Solidigm SSD:erna följande:
- Hög IOPS: Stöder snabba datautbyten som är nödvändiga för utbildning.
- Hållbarhet: QLC-teknik optimerad för läs-/skrivtunga arbetsbelastningar, idealisk för upprepade träningscykler.
- skalbarhet: Utöka lagringen utan att lägga till fysiska enheter, bibehåll en effektiv användning av PCIe-banor.
Inferens
När de är utbildade används AI-modeller för att göra förutsägelser eller beslut baserat på ny data, så kallad slutledning. Denna fas kräver ofta snabb tillgång till förbehandlad data och effektiv hantering av ökade läsbegäranden. Solidigms 61.44 TB QLC SSD ger den nödvändiga läsprestanda och låg latens för att säkerställa att slutledningsoperationer utförs smidigt och snabbt. Solidigm SSD:er överträffar prestanda och låg latens genom att leverera följande fördelar:
- Snabbläsningsprestanda: Säkerställer snabb åtkomst till data för slutledning i realtid.
- Låg latens: Kritisk för applikationer som kräver omedelbara svar.
- Hög kapacitet: Lagra omfattande slutledningsdata och historiska resultat effektivt.
QLC-teknik erbjuder betydande fördelar för slutledningstillämpningar, inklusive hög lagringskapacitet, kostnadseffektivitet, snabba läshastigheter, effektiv PCIe-användning, hållbarhet och förbättrad arbetsflödeseffektivitet. Dessa fördelar förbättrar tillsammans prestanda, skalbarhet och kostnadseffektivitet för slutledningsuppgifter, vilket gör QLC-enheter till ett idealiskt val för moderna AI- och maskininlärningsinstallationer.
Varför är det viktigt att få stort lagringsutrymme så nära grafikprocessorn som möjligt?
För AI och maskininlärning kan lagringens närhet till GPU:n påverka prestandan avsevärt. Att designa ett AI-datacenter kräver noggrant övervägande av flera faktorer för att säkerställa optimal funktionalitet och effektivitet. Det är därför det är avgörande att ha omfattande lagring som är så nära GPU:n som möjligt. Som vi nyligen utforskade börjar tillgången till en betydande nätverksansluten lagringslösning att formas till ett verktyg-i-bälte, men att förlita sig på den ensam kanske inte alltid är det optimala valet.
Latens och bandbredd
En primär anledning till att placera gott om lagringsutrymme nära GPU:n är att minimera latens och maximera bandbredden. AI-arbetsbelastningar, särskilt under träning, involverar frekventa och massiva dataöverföringar mellan lagringen och GPU:n. Hög latens kan försämra hela processen, sakta ner träningstiderna och minska effektiviteten.
I AI-arbetsbelastningar, där snabb datatillgänglighet är avgörande, säkerställer låg latens att GPU:er tar emot data snabbt, vilket minskar vilotiderna och förbättrar den totala beräkningseffektiviteten. Under utbildningsfasen måste enorma mängder data kontinuerligt matas in i GPU:n för bearbetning. Genom att minimera latensen säkerställer DAS att höghastighetskraven för AI-applikationer uppfylls, vilket leder till snabbare träningstider och effektivare arbetsflöden.
Intern vy av Lenovo ThinkSystem SR675 V3-vy GPU:er
Datagenomströmning och I/O-prestanda
Lokala NVMe SSD:er utmärker sig när det gäller att hantera ett stort antal Input/Output Operations Per Second (IOPS), vilket är avgörande för den läs/skrivintensiva naturen hos AI-arbetsbelastningar. Under utbildningsfasen kräver AI-modeller snabb tillgång till stora datalager, vilket kräver lagringslösningar som kan hålla jämna steg med den höga efterfrågan på datatransaktioner.
Ovanifrån av NVIDIA L40S GPU:er
Solidigm D5-P5336, designad för scenarier med hög kapacitet och hög prestanda, levererar exceptionell IOPS, vilket möjliggör snabbare datahämtning och skrivprocesser. Denna funktion säkerställer att GPU:erna förblir upptagna med beräkningar snarare än att vänta på data, vilket maximerar effektiviteten och minskar träningstiden. Den höga IOPS-prestandan hos lokala NVMe SSD:er gör dem idealiska för de krävande miljöerna för AI-applikationer, där snabb dataåtkomst och bearbetning är avgörande för optimal prestanda.
Datahantering
Även om det i vissa scenarier förenklar datahanteringen att ha gott om lagring direkt till GPU:n, lägger detta till ett nödvändigt lager av datahantering för att placera data på GPU-servern. I en perfekt värld är din GPU fullt upptagen och din CPU går ut till nätverket för att spara kontrollpunkter eller få ner ny data. Solidigm-enheterna på 61.44 TB hjälper till att minska antalet datatransaktioner som behövs. Du kan också redogöra för detta med hjälp av en förenklad nätverksinstallation och distribuerade filsystem. Detta enkla tillvägagångssätt kan effektivisera arbetsflöden och minska risken för datarelaterade fel eller förseningar.
Framifrån av Lenovo ThinkSystem SR675 V3
Anta att du arbetar inuti en enda server och finjusterar modeller som ryms i en handfull lokalt anslutna GPU:er. I så fall har du fördelen med lokal lagring, som är enklare att sätta upp och hantera än nätverkslagringslösningar. Att konfigurera, administrera och underhålla nätverksansluten lagring kan vara komplext och tidskrävande och kräver ofta specialiserad kunskap och ytterligare infrastruktur. Däremot är lokala lagringslösningar som NVMe SSD: er mer enkla att integrera i befintliga serverinställningar.
Lenovo ThinkSystem SR675 V3 Schematisk
Denna enkelhet i konfiguration och underhåll gör att IT-team kan fokusera mer på att optimera AI-arbetsbelastningar snarare än att ta itu med hanteringen av nätverkslagring. Som ett resultat blir det enklare och mer effektivt att distribuera och hantera lagring för AI-applikationer med lokala NVMe SSD:er.
Kostnad och skalbarhet
Medan NAS-lösningar kan skalas horisontellt genom att lägga till fler lagringsenheter, kommer de också med kostnader relaterade till nätverksinfrastrukturen och potentiella prestandaflaskhalsar. Omvänt kan investeringar i lokal lagring med hög kapacitet ge omedelbara prestandafördelar utan omfattande nätverksuppgraderingar.
Lokala lagringslösningar är ofta mer kostnadseffektiva än nätverksanslutna lagringssystem (NAS) eftersom de eliminerar behovet av dyr nätverkshårdvara och komplexa konfigurationer. Att installera och underhålla NAS innebär betydande investeringar i nätverksutrustning, såsom höghastighetsswitchar och routrar, och löpande kostnader för nätverkshantering och underhåll.
Lokala SSD:er med stor kapacitet som är integrerade direkt i servern används som ett lagringsområde, vilket minskar behovet av ytterligare infrastruktur. Denna direkta integration minskar hårdvarukostnaderna och förenklar installationsprocessen, vilket gör den mer budgetvänlig för organisationer som vill optimera sina AI-arbetsbelastningar utan att ådra sig höga kostnader.
För att noggrant utvärdera prestandan hos Solidigm 61.44TB QLC SSD i en AI-serverinstallation kommer vi att jämföra en uppsättning av fyra av Solidigm P5336 61.44TB SSD:er installerade i en Lenovo ThinkSystem SR675 V3. Denna serverkonfiguration inkluderar också en uppsättning med fyra NVIDIA L40S GPU:er. Benchmarking-verktyget som används för detta ändamål är GDSIO, ett specialiserat verktyg utformat för att mäta lagringsprestanda i GPU-direktlagringsmiljöer (GDS). Vi tittade på två konfigurationer: en GPU till prestanda för en enda enhet och en GPU till fyra enheter konfigurerade för RAID0.
Ovanifrån av Lenovo ThinkSystem SR675 V3 med fyra L40S GPU:er
Stanna med oss. Följande avsnitt täcker testernas detaljer och hur de efterliknar olika stadier av AI-pipelinen.
Testparametrar
Benchmarkingprocessen involverar olika testparametrar som simulerar olika stadier av AI-pipelinen. Dessa parametrar inkluderar io_sizes, trådar och transfer_type, var och en vald för att representera specifika aspekter av AI-arbetsbelastningar.
1. IO-storlekar:
- 4K, 128K, 256K, 512K, 1M, 4M, 16M, 64M, 128M: Dessa varierande I/O-storlekar hjälper till att simulera olika dataöverföringsmönster. Mindre I/O-storlekar (128K, 256K, 512K) efterliknar scenarier där små databitar ofta används, vilket är typiskt under databeredningsstadier. Större I/O-storlekar (1M, 4M, 16M, 64M, 128M) representerar bulkdataöverföringar som ofta ses under tränings- och slutledningsstadier, där hela databatcher flyttas.
2. Trådar:
- 1, 4, 16, 32: Antalet trådar representerar samtidighetsnivån för dataåtkomst. En enda tråd testar baslinjeprestandan, medan högre trådantal (4, 16, 32) simulerar mer intensiva, parallella databearbetningsaktiviteter, liknande vad som sker under storskaliga träningssessioner där flera dataströmmar hanteras samtidigt.
3. Överföringstyper:
- Lagring->GPU (GDS): Denna överföringstyp utnyttjar GPU Direct Storage (GDS), vilket möjliggör direkta dataöverföringar mellan SSD:erna och GPU:erna, förbi processorn. Denna konfiguration är idealisk för att testa effektiviteten hos direkta datavägar och minimera latens, vilket återspeglar scenarier för slutledning i realtid.
- Lagring->CPU->GPU: Denna traditionella dataöverföringsväg innebär att data flyttas från lagringen till processorn innan den överförs till GPU:n. Denna metod simulerar scenarier där mellanliggande bearbetning eller cachning kan inträffa på CPU-nivå, vilket förväntas under databeredningsfasen. Vi skulle kunna hävda att denna dataväg skulle representera prestandan oavsett GPU-leverantör.
- Lagring->PAGE_CACHE->CPU->GPU: Den här sökvägen använder sidcachen för dataöverföringar, där data först cachelagras i minnet innan det bearbetas av CPU:n och sedan överförs till GPU:n. Den här konfigurationen är användbar för att testa effekten av cachningsmekanismer och minnesbandbredd på övergripande prestanda, vilket är relevant under träning när data kan förbehandlas och cachelagras för effektivitet. Återigen kan vi hävda att denna dataväg skulle representera prestandan oavsett GPU-leverantör.
Efterliknar AI Pipeline Stages
Benchmark-testerna är utformade för att återspegla olika stadier av AI-pipelinen, vilket säkerställer att de prestationsmått som erhålls är relevanta och heltäckande.
Förberedelse av data:
- IO-storlekar: Mindre (128K, 256K, 512K)
- Trådar: 1, 4
- Överföringstyper: "Lagring->CPU->GPU", "Lagring->PAGE_CACHE->CPU->GPU"
- Syfte: Utvärdera hur SSD:erna hanterar frekventa små dataöverföringar och CPU-inblandning, kritiskt under dataintag, rengöring och förstärkningsfaser.
Träning och finjustering:
- IO-storlekar: Medium till stor (1M, 4M, 16M)
- Trådar: 4, 16, 32
- Överföringstyper: "Lagring->GPU (GDS)", "Lagring->CPU->GPU"
- Syfte: Bedöm prestandan under förhållanden med hög datagenomströmning med flera samtidiga dataströmmar, vilket representerar den intensiva datahantering som krävs under modellträning och finjustering.
Slutledning:
- IO-storlekar: Stor till mycket stor (16M, 64M, 128M) och 4K
- Trådar: 1, 4, 16
- Överföringstyper: Lagring->GPU (GDS)
- Syfte: Mät effektiviteten av direkta, storskaliga dataöverföringar till GPU:n, avgörande för realtidsinferensapplikationer där snabb dataåtkomst och minimal latens är av största vikt. 4K är utformat för att titta på RAG-databassökningar som förekommer.
Genom att variera dessa parametrar och testa olika konfigurationer kan vi få en detaljerad prestandaprofil för Solidigm 61.44TB QLC SSD i en högpresterande AI-servermiljö, vilket ger insikter om deras lämplighet och optimering för olika AI-arbetsbelastningar. Vi undersökte data genom att köra mer än 1200 tester under några veckor.
Server Configuration
- Lenovo ThinkSystem SR675 V3
- AMD EPYC 9254 24-kärnig processor
- 6 X 64 GB DDR5 384 GB total kapacitet
- 4X NVIDIA L40S GPU
- 4X 61.44TB Solidigm P5336 QLC NVMe SSD
- Ubuntu Server 22.04
- NVIDIA-drivrutinsversion: 535.171.04
- CUDA-version: 12.2
Lenovo ThinkSystem SR675 V3 framifrån
Lenovo ThinkSystem SR675 V3-arkitektur
Referensresultat
Låt oss först titta på arbetsbelastningar av tränings- och slutledningstyp. GPU Direct 1024K IO-storleken representerar modellladdning, träningsdata som läses in till GPU:n och andra stora slutledningsjobb som i bild- eller videoarbete.
4Kör | I / O-typ | Överföringstyp | Ämnen | Datauppsättningsstorlek (KiB) | IO-storlek (KiB) | Genomströmning (GiB/sek) | Genomsnittlig fördröjning (användare) |
---|---|---|---|---|---|---|---|
SKRIVA | GPUD | 8 | 777,375,744 | 1024 | 12.31 | 634.55 | |
LÄSA | GPUD | 8 | 579,439,616 | 1024 | 9.30 | 840.37 | |
RANDWRITE | GPUD | 8 | 751,927,296 | 1024 | 12.04 | 648.67 | |
RANDLÄS | GPUD | 8 | 653,832,192 | 1024 | 10.50 | 743.89 |
Därefter tittar vi på mindre IO-storlekar, för en arbetsbelastning av RAG-typ, till exempel där snabb slumpmässig 4k-dataåtkomst till en RAG-databas lagrad på disk. Effektiv slumpmässig I/O är nödvändig för scenarier där slutledningsarbetsbelastningar behöver komma åt data på ett icke-sekventiellt sätt, till exempel med rekommendationssystem eller sökapplikationer. RAID0-konfigurationen uppvisar bra prestanda för sekventiella och slumpmässiga operationer, vilket är avgörande för AI-applikationer som involverar en blandning av åtkomstmönster som RAG. Läslatensvärdena är anmärkningsvärt låga, särskilt i GPUD
läge.
8 arbetartrådar valdes ut här, som inte helt mättar SSD:n, men ger en mer representativ ögonblicksbild av vad du kan hitta i en arbetsbelastning av RAG-typ. Detta ger en kontext av en off-the-shelf-applikation kring GPU:s perspektiv med ett begränsat antal arbetade och högre ködjup, värt att notera att detta visar att det finns mer prestanda kvar på bordet som kan uppnås genom ytterligare mjukvaruoptimeringar .
4Kör | I / O-typ | Överföringstyp | Ämnen | Datauppsättningsstorlek (KiB) | IO-storlek (KiB) | Genomströmning (GiB/sek) | Genomsnittlig fördröjning (användare) |
---|---|---|---|---|---|---|---|
SKRIVA | GPUD | 8 | 69,929,336 | 4 | 1.12 | 27.32 | |
LÄSA | GPUD | 8 | 37,096,856 | 4 | 0.59 | 51.52 | |
RANDWRITE | GPUD | 8 | 57,083,336 | 4 | 0.91 | 33.42 | |
RANDLÄS | GPUD | 8 | 27,226,364 | 4 | 0.44 | 70.07 |
Om du inte använder GPU Direct på grund av bibliotek eller GPU:er som inte stöds, här är dessa två typer om du använder processorn i dataöverföringen. I den här specifika servern, Lenovo ThinkSystem SR675 V3, eftersom alla PCIe-enheter går igenom CPU-rotkomplexet, ser vi jämförbar bandbredd men drabbas av vår latens. Vi kan förvänta oss en förbättring av ett system med PCIe-switchar.
4Kör | I / O-typ | Överföringstyp | Ämnen | Datauppsättningsstorlek (KiB) | IO-storlek (KiB) | Genomströmning (GiB/sek) | Genomsnittlig fördröjning (användare) |
---|---|---|---|---|---|---|---|
SKRIVA | CPU_GPU | 8 | 767,126,528 | 1024 | 12.24 | 638.05 | |
LÄSA | CPU_GPU | 8 | 660,889,600 | 1024 | 10.58 | 738.75 | |
RANDWRITE | CPU_GPU | 8 | 752,763,904 | 1024 | 12.02 | 649.76 | |
RANDLÄS | CPU_GPU | 8 | 656,329,728 | 1024 | 10.47 | 746.26 | |
SKRIVA | CPU_GPU | 8 | 69,498,220 | 4 | 1.11 | 27.47 | |
LÄSA | CPU_GPU | 8 | 36,634,680 | 4 | 0.58 | 52.31 |
Tabellen indikerar höga genomströmningshastigheter för läsoperationer, särskilt med GPUD
överföringstyp. Läs till exempel operationer i GPUD
läget når upp till 10.5 GiB/sek. Detta gynnar AI-arbetsbelastningen, vilket ofta kräver snabb dataåtkomst för att träna stora modeller.
Den balanserade prestandan mellan slumpmässiga och sekventiella operationer gör denna konfiguration lämplig för slutledningsuppgifter, som ofta kräver en blandning av dessa åtkomstmönster. Även om latensvärdena inte är extremt låga ligger de fortfarande inom acceptabla gränser för många slutledningstillämpningar.
Dessutom ser vi imponerande genomströmningshastigheter, med skrivoperationer som når upp till 12.31 GiB/sek och läsoperationer upp till 9.30 GiB/sek. Denna höga genomströmning gynnar AI-arbetsbelastningar som kräver snabb dataåtkomst för modellträning och slutledning.
Sekventiell läsning och optimering
Genom att flytta till 128M IO-storlek och iterera genom arbetartrådar kan vi se resultatet av att optimera en arbetsbelastning för en lagringslösning.
Överföringstyp | Ämnen | Genomströmning (GiB/s) | Latens (usec) |
---|---|---|---|
Lagring->CPU->GPU | 16 | 25.134916 | 79528.88255 |
Lagring->CPU->GPU | 4 | 25.134903 | 19887.66948 |
Lagring->CPU->GPU | 32 | 25.12613 | 159296.2804 |
Lagring->GPU (GDS) | 4 | 25.057484 | 19946.07198 |
Lagring->GPU (GDS) | 16 | 25.044871 | 79770.6007 |
Lagring->GPU (GDS) | 32 | 25.031055 | 159478.8246 |
Lagring->PAGE_CACHE->CPU->GPU | 16 | 24.493948 | 109958.4447 |
Lagring->PAGE_CACHE->CPU->GPU | 32 | 24.126103 | 291792.8345 |
Lagring->GPU (GDS) | 1 | 23.305366 | 5362.611458 |
Lagring->PAGE_CACHE->CPU->GPU | 4 | 21.906704 | 22815.52797 |
Lagring->CPU->GPU | 1 | 15.27233 | 8182.667969 |
Lagring->PAGE_CACHE->CPU->GPU | 1 | 6.016992 | 20760.22778 |
Att skriva en applikation korrekt för att interagera med lagring är av största vikt och måste övervägas eftersom företag vill maximera sin GPU-investering.
GPU direkt
Genom att isolera GPU Direct-only-prestandan i alla tester kan vi få en allmän uppfattning om hur NVIDIA-tekniken lyser.
I / O-typ | Överföringstyp | Ämnen | Datauppsättningsstorlek (KiB) | IO-storlek (KiB) | Genomströmning (GiB/sek) | Genomsnittlig fördröjning (användare) |
---|---|---|---|---|---|---|
SKRIVA | GPUD | 8 | 777,375,744 | 1024 | 12.31 | 634.55 |
LÄSA | GPUD | 8 | 579,439,616 | 1024 | 9.30 | 840.37 |
RANDWRITE | GPUD | 8 | 751,927,296 | 1024 | 12.04 | 648.67 |
RANDLÄS | GPUD | 8 | 653,832,192 | 1024 | 10.50 | 743.89 |
SKRIVA | GPUD | 8 | 69,929,336 | 4 | 1.12 | 27.32 |
LÄSA | GPUD | 8 | 37,096,856 | 4 | 0.59 | 51.52 |
RANDWRITE | GPUD | 8 | 8,522,752 | 4 | 0.14 | 224.05 |
RANDLÄS | GPUD | 8 | 21,161,116 | 4 | 0.34 | 89.99 |
RANDWRITE | GPUD | 8 | 57,083,336 | 4 | 0.91 | 33.42 |
RANDLÄS | GPUD | 8 | 27,226,364 | 4 | 0.44 | 70.07 |
Utgående Tankar
Eftersom den här artikeln fokuserar på Solidigm 61.44TB P5336, låt oss ta ett steg tillbaka och ta upp TLC vs. QLC-debatten kring Performance vs. Capacity. När vi tittar på andra produkter i Solidigm-portföljen, såsom D7-linjen, som använder TLC 3D NAND, är kapaciteten begränsad i utbyte mot prestanda. I våra tester, särskilt med 61.44 TB Solidigm-enheter, ser vi sammanlagda genomströmningsprestanda som på ett adekvat sätt kan hålla GPU:er matade med data med låga latenser. Vi hör feedback från ODM:er och OEM:er om efterfrågan på mer och mer lagring så nära GPU:n som möjligt, och Solidigm D5-P5336-enheten verkar passa räkningen. Eftersom det vanligtvis finns ett begränsat antal NVMe-fack tillgängliga i GPU-servrar, ligger de täta Solidigm-enheterna överst på listan för lokal GPU-serverlagring.
I slutändan är den enorma lagringskapacitet som dessa enheter erbjuder, tillsammans med GPU:er, bara en del av lösningen; de måste fortfarande prestera bra. När du väl har samlat den enstaka enhetens prestanda över flera enheter är det tydligt att tillräcklig genomströmning är tillgänglig även för de mest krävande uppgifterna. I fallet med RAID4-konfigurationen med 0 enheter som använder GDSIO kan den totala genomströmningen för skrivoperationer nå upp till 12.31 GiB/sek, och för läsoperationer kan den nå upp till 25.13 GiB/sek.
Lenovo ThinkSystem SR675 V3 bakifrån för GPU:er
Denna nivå av genomströmning är mer än tillräcklig för även de mest krävande AI-uppgifterna, som att träna stora djupinlärningsmodeller på massiva datamängder eller köra realtidsinferencing på högupplösta videoströmmar. Möjligheten att skala prestanda genom att lägga till fler enheter till RAID0-arrayen gör det till ett övertygande val för AI-applikationer där snabb och effektiv dataåtkomst är avgörande.
Det är dock viktigt att notera att RAID0-konfigurationer, även om de erbjuder hög prestanda, inte ger någon dataredundans. Därför är det viktigt att implementera lämpliga säkerhetskopierings- och dataskyddsstrategier för att förhindra dataförlust i händelse av ett diskfel.
En annan unik faktor i datacenter idag är makt. Med AI-servrar som drar ner mer kraft än någonsin och inte visar några tecken på att sakta ner, är den totala tillgängliga kraften en av de största flaskhalsarna för dem som vill ta in GPU:er i sina datacenter. Det gör att det är ännu mer fokus på att spara varje möjliga watt. Om du kan få mer TB per watt, närmar vi oss några intressanta tankeprocesser kring TCO och infrastrukturkostnader. Till och med att ta dessa enheter från GPU-servern och placera dem i en lagringsserver i rackskala kan leverera enorm genomströmning med extrem kapacitet.
Att integrera Solidigm D5-P5336 61.44TB QLC SSD:er med NVMe-platsbegränsade AI-servrar representerar ett betydande framsteg när det gäller att hantera lagringsutmaningarna med moderna AI-arbetsbelastningar. Deras extrema densitet, prestandaegenskaper och TB/watt-förhållande gör dem idealiska för dataförberedelse, träning och finjustering, och slutledningsfaser. Genom att optimera användningen av PCIe-banor och tillhandahålla lagringslösningar med hög kapacitet, gör dessa SSD:er det möjligt för den moderna AI Factory att fokusera på att utveckla och distribuera mer sofistikerade och exakta modeller, vilket driver innovation inom AI-området.
Lenovo ThinkSystem SR675 V3 sida
Denna rapport är sponsrad av Solidigm. Alla åsikter och åsikter som uttrycks i denna rapport är baserade på vår opartiska syn på produkten/de produkter som övervägs.
Engagera dig med StorageReview
Nyhetsbrev | Youtube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | Rssflöde