Thuis EnterpriseAI Verhoog de AI-efficiëntie met de enorme 61.44TB NVMe SSD's van Solidigm

Verhoog de AI-efficiëntie met de enorme 61.44TB NVMe SSD's van Solidigm

by Jordaan Ranous

In het tijdperk van generatieve AI zijn er meer gegevens gecreëerd dan ooit. Solidigm biedt een oplossing voor veel uitdagingen in de moderne AI Factory.

Het is geen geheim dat we dol zijn op de enorme dichtheid van Solidigm 61.44TB U.2 NVMe SSD's. We hebben talloze uithoudings- en prestatietests uitgevoerd, wetenschappelijke ontdekkingen gedaan en wereldrecordberekeningen naar nieuwe, buitengewone hoogten getild. Dus nu de AI-rage overal om ons heen in een zinderend tempo toeneemt, was de volgende logische stap om te zien hoe de Solidigm NVMe-schijven het doen in de dynamische wereld van AI 2024.

De voordelen van extreme opslagdichtheid begrijpen

De 61.44TB QLC SSD's van Solidigm vallen op door hun opmerkelijke opslagcapaciteit, waardoor datacenters meer opslag in minder schijven kunnen stoppen. Deze extreme dichtheid is vooral voordelig bij AI-servers, waar datasets exponentieel groeien en efficiënte opslagoplossingen van het grootste belang zijn. Met behulp van deze SSD's met hoge capaciteit kunnen datacenters het aantal fysieke schijven verminderen, de voetafdruk verkleinen, het energieverbruik verminderen en het onderhoud vereenvoudigen.

Vooraanzicht van de Lenovo ThinkSystem SR675 V3 met Solidigm SSD

Beperkte PCIe-lanes in GPU-servers

Een van de belangrijkste uitdagingen bij moderne GPU-servers is het beperkte aantal PCIe-lanes dat beschikbaar is nadat de GPU's hun aandeel hebben gekregen. Cruciaal voor AI-workloads is dat GPU's aanzienlijke PCIe-bandbreedte vereisen, waardoor er vaak beperkte rijstroken overblijven voor andere componenten, waaronder opslagapparaten en netwerken. Deze beperking maakt het essentieel om het gebruik van beschikbare PCIe-lanes te optimaliseren. De 61.44TB QLC SSD's van Solidigm bieden een oplossing door enorme opslagcapaciteit te bieden op één enkele schijf, waardoor de behoefte aan meerdere schijven wordt verminderd en PCIe-lanes worden behouden voor GPU's en andere essentiële componenten.

Binnenaanzicht van bovenaf van de Lenovo ThinkSystem SR675 V3 schijfbehuizing

AI-workloads en opslagvereisten

AI-workloads kunnen grofweg worden onderverdeeld in drie fasen: datavoorbereiding, training en verfijning, en gevolgtrekking. Elke fase heeft unieke opslagvereisten, en de SSD's met hoge capaciteit van Solidigm kunnen de prestaties en efficiëntie in deze fasen aanzienlijk verbeteren. Het inzetten van QLC-schijven met hoge capaciteit, zoals de Solidigm D5-P5336, komt ten goede aan alle AI-workloads. De meeste voordelen strekken zich uit van gegevensvoorbereiding tot training en van afstemming tot gevolgtrekking.

Data voorbereiding

Gegevensvoorbereiding vormt de basis van elk AI-project en omvat het verzamelen, opschonen, transformeren en vergroten van gegevens. Deze fase vereist uitgebreide opslag omdat ruwe datasets enorm kunnen zijn. De QLC SSD's van 61.44 TB van Solidigm kunnen uitgebreide onbewerkte gegevens opslaan zonder dat dit ten koste gaat van de prestaties. Bovendien zorgen de hoge sequentiële lees- en schrijfsnelheden van deze SSD's voor snelle toegang tot data, waardoor het voorbereidingsproces wordt versneld. Voor datavoorbereiding voldoen de Soidigm 61.44TB QLC SSD's aan alle hierboven geschetste eisen met voordelen zoals:

  • Enorme opslagcapaciteit: Efficiënte omgang met grote datasets.
  • Hoge sequentiële snelheden: Snelle gegevenstoegang en -verwerking.
  • Verminderde latentie: Minimaliseerde vertragingen bij het ophalen van gegevens, waardoor de efficiëntie van de workflow wordt verbeterd.

Training en finetuning

Het trainen van AI-modellen is een intensief proces waarbij uitgebreide datasets in neurale netwerken worden ingevoerd om gewichten en vooroordelen aan te passen. Deze fase vergt veel rekenkracht en vereist hoge IOPS (Input/Output Operations Per Second) en opslag met lage latentie om de snelle gegevensuitwisseling tussen de opslag en de GPU's bij te houden. De SSD's van Solidigm blinken hierin uit en bieden hoge prestaties en duurzaamheid. Door de extreme dichtheid van deze SSD's kunnen uitgebreidere datasets worden gebruikt bij trainingen, wat mogelijk tot nauwkeurigere modellen kan leiden. Om aan de trainings- en afstemmingseisen te voldoen, leveren de Solidigm SSD’s het volgende:

  • Hoge IOPS: Ondersteunt snelle gegevensuitwisseling die essentieel is voor training.
  • Duurzaam: QLC-technologie geoptimaliseerd voor zware lees-/schrijfbelastingen, ideaal voor herhaalde trainingscycli.
  • schaalbaarheid: Breid de opslag uit zonder fysieke schijven toe te voegen, zodat u efficiënt gebruik kunt maken van PCIe-lanes.

Inferenties

Eenmaal getraind, worden AI-modellen ingezet om voorspellingen of beslissingen te maken op basis van nieuwe gegevens, ook wel inferentie genoemd. Deze fase vereist vaak snelle toegang tot voorverwerkte gegevens en een efficiënte afhandeling van de toegenomen leesverzoeken. De 61.44TB QLC SSD's van Solidigm bieden de nodige leesprestaties en lage latentie om ervoor te zorgen dat inferentiebewerkingen soepel en snel worden uitgevoerd. Solidigm SSD's overtreffen de prestaties en lage latentie door de volgende voordelen te bieden:

  • Snelle leesprestaties: Zorgt voor snelle toegang tot gegevens voor realtime gevolgtrekking.
  • Lage latentie: Cruciaal voor toepassingen die onmiddellijke reacties vereisen.
  • Hoge capaciteit: Bewaar uitgebreide gevolgtrekkingsgegevens en historische resultaten efficiënt.

QLC-technologie biedt aanzienlijke voordelen voor het infereren van toepassingen, waaronder hoge opslagcapaciteit, kostenefficiëntie, hoge leessnelheden, efficiënt PCIe-gebruik, duurzaamheid en verbeterde workflow-efficiëntie. Deze voordelen verbeteren gezamenlijk de prestaties, schaalbaarheid en kosteneffectiviteit van inferentietaken, waardoor QLC-drives een ideale keuze zijn voor moderne AI- en machine learning-implementaties.

Waarom is het belangrijk om grote opslagruimte zo dicht mogelijk bij de GPU te krijgen?

Voor AI en machine learning kan de nabijheid van opslag tot de GPU de prestaties aanzienlijk beïnvloeden. Het ontwerpen van een AI-datacenter vereist een zorgvuldige afweging van meerdere factoren om optimale functionaliteit en efficiëntie te garanderen. Daarom is het van cruciaal belang om uitgebreide opslag te hebben die zo dicht mogelijk bij de GPU ligt. Zoals we onlangs hebben onderzocht, begint de toegang tot een omvangrijke, op een netwerk aangesloten opslagoplossing zich te ontwikkelen tot een 'one-tool-in-the-belt', maar erop vertrouwen alleen is misschien niet altijd de optimale keuze.

Latentie en bandbreedte

Een primaire reden om voldoende opslagruimte dicht bij de GPU te plaatsen, is het minimaliseren van de latentie en het maximaliseren van de bandbreedte. AI-workloads, vooral tijdens trainingen, brengen frequente en grootschalige gegevensoverdrachten tussen de opslag en de GPU met zich mee. Een hoge latentie kan het hele proces belemmeren, waardoor de trainingstijd wordt vertraagd en de efficiëntie afneemt.

Bij AI-workloads, waarbij een snelle beschikbaarheid van gegevens van cruciaal belang is, zorgt de lage latentie ervoor dat GPU's gegevens snel ontvangen, waardoor inactieve tijden worden verminderd en de algehele rekenefficiëntie wordt verbeterd. Tijdens de trainingsfase moeten er voortdurend enorme hoeveelheden gegevens in de GPU worden ingevoerd voor verwerking. Door de latentie te minimaliseren zorgt DAS ervoor dat aan de hogesnelheidseisen van AI-applicaties wordt voldaan, wat leidt tot snellere trainingtijden en efficiëntere workflows.

Interne weergave van Lenovo ThinkSystem SR675 V3 bekijk GPU's

NVMe SSD's maximaliseren het potentieel van de PCIe-interface, zorgen voor aanzienlijk snellere gegevensoverdracht en omzeilen langzamere bestaande infrastructuur. Deze hoge bandbreedte is essentieel voor AI-workloads die de snelle verplaatsing van grote datasets vereisen. Wanneer opslag rechtstreeks wordt aangesloten, wordt de beschikbare bandbreedte voor de GPU's gemaximaliseerd, waardoor snellere toegang mogelijk is tot de uitgebreide gegevens die nodig zijn voor het trainen van complexe modellen.

Daarentegen introduceert netwerkgekoppelde opslag van oudere installaties extra latentielagen en verlaagt deze doorgaans de bandbreedte. Zelfs bij hogesnelheidsnetwerken kan de overhead die gepaard gaat met netwerkprotocollen en potentiële netwerkcongestie de prestaties belemmeren. Doordat er een enorme capaciteit direct aan uw GPU is gekoppeld, is data-staging mogelijk, zodat deze niet hoeft te wachten om de klus te klaren wanneer de GPU begint te kraken.

Gegevensdoorvoer en I/O-prestaties

Lokale NVMe SSD's blinken uit in het verwerken van een groot aantal Input/Output Operations Per Second (IOPS), wat cruciaal is voor het lees-/schrijfintensieve karakter van AI-workloads. Tijdens de trainingsfase vereisen AI-modellen snelle toegang tot enorme gegevensopslagplaatsen, waardoor opslagoplossingen nodig zijn die de grote vraag naar gegevenstransacties kunnen bijbenen.

Bovenaanzicht van NVIDIA L40S GPU's

De Solidigm D5-P5336, ontworpen voor scenario's met hoge capaciteit en hoge prestaties, levert uitzonderlijke IOPS, waardoor snellere gegevensherstel- en schrijfprocessen mogelijk zijn. Deze mogelijkheid zorgt ervoor dat de GPU's bezig blijven met berekeningen in plaats van te wachten op gegevens, waardoor de efficiëntie wordt gemaximaliseerd en de trainingstijd wordt verkort. De hoge IOPS-prestaties van lokale NVMe SSD's maken ze ideaal voor de veeleisende omgevingen van AI-applicaties, waar snelle gegevenstoegang en -verwerking essentieel zijn voor optimale prestaties.

Data Management

Hoewel in sommige scenario's het hebben van voldoende opslag direct op de GPU het gegevensbeheer vereenvoudigt, voegt dit wel een noodzakelijke laag gegevensbeheer toe om de gegevens op de GPU-server te plaatsen. In een perfecte wereld is je GPU druk bezig en gaat je CPU naar het netwerk om controlepunten op te slaan of nieuwe gegevens te downloaden. De Solidigm-schijven van 61.44 TB helpen het aantal benodigde datatransacties te verminderen. U kunt hier ook rekening mee houden door een vereenvoudigde netwerkinstallatie en gedistribueerde bestandssystemen te gebruiken. Deze eenvoudige aanpak kan workflows stroomlijnen en de kans op gegevensgerelateerde fouten of vertragingen verkleinen.

Vooraanzicht van de Lenovo ThinkSystem SR675 V3

Stel dat u op één server werkt en modellen verfijnt die passen binnen een handvol lokaal aangesloten GPU's. In dat geval heeft u het voordeel van lokale opslag, die eenvoudiger is in te stellen en te beheren dan netwerkopslagoplossingen. Het configureren, beheren en onderhouden van netwerkopslag kan complex en tijdrovend zijn, en vereist vaak gespecialiseerde kennis en aanvullende infrastructuur. Lokale opslagoplossingen zoals NVMe SSD's zijn daarentegen eenvoudiger te integreren in bestaande serveropstellingen.

Lenovo ThinkSystem SR675 V3-schema

Door deze eenvoud in configuratie en onderhoud kunnen IT-teams zich meer concentreren op het optimaliseren van AI-workloads in plaats van zich bezig te houden met de complexiteit van netwerkopslagbeheer. Als gevolg hiervan wordt het implementeren en beheren van opslag voor AI-applicaties eenvoudiger en efficiënter met lokale NVMe SSD's.

Kosten en schaalbaarheid

Hoewel NAS-oplossingen horizontaal kunnen worden geschaald door meer opslagapparaten toe te voegen, brengen ze ook kosten met zich mee die verband houden met de netwerkinfrastructuur en mogelijke prestatieknelpunten. Omgekeerd kan investeren in lokale opslag met hoge capaciteit onmiddellijke prestatievoordelen opleveren zonder uitgebreide netwerkupgrades.

Lokale opslagoplossingen zijn vaak kosteneffectiever dan netwerkopslagsystemen (NAS), omdat ze de noodzaak van dure netwerkhardware en complexe configuraties elimineren. Het opzetten en onderhouden van NAS brengt aanzienlijke investeringen met zich mee in netwerkapparatuur, zoals snelle switches en routers, en voortdurende netwerkbeheer- en onderhoudskosten.

Lokale SSD's met grote capaciteit die rechtstreeks in de server zijn geïntegreerd, worden gebruikt als verzamelplaats, waardoor de behoefte aan extra infrastructuur wordt verminderd. Deze directe integratie verlaagt de hardwarekosten en vereenvoudigt het installatieproces, waardoor het budgetvriendelijker wordt voor organisaties die hun AI-workloads willen optimaliseren zonder hoge kosten te maken.

Testmethodologie

Om de prestaties van Solidigm 61.44TB QLC SSD's in een AI-serveropstelling grondig te evalueren, zullen we een array van vier van de Solidigm P5336 61.44TB SSD's benchmarken die zijn geïnstalleerd in een Lenovo ThinkSystem SR675 V3. Deze serverconfiguratie bevat ook een set van vier NVIDIA L40S GPU's. De benchmarkingtool die voor dit doel wordt gebruikt, is GDSIO, een gespecialiseerd hulpprogramma dat is ontworpen om de opslagprestaties in GPU-direct storage (GDS)-omgevingen te meten. We hebben naar twee configuraties gekeken: één GPU voor de prestaties van één schijf en één GPU voor vier schijven geconfigureerd voor RAID0.

Bovenaanzicht van de Lenovo ThinkSystem SR675 V3 met vier L40S GPU's

Blijf bij ons. In de volgende paragrafen worden de specificaties van de tests besproken en hoe deze verschillende stadia van de AI-pijplijn nabootsen.

Testparameters

Het benchmarkingproces omvat verschillende testparameters die verschillende stadia van de AI-pijplijn simuleren. Deze parameters omvatten io_sizes, threads en transfer_type, elk gekozen om specifieke aspecten van AI-workloads weer te geven.

1. IO-formaten:

  • 4K, 128K, 256K, 512K, 1M, 4M, 16M, 64M, 128M: Deze variërende I/O-groottes helpen bij het simuleren van verschillende gegevensoverdrachtpatronen. Kleinere I/O-groottes (128K, 256K, 512K) bootsen scenario's na waarin vaak toegang wordt verkregen tot kleine gegevensbrokken, wat typisch is tijdens gegevensvoorbereidingsfasen. Grotere I/O-formaten (1M, 4M, 16M, 64M, 128M) vertegenwoordigen bulkgegevensoverdrachten die vaak voorkomen tijdens trainings- en gevolgtrekkingsfasen, waarbij volledige gegevensbatches worden verplaatst.

2. Draden:

  • 1, 4, 16, 32: Het aantal threads vertegenwoordigt het gelijktijdigheidsniveau van gegevenstoegang. Eén enkele thread test de basisprestaties, terwijl hogere aantallen threads (4, 16, 32) intensievere, parallelle gegevensverwerkingsactiviteiten simuleren, vergelijkbaar met wat er gebeurt tijdens grootschalige trainingssessies waarbij meerdere gegevensstromen tegelijkertijd worden verwerkt.

3. Overdrachtstypen:

  • Opslag->GPU (GDS): Dit overdrachtstype maakt gebruik van GPU Direct Storage (GDS), waardoor directe gegevensoverdracht tussen de SSD's en de GPU's mogelijk is, waarbij de CPU wordt omzeild. Deze configuratie is ideaal voor het testen van de efficiëntie van directe gegevenspaden en het minimaliseren van de latentie, waarbij realtime deductiescenario's worden weerspiegeld.
  • Opslag->CPU->GPU: Bij dit traditionele pad voor gegevensoverdracht worden gegevens van de opslag naar de CPU verplaatst voordat ze naar de GPU worden overgebracht. Deze methode simuleert scenario's waarin tussentijdse verwerking of caching kan plaatsvinden op CPU-niveau, wat wordt verwacht tijdens de gegevensvoorbereidingsfase. We zouden kunnen stellen dat dit gegevenspad de prestaties zou vertegenwoordigen, ongeacht de GPU-leverancier.
  • Opslag->PAGE_CACHE->CPU->GPU: Dit pad gebruikt de paginacache voor gegevensoverdracht, waarbij gegevens eerst in het geheugen worden opgeslagen voordat ze door de CPU worden verwerkt en vervolgens naar de GPU worden overgebracht. Deze configuratie is handig voor het testen van de impact van cachingmechanismen en geheugenbandbreedte op de algehele prestaties, wat relevant is tijdens training wanneer gegevens voorverwerkt en in de cache worden opgeslagen voor efficiëntie. Nogmaals, we zouden kunnen stellen dat dit gegevenspad de prestaties zou vertegenwoordigen, ongeacht de GPU-leverancier.

Het nabootsen van AI-pijplijnfasen

De benchmarktests zijn ontworpen om verschillende stadia van de AI-pijplijn te weerspiegelen, waardoor wordt gegarandeerd dat de verkregen prestatiestatistieken relevant en alomvattend zijn.

Data voorbereiding:

  • IO-formaten: Kleiner (128K, 256K, 512K)
  • discussies: 1, 4
  • Overdrachtstypen: “Opslag->CPU->GPU”, “Opslag->PAGE_CACHE->CPU->GPU”
  • Doel: Evalueer hoe de SSD's omgaan met frequente kleine gegevensoverdrachten en CPU-betrokkenheid, cruciaal tijdens de gegevensopname, opschoning en augmentatiefasen.

Training en verfijning:

  • IO-formaten: Middelgroot tot groot (1M, 4M, 16M)
  • discussies: 4, 16, 32
  • Overdrachtstypen: “Opslag->GPU (GDS)”, “Opslag->CPU->GPU”
  • Doel: Beoordeel de prestaties onder omstandigheden met hoge gegevensdoorvoer en meerdere gelijktijdige gegevensstromen, die de intensieve gegevensverwerking vertegenwoordigen die vereist is tijdens modeltraining en -afstemming.

Inferentie:

  • IO-formaten: Groot tot zeer groot (16M, 64M, 128M) en 4K
  • discussies: 1, 4, 16
  • Overdrachtstypen: Opslag->GPU (GDS)
  • Doel: Meet de efficiëntie van directe, grootschalige gegevensoverdracht naar de GPU, cruciaal voor real-time deductietoepassingen waarbij snelle gegevenstoegang en minimale latentie van cruciaal belang zijn. 4K is ontworpen om te kijken naar zoekopdrachten in de RAG-database.

Door deze parameters te variëren en verschillende configuraties te testen, kunnen we een gedetailleerd prestatieprofiel van de Solidigm 61.44TB QLC SSD’s verkrijgen in een krachtige AI-serveromgeving, wat inzicht geeft in hun geschiktheid en optimalisatie voor verschillende AI-workloads. We hebben de gegevens onderzocht door gedurende een paar weken meer dan 1200 tests uit te voeren.

Server Configuration

Lenovo ThinkSystem SR675 V3 vooraanzicht


Lenovo ThinkSystem SR675 V3-architectuur

Benchmarkresultaten

Laten we eerst eens kijken naar de werklasten van het training- en inferentietype. De GPU Direct 1024K IO-grootte vertegenwoordigt het laden van modellen, trainingsgegevens die naar de GPU worden geladen en andere grote batch-inferentietaken zoals bij beeld- of videowerk.

4Rijden I / O-type Overdrachtstype Discussies Grootte van gegevensset (KiB) IO-grootte (KiB) Doorvoer (GiB/sec) Gem. latentie (usecs)
SCHRIJVEN GPUD 8 777,375,744 1024 12.31 634.55
LEZEN GPUD 8 579,439,616 1024 9.30 840.37
RANDSCHRIJVEN GPUD 8 751,927,296 1024 12.04 648.67
RANDLEZEN GPUD 8 653,832,192 1024 10.50 743.89

Vervolgens kijken we naar kleinere IO-groottes, voor een werklast van het RAG-type, waarbij bijvoorbeeld snelle willekeurige 4k-gegevenstoegang tot een RAG-database op schijf wordt opgeslagen. Efficiënte willekeurige I/O is noodzakelijk voor scenario's waarin deductieve werklasten toegang moeten krijgen tot gegevens op een niet-sequentiële manier, zoals bij aanbevelingssystemen of zoekapplicaties. De RAID0-configuratie vertoont goede prestaties voor sequentiële en willekeurige bewerkingen, wat cruciaal is voor AI-toepassingen waarbij een mix van toegangspatronen betrokken is, zoals RAG. De leeslatentiewaarden zijn opmerkelijk laag, vooral in de GPUD modus.

Er zijn hier acht werkthreads geselecteerd, die de SSD niet volledig verzadigen, maar een meer representatieve momentopname bieden van wat u kunt tegenkomen in een werklast van het RAG-type. Dit biedt een context van een kant-en-klare applicatie rond het perspectief van de GPU met een beperkt aantal bewerkingen en een hogere wachtrijdiepte. Het is vermeldenswaard dat dit aantoont dat er meer prestaties op tafel liggen die kunnen worden bereikt door verdere software-optimalisaties. .

4Rijden I / O-type Overdrachtstype Discussies Grootte van gegevensset (KiB) IO-grootte (KiB) Doorvoer (GiB/sec) Gem. latentie (usecs)
SCHRIJVEN GPUD 8 69,929,336 4 1.12 27.32
LEZEN GPUD 8 37,096,856 4 0.59 51.52
RANDSCHRIJVEN GPUD 8 57,083,336 4 0.91 33.42
RANDLEZEN GPUD 8 27,226,364 4 0.44 70.07

Als u GPU Direct niet gebruikt vanwege niet-ondersteunde bibliotheken of GPU's, zijn hier deze twee typen als u de CPU gebruikt bij de gegevensoverdracht. In deze specifieke server, de Lenovo ThinkSystem SR675 V3, zien we, omdat alle PCIe-apparaten het CPU-rootcomplex doorlopen, een vergelijkbare bandbreedte, maar krijgen we een negatieve invloed op onze latentie. We kunnen een verbetering verwachten in een systeem met PCIe-switches.

4Rijden I / O-type Overdrachtstype Discussies Grootte van gegevensset (KiB) IO-grootte (KiB) Doorvoer (GiB/sec) Gem. latentie (usecs)
SCHRIJVEN CPU_GPU 8 767,126,528 1024 12.24 638.05
LEZEN CPU_GPU 8 660,889,600 1024 10.58 738.75
RANDSCHRIJVEN CPU_GPU 8 752,763,904 1024 12.02 649.76
RANDLEZEN CPU_GPU 8 656,329,728 1024 10.47 746.26
SCHRIJVEN CPU_GPU 8 69,498,220 4 1.11 27.47
LEZEN CPU_GPU 8 36,634,680 4 0.58 52.31

De tabel geeft hoge doorvoersnelheden aan voor leesbewerkingen, vooral met de GPUD soort overdracht. Lees bijvoorbeeld bewerkingen in GPUD modus bereikt meer dan 10.5 GiB/sec. Dit komt de AI-workloads ten goede, waarbij vaak snelle gegevenstoegang vereist is voor het trainen van grote modellen.

De uitgebalanceerde prestaties tussen willekeurige en sequentiële bewerkingen maken deze configuratie geschikt voor het afleiden van taken, waarvoor vaak een combinatie van deze toegangspatronen vereist is. Hoewel de latentiewaarden niet extreem laag zijn, liggen ze nog steeds binnen aanvaardbare grenzen voor veel inferentietoepassingen.

Bovendien zien we indrukwekkende doorvoersnelheden, met schrijfbewerkingen tot 12.31 GiB/sec en leesbewerkingen tot 9.30 GiB/sec. Deze hoge doorvoer komt ten goede aan AI-workloads die snelle gegevenstoegang vereisen voor modeltraining en gevolgtrekking.

Sequentiële lezingen en optimalisatie

Als we naar een IO-grootte van 128 miljoen gaan en de werkthreads doorlopen, kunnen we het resultaat zien van het optimaliseren van de werklast voor een opslagoplossing.

Overdrachtstype Discussies Doorvoer (GiB/s) Latentie (usec)
Opslag->CPU->GPU 16 25.134916 79528.88255
Opslag->CPU->GPU 4 25.134903 19887.66948
Opslag->CPU->GPU 32 25.12613 159296.2804
Opslag->GPU (GDS) 4 25.057484 19946.07198
Opslag->GPU (GDS) 16 25.044871 79770.6007
Opslag->GPU (GDS) 32 25.031055 159478.8246
Opslag->PAGE_CACHE->CPU->GPU 16 24.493948 109958.4447
Opslag->PAGE_CACHE->CPU->GPU 32 24.126103 291792.8345
Opslag->GPU (GDS) 1 23.305366 5362.611458
Opslag->PAGE_CACHE->CPU->GPU 4 21.906704 22815.52797
Opslag->CPU->GPU 1 15.27233 8182.667969
Opslag->PAGE_CACHE->CPU->GPU 1 6.016992 20760.22778

Het correct schrijven van elke applicatie die met opslag communiceert, is van het grootste belang en moet worden overwogen omdat bedrijven hun GPU-investeringen willen maximaliseren.

GPU Direct

Door de GPU Direct-only-prestaties in alle tests te isoleren, kunnen we een algemeen idee krijgen van hoe de NVIDIA-technologie uitblinkt.

I / O-type Overdrachtstype Discussies Grootte van gegevensset (KiB) IO-grootte (KiB) Doorvoer (GiB/sec) Gem. latentie (usecs)
SCHRIJVEN GPUD 8 777,375,744 1024 12.31 634.55
LEZEN GPUD 8 579,439,616 1024 9.30 840.37
RANDSCHRIJVEN GPUD 8 751,927,296 1024 12.04 648.67
RANDLEZEN GPUD 8 653,832,192 1024 10.50 743.89
SCHRIJVEN GPUD 8 69,929,336 4 1.12 27.32
LEZEN GPUD 8 37,096,856 4 0.59 51.52
RANDSCHRIJVEN GPUD 8 8,522,752 4 0.14 224.05
RANDLEZEN GPUD 8 21,161,116 4 0.34 89.99
RANDSCHRIJVEN GPUD 8 57,083,336 4 0.91 33.42
RANDLEZEN GPUD 8 27,226,364 4 0.44 70.07

Sluiting Gedachten

Omdat dit artikel zich richt op de Solidigm 61.44TB P5336, laten we een stap terug doen en het TLC versus QLC-debat over prestaties versus capaciteit bespreken. Als we kijken naar andere producten uit het Solidigm-portfolio, zoals de D7-lijn, die gebruik maakt van TLC 3D NAND, dan is de capaciteit beperkt in ruil voor prestaties. In onze tests, met name met de Solidigm-schijven van 61.44 TB, zien we over het geheel genomen doorvoerprestaties die GPU's op adequate wijze kunnen voeden met gegevens met lage latentie. We horen feedback van ODM's en OEM's over de vraag naar steeds meer opslag zo dicht mogelijk bij de GPU, en de Solidigm D5-P5336-schijf lijkt hieraan te voldoen. Omdat er meestal een beperkt aantal NVMe-bays beschikbaar is in GPU-servers, staan ​​de dichte Solidigm-schijven bovenaan de lijst voor lokale GPU-serveropslag.

Uiteindelijk is de enorme opslagcapaciteit die deze schijven bieden, naast GPU's, slechts een deel van de oplossing; ze moeten nog steeds goed presteren. Zodra u de prestaties van één schijf over meerdere schijven verzamelt, wordt het duidelijk dat er voldoende doorvoer beschikbaar is, zelfs voor de meest veeleisende taken. In het geval van de RAID4-configuratie met 0 schijven die GDSIO gebruikt, kan de totale doorvoer voor schrijfbewerkingen oplopen tot 12.31 GiB/sec, en voor leesbewerkingen kan deze oplopen tot XNUMX GiB/sec. 25.13 GiB/sec.

Lenovo ThinkSystem SR675 V3 achteraanzicht voor GPU's

Dit doorvoerniveau is ruim voldoende voor zelfs de meest veeleisende AI-taken, zoals het trainen van grote deep-learning-modellen op enorme datasets of het uitvoeren van realtime gevolgtrekkingen op videostreams met hoge resolutie. De mogelijkheid om de prestaties te schalen door meer schijven aan de RAID0-array toe te voegen, maakt het een aantrekkelijke keuze voor AI-toepassingen waarbij snelle en efficiënte gegevenstoegang cruciaal is.

Het is echter belangrijk op te merken dat RAID0-configuraties weliswaar hoge prestaties bieden, maar geen gegevensredundantie bieden. Daarom is het essentieel om de juiste back-up- en gegevensbeschermingsstrategieën te implementeren om gegevensverlies bij een schijfstoring te voorkomen.

Een andere unieke overweging in datacenters van vandaag is stroom. Nu AI-servers meer stroom verbruiken dan ooit en geen tekenen van vertraging vertonen, is het totale beschikbare vermogen een van de grootste knelpunten voor degenen die GPU's in hun datacenters willen integreren. Dit betekent dat er nog meer aandacht is voor het besparen van elke mogelijke Watt. Als u meer TB per watt kunt krijgen, benaderen we enkele interessante denkprocessen rond TCO en infrastructuurkosten. Zelfs als u deze schijven van de GPU-server haalt en ze in een opslagserver op rackschaal plaatst, kunt u een enorme doorvoer met extreme capaciteiten realiseren.

De integratie van Solidigm D5-P5336 61.44TB QLC SSD's met NVMe-slot-gelimiteerde AI-servers vertegenwoordigt een aanzienlijke vooruitgang in het aanpakken van de opslaguitdagingen van moderne AI-workloads. Hun extreme dichtheid, prestatiekenmerken en TB/watt-verhouding maken ze ideaal voor datavoorbereiding, training en fijnafstemming, en inferentiefasen. Door het gebruik van PCIe-lanes te optimaliseren en opslagoplossingen met hoge capaciteit te bieden, stellen deze SSD's de moderne AI Factory in staat zich te concentreren op het ontwikkelen en implementeren van meer geavanceerde en nauwkeurige modellen, waardoor innovatie op het hele AI-gebied wordt gestimuleerd.

Solidigm SSD's

Lenovo ThinkSystem SR675 V3-pagina

Dit rapport is gesponsord door Solidigm. Alle standpunten en meningen in dit rapport zijn gebaseerd op onze onbevooroordeelde kijk op het (de) product(en) in kwestie.

Neem contact op met StorageReview

Nieuwsbrief | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS Feed