Home EnterpriseAI Schaalbare AI-controlepunten: de impact van SSD's met hoge capaciteit op modeltraining

Schaalbare AI-controlepunten: de impact van SSD's met hoge capaciteit op modeltraining

by Kevin OBrien

Controlepunten zijn essentieel voor de training van AI-modellen en zorgen voor veerkracht, efficiëntie en de mogelijkheid om de training te hervatten of bij te stellen vanuit opgeslagen statussen.

Checkpointing is cruciaal voor AI-modeltraining, en zorgt voor veerkracht, efficiëntie en de mogelijkheid om training te hervatten of bij te stellen vanuit opgeslagen staten. De eisen van moderne AI-workloads, met steeds complexere modellen en uitgebreide trainingsdatasets, pushen de opslag echter tot het uiterste.

De rol van controlepunten in AI-workflows

Checkpointing in AI-training is een kritisch proces dat het periodiek opslaan van de volledige status van het model tijdens de training omvat. Deze status omvat de modelgewichten en -parameters, optimizerstatussen, leerschema's en trainingsmetadata. Checkpointing creëert een uitgebreide momentopname van het trainingsproces op specifieke intervallen, wat zorgt voor trainingscontinuïteit en herstel in geval van onderbrekingen.

Checkpoints worden doorgaans uitgevoerd op iteratiegebaseerde intervallen (bijvoorbeeld elke duizend trainingsstappen). Moderne LLM-training, die weken of maanden kan duren en enorme rekenkracht kan verbruiken, vertrouwt zwaar op deze checkpoints als vangnet tegen mogelijke fouten. Bijvoorbeeld, het trainen van een model als de GPT-4-klasse kan checkpoints genereren die variëren van enkele honderden gigabytes tot meerdere terabytes, afhankelijk van de modelgrootte en trainingsconfiguratie.

Trainingsproces gegenereerd door DALL-E

Het primaire doel van checkpointing reikt verder dan alleen back-upfunctionaliteit. Het dient als een cruciaal mechanisme voor het trainen van veerkracht, waardoor de training kan worden hervat vanaf de laatst opgeslagen staat in plaats van helemaal opnieuw te beginnen in het geval van systeemstoringen, stroomuitval of hardwareproblemen. Bovendien zijn checkpoints van onschatbare waarde voor modelanalyse, waardoor onderzoekers de evolutie van het model in verschillende trainingsfasen kunnen onderzoeken en mogelijk kunnen terugdraaien naar eerdere staten als er prestatieverslechtering wordt gedetecteerd.

De schrijfpatronen tijdens checkpointing zijn met name interessant vanuit een opslagperspectief. Wanneer een checkpoint wordt geactiveerd, moet het systeem enorme hoeveelheden data schrijven in een burstpatroon. Dit creëert een onderscheidend I/O-profiel dat wordt gekenmerkt door periodes van relatief lage opslagactiviteit tijdens trainingsberekeningen, gevolgd door intensieve schrijfbewerkingen met hoge bandbreedte tijdens checkpointing. Deze schrijfbewerkingen zijn doorgaans sequentieel en kunnen aanzienlijk profiteren van opslagsystemen die zijn geoptimaliseerd voor sequentiële schrijfbewerkingen met hoge bandbreedte.

Verschillende parallelismestrategieën in gedistribueerde training kunnen een aanzienlijke impact hebben op het checkpointinggedrag. Deze parallelismestrategieën beïnvloeden wanneer checkpointing plaatsvindt tijdens de training en welk deel van het model wordt gecheckpoint. In moderne gedistribueerde trainingsopstellingen kunnen meerdere GPU's tegelijkertijd verschillende delen van dezelfde laag schrijven, waardoor complexe I/O-patronen ontstaan. Deze parallelle schrijfmogelijkheid is essentieel voor efficiëntie, maar vereist zorgvuldige coördinatie en robuuste opslagsystemen die gelijktijdige schrijfbewerkingen aankunnen en tegelijkertijd de gegevensconsistentie behouden. Het opslagsysteem moet in staat zijn om deze gelijktijdige schrijfbewerkingen effectief te beheren, aangezien elke bottleneck in dit proces kan leiden tot algehele trainingsvertragingen.

Langzame checkpointing kan aanzienlijke trainingsbottlenecks creëren, omdat het hele trainingsproces moet pauzeren terwijl het checkpoint naar de opslag wordt geschreven. Bijvoorbeeld, in een grootschalige trainingsopstelling, als checkpointing 30 minuten duurt om de paar uur, kan dit resulteren in meerdere uren opgebouwde downtime gedurende de hele trainingsperiode. Dit heeft direct invloed op de trainingsefficiëntie en verhoogt de operationele kosten, met name in cloudomgevingen waar computerbronnen op basis van tijd worden gefactureerd.

Met snellere checkpointing kunnen teams het zich ook veroorloven om vaker checkpoints te creëren, waardoor het maximale potentiële dataverlies in geval van fouten wordt verminderd. Dit maakt agressievere trainingsbenaderingen en betere experimentele iteratiecycli mogelijk. Bovendien vergemakkelijken snelle checkpoint-laadtijden snellere experimenten met verschillende trainingsconfiguraties en modelarchitecturen, omdat onderzoekers gemakkelijker kunnen herstellen van eerdere toestanden om alternatieve benaderingen te proberen.

Het vermogen van het opslagsysteem om deze checkpoint-bewerkingen efficiënt te verwerken, wordt een cruciale factor in de algehele trainingsinfrastructuur. Hoogwaardige opslagoplossingen die zowel de burst-schrijfpatronen van checkpointing als de aanhoudende lees-/schrijfbewerkingen van training kunnen beheren, kunnen een aanzienlijke impact hebben op de totale tijd en kosten van het trainen van grote taalmodellen. Daarom zijn de prestatiekenmerken van het opslagsubsysteem, met name bij het verwerken van grote sequentiële schrijfbewerkingen en het handhaven van een consistente hoge bandbreedte, cruciale overwegingen bij het ontwerpen van LLM-trainingsinfrastructuur.

Voor dit rapport wilden we de SSD-prestaties voor AI-checkpointing evalueren. Hierbij wilden we de voordelen van de nieuwste Gen5 SSD's evalueren wanneer de snelheid van checkpoints van cruciaal belang is, vergeleken met de grootste QLC SSD's op de markt. Deze kunnen grote aantallen checkpoints opslaan, wat gunstiger zou zijn voor het model dat wordt getraind.

Controlepuntprestaties – Benchmarking met DLIO

Om de prestaties van de Solidigm SSD in de praktijk in AI-trainingsomgevingen te evalueren, hebben we gebruikgemaakt van de Benchmarktool voor Data en Learning Input/Output (DLIO). DLIO is ontwikkeld door Argonne National Laboratory en is speciaal ontworpen om I/O-patronen te testen in deep learning-workloads. Het biedt inzicht in hoe opslagsystemen omgaan met checkpointing, data-ingestie en modeltraining-uitdagingen.

Met DLIO wilden we de doorvoer, latentie en betrouwbaarheid van de drive meten onder intensieve checkpointing-scenario's. Hoewel deze test werd uitgevoerd op de 61.44TB D5-P5336, lieten de eerste prestatiegegevens zien dat de Solidigm D5-P5336 122TB-versie een vergelijkbaar prestatieprofiel biedt. We hebben ook resultaten van een TLC-gebaseerde D7-PS1010 opgenomen om de voordelen van PCIe Gen5 in deze test te laten zien. We kozen deze twee drives om beide hoeken op checkpoints te laten zien, waarbij de ene de snelste mogelijke checkpointtijd is en de andere de meeste checkpoints op één SSD opslaat.

Het platform dat voor dit werk werd gekozen, was onze Dell PowerEdge R760 met Ubuntu 22.04.02 LTS. We gebruikten DLIO benchmarkversie 2.0 van de release van 13 augustus 2024. Onze systeemconfiguratie wordt hieronder beschreven:

  • 2x Intel Xeon Gold 6430 (32-core, 2.1 GHz)
  • 16x 64GB DDR5-4400
  • 480 GB Dell BOSS SSD
  • Seriële kabels Gen5 JBOF
    • 7.68TB Solide D7-PS1010
    • 61.44TB Solide D5-P5336

Om ervoor te zorgen dat onze benchmarking real-world scenario's weerspiegelde, baseerden we onze tests op de LLAMA 3.1 405B modelarchitectuur, waarbij we checkpointing implementeerden via torch.save() om modelparameters, optimizerstatussen en laagstatussen vast te leggen. Onze opstelling simuleerde een 8-GPU-systeem, waarbij we een hybride parallelismestrategie implementeerden met 4-weg tensor parallelle en 2-weg pijplijn parallelle verwerking verdeeld over de acht GPU's. Deze configuratie resulteerde in checkpointgroottes van 1,636 GB, wat representatief is voor de trainingsvereisten van moderne grote taalmodellen.

Ons testproces voor de DLIO-checkpoint-workload bestond uit het vullen van elke drive tot een vergelijkbaar gebruiksniveau. Voor de 61.44 TB Solidigm D5-P5336 omvatte elke doorgang 33 checkpoint-intervallen, wat neerkomt op 54 TB. De kleinere 7.68 TB D7-PS1010 paste gemakkelijk in drie checkpoint-intervallen, met een totale footprint van 4.9 TB. Eén extra checkpoint paste in de D7-PS1010, hoewel het gebruik ervan iets hoger was dan we wilden.

De DLIO-checkpoint-workload leverde interessante resultaten op toen we de Gen4 QLC-gebaseerde 61.44TB D5-P5536 vergeleken met de Gen5 TLC-gebaseerde 7.68TB D7-PS1010. Tijdens de eerste doorgang, toen de schijven vol raakten, zagen we een grotere kloof in prestaties tussen de twee SSD-modellen. De snellere Gen5 PS1010 voltooide elk checkpoint gemiddeld in 464 seconden, vergeleken met 623 seconden van de Gen4 P5336. In doorgangen twee en drie werd de kloof kleiner tot 579 en 587 seconden voor de PS1010 en 676 en 680 seconden voor de P5336.

Voor bedrijven die op zoek zijn naar de kleinst mogelijke kloof in checkpointing-intervallen, biedt de TLC-gebaseerde Gen5 PS1010 een voordeel in de snelste voltooiingstijd. Als het doel is om veel checkpoints kosteneffectief te behouden, kan de QLC-gebaseerde Gen4 P5336 dat doen. We hebben een verschil in gemiddelde checkpointtijden van minder dan 17% gemeten tussen beide drives tijdens de tweede en derde ronde.

GPUDirect-opslagbandbreedte

Terwijl DLIO flash-prestaties in een AI-workflow laat zien, is de workload volledig schrijfgebaseerd totdat een checkpoint is hersteld. Om een ​​vollediger beeld te schetsen van de Solidigm D7-PS1010 en D5-P5336 in AI-workloads, hebben we leesbandbreedtemetingen opgenomen met behulp van GDSIO.

Hoe GPU Direct Storage werkt

Traditioneel, wanneer een GPU gegevens verwerkt die zijn opgeslagen op een NVMe-schijf, moeten de gegevens eerst door de CPU en het systeemgeheugen reizen voordat ze de GPU bereiken. Dit proces introduceert knelpunten, omdat de CPU een tussenpersoon wordt, latentie toevoegt en waardevolle systeembronnen verbruikt. GPU Direct Storage elimineert deze inefficiëntie door de GPU in staat te stellen om rechtstreeks vanaf het opslagapparaat toegang te krijgen tot gegevens via de PCIe-bus. Dit directe pad vermindert de overhead die gepaard gaat met gegevensverplaatsing, wat snellere en efficiëntere gegevensoverdrachten mogelijk maakt.

AI-workloads, met name die met deep learning, zijn zeer data-intensief. Het trainen van grote neurale netwerken vereist het verwerken van terabytes aan data, en elke vertraging in dataoverdracht kan leiden tot onderbenutte GPU's en langere trainingstijden. GPU Direct Storage pakt deze uitdaging aan door ervoor te zorgen dat data zo snel mogelijk naar de GPU wordt geleverd, waardoor inactieve tijd wordt geminimaliseerd en de rekenefficiëntie wordt gemaximaliseerd.

Net als bij de DLIO-test is het doel om de verschillen tussen snelle Gen5 SSD's en QLC-schijven met hoge capaciteit beter te begrijpen en te karakteriseren. Niet elke AI-werklast is hetzelfde en elke schijf biedt specifieke voordelen, afhankelijk van de behoefte.

Testconfiguratiematrix

We hebben systematisch elke combinatie van de volgende parameters getest met een NVIDIA L4 in ons testplatform:

  • Blokformaten: 1M, 128K, 64K, 16K, 8K
  • Aantal draden: 128, 64, 32, 16, 8, 4, 1
  • Aantal banen: 16
  • Batchgroottes: 16

Onze eerste blik was op de QLC-gebaseerde D5-P5336, die een maximumsnelheid van 4.2 GiB/s bereikte met een overdrachtsgrootte van 1 M bij een IO-diepte van 128. Het effect van blokgroottes zorgde voor een substantiële toename in bandbreedte, van 8K naar 1 M. Het voordeel van een grotere IO-diepte begon af te nemen bij 32, waar de werklasten zich begonnen af ​​te vlakken.

Vervolgens kijken we naar de Gen5 PS-1010, die kan opschalen tot 6.2 GiB/s bij een blokgrootte van 1M en een IO-diepte van 128. Over de hele linie presteerde het beter dan de Gen4-gebaseerde P5336, waarbij bepaalde workloads een substantiële stijging lieten zien. Een opmerkelijk gebied van verbetering was de blokgrootte van 128K, waarbij de PS64 bij een IO-diepte van 128 en 1010 het dubbele van de leesbandbreedte van de P5336 bood.

Het is belangrijk om op te merken dat beide SSD's zijn getest met de NVIDIA L4. Terwijl de Gen4 D5-P5336 op of nabij zijn topklasse zit, lieten NVIDIA GPU's van het hogere model, zoals de H100, hogere prestaties zien met de D7-PS1010. De snelheid van een drive is de ultieme beslissende factor voor sommige klanten, terwijl anderen prioriteit geven aan de algehele dichtheid. Solidigma biedt oplossingen voor beide, met zijn QLC en TLC SSD-aanbiedingen.

Conclusie

Naarmate de schaal en complexiteit van AI-training blijven toenemen, moet de onderliggende opslaginfrastructuur niet alleen gelijke tred houden, maar ook het tempo bepalen. Onze tests met twee zeer verschillende SSD's illustreren het belang van het afstemmen van opslagoplossingen op specifieke trainingsprioriteiten, zoals het minimaliseren van checkpoint-latentie of het maximaliseren van checkpoint-dichtheid voor kosteneffectieve schaalbaarheid.

In onze evaluatie hebben we de Solidigm D5-P5336 (61.44 TB) en de D7-PS1010 (7.68 TB) getest onder realistische AI-trainingsomstandigheden met behulp van de DLIO-benchmark en een uitgebreide hybride-parallelle LLM-checkpointingworkflow. We hebben statistieken vastgelegd die de checkpoint-schrijfprestaties over meerdere runs weerspiegelen naarmate de schijven worden gevuld, waarbij verschillen in voltooiingstijden tussen de Gen4 QLC-gebaseerde D5-P5336 en de Gen5 TLC-gebaseerde D7-PS1010 worden benadrukt.

Terwijl de D7-PS1010 de snelst mogelijke checkpoint-schrijfbewerkingen leverde, toonde de D5-P5336 overtuigende kosteneffectiviteit en capaciteitsvoordelen met slechts een bescheiden prestatieverlies. We onderzochten verder GPU Direct Storage-leesbandbreedtes met GDSIO via een NVIDIA L4 GPU. We ontdekten dat de Solidigm D5-P5336 tot 4.2 GiB/s aan leesbandbreedte bood met een overdrachtsgrootte van 1M, terwijl de D7-PS1010 een aanzienlijke verhoging bood tot 6.2 GiB/s. U zou een nog sterkere prestatie zien door een nog grotere GPU te benutten, zoals de NVIDIA L40s of H100/H200.

Vooruitkijkend zal de ongekende capaciteit van de Solidigm D5-P5336 122TB SSD de AI-training en -implementatie opnieuw vormgeven. Naarmate de modelgroottes en de vereisten voor controlepunten blijven toenemen, openen deze enorme schijven de deur naar nieuwe niveaus van efficiëntie en flexibiliteit, waardoor trainingsstrategieën mogelijk worden die voorheen onbereikbaar waren. Solidigm's leiderschap in SSD-oplossingen met hoge capaciteit stelt organisaties in staat om meer gegevens en controlepunten op minder schijven op te slaan en helpt hun infrastructuren toekomstbestendig te maken tegen de volgende golf van AI-complexiteit.

Solide D5-P5336 122TB SSD

Dit rapport is gesponsord door Solidigm. Alle standpunten en meningen in dit rapport zijn gebaseerd op onze onbevooroordeelde kijk op het (de) product(en) in kwestie.

Neem contact op met StorageReview

Nieuwsbrief | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS Feed