Eerder dit jaar publiceerde Intel prestatieresultaten tussen Intel Habana Gaudi2 en GPU-marktleider NVIDIA, die de toewijding van Intel aan AI illustreerden en bewezen dat AI geen one-size-fits-all categorie is. Tegelijkertijd creëerde een gezamenlijke ontwikkeling tussen Intel AI-onderzoekers en Microsoft Research BridgeTower, een vooraf getrainde multimodale transformator die ultramoderne vision-taaltaken levert. Hugging Face heeft dit model geïntegreerd in zijn open-sourcebibliotheek voor machine learning.
Eerder dit jaar publiceerde Intel prestatieresultaten tussen Intel Habana Gaudi2 en GPU-marktleider NVIDIA, die de toewijding van Intel aan AI illustreerden en bewezen dat AI geen one-size-fits-all categorie is. Tegelijkertijd creëerde een gezamenlijke ontwikkeling tussen Intel AI-onderzoekers en Microsoft Research BridgeTower, een vooraf getrainde multimodale transformator die ultramoderne vision-taaltaken levert. Hugging Face heeft dit model geïntegreerd in zijn open-sourcebibliotheek voor machine learning.
Habana Gaudi2 Mezzanine-kaart (credit: Intel Corporation)
Hugging Face publiceerde de originele benchmarkresultaten in een blogpost op haar website en werkte de benchmarkresultaten voor AI-trainingsprestaties voor Habana Gaudi2 en NVIDIA's H100 GPU bij. Volgens deze benchmarkresultaten presteerde Gaudi2 beter dan H100 wat betreft het verkrijgen van het multimodale transformator BridgeTower-model, maar Gaudi2 gebruikte Optimaal Havana, behaalde x2.5 keer betere prestaties dan de A100. De resultaten bevestigden niet alleen Gaudi2's plaats op het gebied van AI, maar ook op het gebied van Vision-Taaltraining.
Optimum Habana is de interface tussen de Transformers en Diffusers-bibliotheken en Habana's Gaudi-processor (HPU). Het biedt tools waarmee u eenvoudig modellen kunt laden, trainen en inferentie kunt maken over single- en multi-HPU-instellingen voor verschillende downstream-taken.
BridgeTower-achtergrond
Vision-taalmodellen gebruiken unimodale encoders om datarepresentaties te verwerven. De gegevens worden vervolgens gecombineerd of ingevoerd in een cross-modale encoder. BridgeTower onderscheidt zich door zijn unieke bruglagen, die de bovenste lagen van unimodale encoders verbinden met elke laag van de cross-modale encoder, waardoor een efficiënte combinatie van visuele en tekstuele gegevens op verschillende niveaus mogelijk is.
BridgeTower, getraind op slechts 4 miljoen afbeeldingen, stelt nieuwe prestatienormen en levert een nauwkeurigheid van 78.73 procent op de Visual Question Answering (VQAv2)-test. Dat overtreft het vorige beste model met 1.09 procent. Bij opschaling heeft het model een nog hogere nauwkeurigheid van 81.15 procent, waarmee het de modellen overtreft die op veel grotere datasets zijn getraind.
Als vision-taalmodel van het hoogste niveau zijn de prestaties van BridgeTower te danken aan het vermogen om snel gegevens te laden met behulp van speciale hardware. Deze snelle methoden voor het laden van gegevens zijn gunstig voor vision-modellen, die vaak te maken hebben met uitdagingen bij het laden van gegevens.
Hardware-inzichten
De bijgewerkte benchmarktests waren gebaseerd op de nieuwste hardware en software van NVIDIA en Habana Labs. De NVIDIA H100 Tensor Core GPU is INVIDIA's nieuwste en snelste GPU, met een Transformer Engine voor gespecialiseerde runs en 80 GB geheugen. Met behulp van de derde iteratie van Tensor Core-technologie is de Nvidia A100 Tensor Core GPU overal verkrijgbaar bij cloudproviders, met 80 GB geheugen voor superieure snelheid ten opzichte van zijn tegenhanger van 40 GB.
Habana Labs Habana Gaudi2 is de tweede generatie AI-hardware van Habana Labs die plaats biedt aan maximaal 8 HPU's, elk met 96 GB geheugen. Er wordt aangeprezen dat het gebruiksvriendelijke functies heeft en, in combinatie met Optimum Habana, het overbrengen van op Transformers gebaseerde codes naar Gaudi eenvoudiger maakt.
Benchmarkdetails
De test omvatte het verfijnen van een BridgeTower-model met 866 miljoen parameters en het trainen in het Engels met behulp van verschillende technieken op verschillende datasets. De volgende stap betrof een verdere verfijning met behulp van de dataset van de New Yorker Caption Contest. Alle platforms gebruikten dezelfde instellingen en verwerkten batches van elk 48 monsters voor consistente resultaten.
Een uitdaging bij dergelijke experimenten is het tijdrovende laden van beeldgegevens. In het ideale geval moeten onbewerkte gegevens rechtstreeks naar de apparaten worden gestuurd voor decodering. De focus verschuift nu naar het optimaliseren van dit gegevenslaadproces.
Het laden van gegevens optimaliseren
Voor het sneller laden van afbeeldingen op de CPU kan het vergroten van het aantal subprocessen nuttig zijn. Met behulp van Transformers' TrainingArguments kan het dataloader_num_workers=N argument het aantal CPU-subprocessen voor het laden van gegevens instellen. De standaardinstelling is 0, wat betekent dat gegevens door het hoofdproces worden geladen, maar dit is mogelijk niet efficiënt. Het verhogen ervan kan de snelheid verbeteren, maar het zal ook het RAM-verbruik verhogen. De aanbevolen instelling is het aantal CPU-kernen. Het is echter het beste om eerst te experimenteren om de optimale configuratie te bepalen.
Deze benchmark had drie verschillende runs:
- Een uitvoering met gemengde precisie op acht apparaten, waarbij het laden van gegevens hetzelfde proces deelt met andere taken (dataloader_num_workers=0).
- Een soortgelijke run, maar met een speciaal subproces voor het laden van gegevens (dataloader_num_workers=1).
- Dezelfde opzet maar met twee speciale subprocessen (dataloader_num_workers=2).
Hardwareversneld laden van gegevens met Optimum Habana
Om de snelheid verder te verbeteren, kunt u taken voor het laden van gegevens verplaatsen van de CPU naar acceleratieapparaten, zoals HPU's op Gaudi2 of GPU's op de A100/H100, met behulp van Habana's mediapijplijn. In plaats van afbeeldingen volledig op de CPU te verwerken, kunnen gecodeerde afbeeldingen rechtstreeks naar de apparaten worden verzonden voor decodering en augmentatie. Deze aanpak maximaliseert de rekenkracht van het apparaat, maar kan het geheugenverbruik van het apparaat verhogen.
Twee effectieve methoden om trainingsworkflows met afbeeldingen te verbeteren, zijn het toewijzen van meer dataloaderbronnen en het gebruik van acceleratorapparaten voor beeldverwerking. Bij het trainen van geavanceerde vision-taalmodellen zoals BridgeTower zorgen deze optimalisaties ervoor dat Habana Gaudi2 met Optimum Habana aanzienlijk sneller is dan NVIDIA-tegenhangers. Habana Gaudi2 is gebruiksvriendelijk, er zijn slechts enkele aanvullende trainingsargumenten nodig.
Neem contact op met StorageReview
Nieuwsbrief | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS Feed