Hem FöretagAI Habana Gaudi2 AI-acceleratorer överträffar NVIDIA H100 på BridgeTower-modeller

Habana Gaudi2 AI-acceleratorer överträffar NVIDIA H100 på BridgeTower-modeller

by Harold Fritts
Intel Habana Gaudi2

Tidigare i år publicerade Intel prestandaresultat mellan Intel Habana Gaudi2 och GPU-marknadsledaren NVIDIA som illustrerade Intels engagemang för AI och visade att AI inte är en kategori som passar alla. Samtidigt skapade en gemensam utveckling mellan Intel AI-forskare och Microsoft Research BridgeTower, en förutbildad multimodal transformator som levererar toppmoderna vision-språkuppgifter. Hugging Face har integrerat den här modellen i sitt bibliotek med öppen källkod för maskininlärning.

Tidigare i år publicerade Intel prestandaresultat mellan Intel Habana Gaudi2 och GPU-marknadsledaren NVIDIA som illustrerade Intels engagemang för AI och visade att AI inte är en kategori som passar alla. Samtidigt skapade en gemensam utveckling mellan Intel AI-forskare och Microsoft Research BridgeTower, en förutbildad multimodal transformator som levererar toppmoderna vision-språkuppgifter. Hugging Face har integrerat den här modellen i sitt bibliotek med öppen källkod för maskininlärning.

Intel Habana Gaudi2

Habana Gaudi2 Mezzanine Card (kredit: Intel Corporation)

Hugging Face publicerade de ursprungliga benchmarkresultaten i ett blogginlägg på sin webbplats och uppdaterade AI-träningsprestandaresultaten för Habana Gaudi2 och NVIDIAs H100 GPU. Enligt dessa benchmarkresultat överträffade Gaudi2 H100 för att få multimodal transformator BridgeTower-modell, men Gaudi2, med Optimal Habana, uppnådde x2.5 gånger bättre prestanda än A100. Resultaten bekräftade inte bara Gaudi2s plats inom AI-området utan också inom Vision-Language-träning.

Optimum Habana är gränssnittet mellan Transformers och Diffusers biblioteken och Habanas Gaudi-processor (HPU). Den tillhandahåller verktyg som möjliggör enkel modellladdning, utbildning och slutledning av enkel- och multi-HPU-inställningar för olika nedströmsuppgifter.

BridgeTower bakgrund

Visionsspråksmodeller använder uni-modala kodare för att få datarepresentationer. Data kombineras sedan eller matas in i en tvärmodal kodare. BridgeTower utmärker sig med sina unika bryggskikt, som länkar de översta skikten av uni-modala kodare till varje lager i den cross-modala kodaren, vilket möjliggör en effektiv kombination av visuella och textuella data på olika nivåer.

BridgeTower, utbildad på bara 4 miljoner bilder, sätter nya prestandastandarder och levererar 78.73 procents noggrannhet i testet Visual Question Answering (VQAv2). Det överträffar den tidigare bästa modellen med 1.09 procent. Uppskalning har modellen en ännu högre noggrannhet på 81.15 procent, vilket är bäst för modeller tränade på mycket större datamängder.

Som en vision-språkmodell på toppnivå beror BridgeTowers prestanda på dess förmåga att snabbt ladda data med hjälp av speciell hårdvara. Dessa snabba dataladdningsmetoder är fördelaktiga för visionmodeller, som ofta står inför utmaningar med dataladdning.

Hårdvaruinsikter

De uppdaterade benchmarktesterna baserades på den senaste hårdvaran och mjukvaran från NVIDIA och Habana Labs. NVIDIA H100 Tensor Core GPU är INVIDIAs senaste och snabbaste GPU, med en Transformer Engine för specialiserade körningar och 80 GB minne. Genom att använda den tredje iterationen av Tensor Core-tekniken är Nvidia A100 Tensor Core GPU allmänt tillgänglig hos molnleverantörer, med 80 GB minne för överlägsen hastighet jämfört med dess motsvarighet på 40 GB.

Habana Labs Habana Gaudi2 är andra generationens AI-hårdvara från Habana Labs som kan rymma upp till 8 HPU: er, var och en med 96 GB minne. Det är utsedda att ha användarvänliga funktioner och, i kombination med Optimum Habana, gör det enklare att överföra Transformers-baserade koder till Gaudi.

Benchmarking detaljer

Testet innebar att finjustera en BridgeTower-modell med 866 miljoner parametrar och tränad på engelska med hjälp av olika tekniker på flera datamängder. Nästa steg innebar ytterligare finjustering med hjälp av New Yorker Caption Contest-datauppsättningen. Alla plattformar använde samma inställningar och bearbetade satser med 48 prov vardera för konsekventa resultat.

En utmaning i sådana experiment är den tidskrävande laddningen av bilddata. Optimalt sett bör rådata skickas direkt till enheterna för avkodning. Fokus skiftar nu till att optimera denna dataladdningsprocess.

Optimera dataladdning

För snabbare bildladdning på CPU:n kan ökade delprocesser vara till hjälp. Med hjälp av Transformers TrainingArguments kan argumentet dataloader_num_workers=N ställa in antalet CPU-underprocesser för dataladdning. Standardinställningen är 0, vilket betyder att data laddas av huvudprocessen, men detta kanske inte är effektivt. Att öka den kan förbättra hastigheten, men det kommer också att öka RAM-förbrukningen. Den rekommenderade inställningen är antalet CPU-kärnor. Det är dock bäst att experimentera först för att bestämma den optimala konfigurationen.

Detta benchmark hade tre distinkta körningar:

  • En körning med blandad precision över åtta enheter, där dataladdning delar samma process med andra uppgifter (dataloader_num_workers=0).
  • En liknande körning men med en dedikerad underprocess för dataladdning (dataloader_num_workers=1).
  • Samma inställning men med två dedikerade underprocesser (dataloader_num_workers=2).

Hårdvaruaccelererad dataladdning med Optimum Habana

För att ytterligare öka hastigheten kan du flytta dataladdningsuppgifter från CPU till acceleratorenheter, som HPU:er på Gaudi2 eller GPU:er på A100/H100, med hjälp av Habanas mediapipeline. Istället för att bearbeta bilder helt på CPU:n kan kodade bilder skickas direkt till enheterna för avkodning och förstärkning. Detta tillvägagångssätt maximerar enhetens datorkraft men kan öka enhetens minnesförbrukning.

Två effektiva metoder för att förbättra träningsarbetsflöden med bilder är att allokera mer dataladdningsresurser och att använda acceleratorenheter för bildbehandling. När man tränar avancerade visionspråksmodeller som BridgeTower gör dessa optimeringar Habana Gaudi2 med Optimum Habana betydligt snabbare än NVIDIA-motsvarigheter. Habana Gaudi2 är användarvänlig, med bara några ytterligare träningsargument som behövs.

Engagera dig med StorageReview 

Nyhetsbrev | Youtube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | Rssflöde