Home EnterpriseAI Intel Habana Gaudi2-versnellers bieden NVIDIA-alternatief voor grote taalmodellen

Intel Habana Gaudi2-versnellers bieden NVIDIA-alternatief voor grote taalmodellen

by Jordaan Ranous
Intel Habana Gaudí2

De Intel Habana Gaudi2 deep learning accelerator en 4e generatie Intel Xeon Scalable processors hebben indrukwekkende resultaten laten zien in de MLPerf Training 3.0 benchmark, volgens een persbericht van het bedrijf. De benchmark, gepubliceerd door MLCommons, is een algemeen erkende industriestandaard voor AI-prestaties.

De Intel Habana Gaudi2 deep learning accelerator en 4e generatie Intel Xeon Scalable processors hebben indrukwekkende resultaten laten zien in de MLPerf Training 3.0 benchmark, volgens een persbericht van het bedrijf. De benchmark, gepubliceerd door MLCommons, is een algemeen erkende industriestandaard voor AI-prestaties.

De resultaten dagen het heersende verhaal uit de branche uit dat generatieve AI en grote taalmodellen (LLM's) alleen op NVIDIA GPU's kunnen draaien. Intels portfolio van AI-oplossingen biedt concurrerende alternatieven voor klanten die afstand willen nemen van gesloten ecosystemen die de efficiëntie en schaalbaarheid beperken.

Intel Habana Gaudí2

Een foto toont de Habana Gaudi2 Mezzanine Card. Op 10 mei 2022 lanceerde Habana Labs, het datacenterteam van Intel dat zich richt op AI deep learning-processortechnologieën, zijn tweede generatie deep learning-processors voor training en inferentie: Habana Gaudi2 en Habana Greco. (Credit: Intel Corporation)

Wat is MLPerf?

Uw partner voor MLPerf-training 3.0 benchmark suite meet de snelheid waarmee verschillende systemen modellen kunnen trainen om te voldoen aan een bepaalde kwaliteitsmaatstaf. De benchmarks bestrijken verschillende gebieden, waaronder visie, taal en commercie, en gebruiken verschillende datasets en kwaliteitsdoelstellingen.

Benchmarkdetails

De Omgeving criterium dataset Kwaliteitsdoel Referentie Implementatiemodel
Visie Afbeeldingsclassificatie IMAGEnet 75.90% classificatie ResNet-50 v1.5
Visie Beeldsegmentatie (medisch) KiTS19 0.908 Gemiddelde DICE-score 3D U-net
Visie Objectdetectie (lichtgewicht) Open afbeeldingen 34.0% kaart Retina Net
Visie Objectdetectie (zwaar gewicht) COCO 0.377 Box min AP en 0.339 Mask min AP Masker R-CNN
Taal Spraakherkenning LibriSpraak 0.058 woordfoutpercentage RNN-T
Taal NLP Wikipedia-2020/01/01 0.72 Mask-LM-nauwkeurigheid BERT-groot
Taal LLM C4 2.69 log verbijstering GPT3
Lenen en verhuur Aanbeveling Criteo 4TB multi-hot 0.8032 AUC DLRM-dcnv2

Op het gebied van het gezichtsveld omvatten de benchmarks beeldclassificatie met behulp van de ImageNet-dataset met een kwaliteitsdoelstelling van 75.90% classificatienauwkeurigheid. Het referentiemodel voor deze taak is ResNet-50 v1.5. Andere visuele benchmarks zijn beeldsegmentatie met behulp van de KiTS19 medische dataset en objectdetectie met behulp van de Open Beelden en COCO datasets.

Voor taaltaken omvatten de benchmarks spraakherkenning met behulp van de LibriSpeech-dataset met een kwaliteitsdoel van een 0.058 Word Error Rate. Het referentiemodel voor deze taak is RNN-T. Andere taalbenchmarks zijn onder meer natuurlijke taalverwerking (NLP) met behulp van de Wikipedia 2020/01/01 dataset en large language model (LLM) training met behulp van de C4 dataset.

Op het gebied van handel is de benchmark een aanbevelingstaak met behulp van de Criteo 4TB multi-hot dataset met een kwaliteitsdoel van 0.8032 AUC. Het referentiemodel voor deze taak is DLRM-dcnv2.

Meetstatistiek

De benchmarksuite meet de tijd die nodig is om een ​​model op een specifieke dataset te trainen om een ​​bepaald kwaliteitsdoel te bereiken. Vanwege de inherente variabiliteit in trainingstijden voor machine learning, worden de uiteindelijke resultaten verkregen door de benchmark meerdere keren uit te voeren, de hoogste en laagste resultaten te negeren en vervolgens het gemiddelde van de resterende resultaten te nemen. Desondanks is er nog steeds enige afwijking in de resultaten, waarbij de benchmarkresultaten voor beeldvorming een afwijking van ongeveer +/- 2.5% hebben en andere benchmarks een afwijking van ongeveer +/- 5%.

Benchmark-divisies

MLPerf stimuleert innovatie in software en hardware door deelnemers in staat te stellen de referentie-implementaties opnieuw te implementeren. Er zijn twee divisies in MLPerf: de Closed en Open divisies. De Closed-divisie is ontworpen om hardwareplatforms of softwareframeworks rechtstreeks te vergelijken en vereist het gebruik van hetzelfde model en dezelfde optimizer als de referentie-implementatie. Aan de andere kant stimuleert de Open-divisie de ontwikkeling van snellere modellen en optimizers en maakt elke machine learning-benadering mogelijk om de doelkwaliteit te bereiken.

Beschikbaarheid van het systeem

MLPerf categoriseert benchmarkresultaten op basis van systeembeschikbaarheid. Systemen die zijn gecategoriseerd als "Beschikbaar" bestaan ​​alleen uit componenten die in de cloud kunnen worden gekocht of gehuurd. "Preview"-systemen zullen naar verwachting beschikbaar zijn in de volgende indieningsronde. Ten slotte bevatten systemen die zijn gecategoriseerd als "Onderzoek, ontwikkeling of intern (RDI)" hardware of software die experimenteel, in ontwikkeling of voor intern gebruik is.

Intel Habana Guadi2 verschijnt

Met name de Gaudi2 deep learning accelerator was sterk prestatie op het grote taalmodel, GPT-3, waardoor het een van de slechts twee halfgeleideroplossingen is die prestatieresultaten voor LLM-training van GPT-3 indienen. De Gaudi2 biedt ook aanzienlijke kostenvoordelen op het gebied van server- en systeemkosten, waardoor het een aantrekkelijk prijs/prestatie-alternatief is voor NVIDIA's H100.

De 4e generatie Xeon-processors met Intel AI-engines toonden aan dat klanten een universeel AI-systeem konden bouwen voor gegevensvoorverwerking, modeltraining en implementatie, met AI-prestaties, efficiëntie, nauwkeurigheid en schaalbaarheid.

De Gaudi2 leverde een indrukwekkende time-to-train op GPT-3, met 311 minuten op 384 versnellers en een bijna lineaire schaalvergroting van 95% van 256 naar 384 versnellers op het GPT-3-model. Het toonde ook uitstekende trainingsresultaten in computervisie en natuurlijke taalverwerkingsmodellen. De Gaudi2 resultaten werden "out of the box" ingediend, wat betekent dat klanten vergelijkbare prestatieresultaten kunnen verwachten bij het implementeren van Gaudi2 op locatie of in de cloud.

De 4e generatie Xeon-processors, als de enige CPU-inzending tussen talloze alternatieve oplossingen, bewezen dat Intel Xeon-processors ondernemingen out-of-the-box mogelijkheden bieden om AI in te zetten op algemene systemen, waardoor de kosten en complexiteit van het introduceren van speciale AI worden vermeden systemen.

Habana Gaudi2 Cluster met 8 knooppunten

In de Natural Language Processing (NLP)-taak met behulp van de Wikipedia-dataset en het BERT-large-model behaalde de Gaudi2 een trainingstijd van 2.103 minuten met 64 versnellers.

In de beeldsegmentatie (medische) taak met behulp van de KiTS19-dataset en het 3D U-Net-model behaalde de Gaudi2 een trainingstijd van 16.460 minuten met TensorFlow en 20.516 minuten met PyTorch, beide met acht versnellers.

In de Recommendation-taak met behulp van de Criteo 4TB-dataset en het DLRM-dcnv2-model behaalde de Gaudi2 een trainingstijd van 14.794 minuten met PyTorch en 14.116 minuten met TensorFlow, beide met acht versnellers.

In de gesloten divisie konden 4e generatie Xeons BERT- en ResNet-50-modellen trainen in respectievelijk minder dan 50 en minder dan 90 minuten. Met BERT in de open divisie trainde Xeon het model in ongeveer 30 minuten bij het uitschalen naar 16 nodes.

Deze resultaten benadrukken de uitstekende schaalefficiëntie die mogelijk is met behulp van kosteneffectieve en gemakkelijk verkrijgbare netwerkadapters uit de Intel Ethernet 800-serie die gebruikmaken van de open-source Intel Ethernet Fabric Suite-software op basis van Intel oneAPI.

Marktimpact

De resultaten van Intel Habana Gaudi2 in de MLPerf Training 3.0-benchmark onderstrepen de toewijding van het bedrijf om concurrerende en efficiënte AI-oplossingen te bieden voor een breed scala aan toepassingen, van het datacenter tot de intelligente edge. NVIDIA is in dit opzicht duidelijk de leider van het clubhuis, en elke serverleverancier struikelt over zichzelf om de industrie een breed scala aan GPU-zware dozen te laten zien die klaar zijn voor AI-workloads. Maar deze gegevens bevestigen opnieuw dat AI geen one-size-fits-all categorie is en dat Intel zijn steentje bijdraagt ​​om de industrie keuzes te geven. Het nettoresultaat is een overwinning voor organisaties die AI inzetten, aangezien meer concurrentie en keuze meestal een goede zaak is.

Habana Gaudí2

Neem contact op met StorageReview

Nieuwsbrief | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS Feed