Laut einer Pressemitteilung des Unternehmens haben der Deep-Learning-Beschleuniger Intel Habana Gaudi2 und die skalierbaren Intel Xeon-Prozessoren der 4. Generation beeindruckende Ergebnisse im MLPerf Training 3.0-Benchmark gezeigt. Der von MLCommons veröffentlichte Benchmark ist ein weithin anerkannter Industriestandard für die KI-Leistung.
Laut einer Pressemitteilung des Unternehmens haben der Deep-Learning-Beschleuniger Intel Habana Gaudi2 und die skalierbaren Intel Xeon-Prozessoren der 4. Generation beeindruckende Ergebnisse im MLPerf Training 3.0-Benchmark gezeigt. Der von MLCommons veröffentlichte Benchmark ist ein weithin anerkannter Industriestandard für die KI-Leistung.
Die Ergebnisse stellen das vorherrschende Branchenmärchen in Frage, dass generative KI und große Sprachmodelle (LLMs) nur auf NVIDIA-GPUs ausgeführt werden können. Intels Portfolio an KI-Lösungen bietet wettbewerbsfähige Alternativen für Kunden, die sich von geschlossenen Ökosystemen lösen möchten, die Effizienz und Skalierbarkeit einschränken.

Ein Foto zeigt die Habana Gaudi2 Mezzanine Card. Am 10. Mai 2022 brachte Habana Labs, Intels Rechenzentrumsteam mit Fokus auf KI-Deep-Learning-Prozessortechnologien, seine Deep-Learning-Prozessoren der zweiten Generation für Training und Inferenz auf den Markt: Habana Gaudi2 und Habana Greco. (Quelle: Intel Corporation)
Was ist MLPerf?
Die MLPerf Training 3.0 Die Benchmark-Suite misst die Geschwindigkeit, mit der verschiedene Systeme Modelle trainieren können, um eine bestimmte Qualitätsmetrik zu erfüllen. Die Benchmarks decken verschiedene Bereiche ab, darunter Vision, Sprache und Handel, und verwenden unterschiedliche Datensätze und Qualitätsziele.
Benchmark-Details
Gebiet | Benchmark | Datensatz | Qualitätsziel | Referenzimplementierungsmodell |
---|---|---|---|---|
Vision | Bildklassifizierung | IMAGEnet | 75.90 % Einstufung | ResNet-50 v1.5 |
Vision | Bildsegmentierung (medizinisch) | KiTS19 | 0.908 Mittlerer DICE-Score | 3D-U-Net |
Vision | Objekterkennung (geringes Gewicht) | Öffnen Sie Bilder | 34.0 % Karte | RetinaNet |
Vision | Objekterkennung (schweres Gewicht) | KOKOSNUSS | 0.377 Box-Min.-AP und 0.339 Masken-Min.-AP | Maske R-CNN |
Sprache | Spracherkennung | LibriSpeech | 0.058 Wortfehlerrate | RNN-T |
Sprache | NLP | Wikipedia 2020 | 0.72 Mask-LM-Genauigkeit | BERT-groß |
Sprache | LLM | C4 | 2.69 Log Ratlosigkeit | GPT3 |
Geschäfte | Software Empfehlungen | Criteo 4 TB Multi-Hot | 0.8032 AUC | DLRM-dcnv2 |
Im Bereich Sicht umfassen die Benchmarks die Bildklassifizierung mithilfe des ImageNet-Datensatzes mit einem Qualitätsziel von 75.90 % Klassifizierungsgenauigkeit. Das Referenzmodell für diese Aufgabe ist ResNet-50 v1.5. Weitere Seh-Benchmarks umfassen die Bildsegmentierung mithilfe des medizinischen Datensatzes KiTS19 und die Objekterkennung mithilfe der Datensätze Open Images und COCO.
Für Sprachaufgaben umfassen die Benchmarks die Spracherkennung mithilfe des LibriSpeech-Datensatzes mit einem Qualitätsziel einer Wortfehlerrate von 0.058. Das Referenzmodell für diese Aufgabe ist RNN-T. Weitere Sprach-Benchmarks umfassen die Verarbeitung natürlicher Sprache (NLP) unter Verwendung des Wikipedia-Datensatzes vom 2020 und das LLM-Training (Large Language Model) unter Verwendung des C01-Datensatzes.
Im Commerce-Bereich ist der Benchmark eine Empfehlungsaufgabe unter Verwendung des Criteo 4 TB Multi-Hot-Datensatzes mit einem Qualitätsziel von 0.8032 AUC. Das Referenzmodell für diese Aufgabe ist DLRM-dcnv2.
Messmetrik
Die Benchmark-Suite misst die Zeit, die zum Trainieren eines Modells anhand eines bestimmten Datensatzes benötigt wird, um ein bestimmtes Qualitätsziel zu erreichen. Aufgrund der inhärenten Variabilität der Trainingszeiten für maschinelles Lernen werden die Endergebnisse dadurch erzielt, dass der Benchmark mehrmals ausgeführt wird, die höchsten und niedrigsten Ergebnisse verworfen werden und dann der Durchschnitt der verbleibenden Ergebnisse gebildet wird. Trotzdem gibt es immer noch eine gewisse Abweichung in den Ergebnissen, wobei die Ergebnisse der Bildgebungs-Benchmarks eine Abweichung von etwa +/- 2.5 % aufweisen und andere Benchmarks eine Abweichung von etwa +/- 5 % aufweisen.
Benchmark-Abteilungen
MLPerf fördert Innovationen in Software und Hardware, indem es den Teilnehmern ermöglicht, die Referenzimplementierungen erneut zu implementieren. Es gibt zwei Unterteilungen in MLPerf: die geschlossene und die offene Unterteilung. Die geschlossene Abteilung dient dem direkten Vergleich von Hardwareplattformen oder Software-Frameworks und erfordert die Verwendung desselben Modells und Optimierers wie die Referenzimplementierung. Andererseits fördert die Open-Abteilung die Entwicklung schnellerer Modelle und Optimierer und ermöglicht es jedem maschinellen Lernansatz, die Zielqualität zu erreichen.
Systemverfügbarkeit
MLPerf kategorisiert Benchmark-Ergebnisse basierend auf der Systemverfügbarkeit. Als „Verfügbar“ kategorisierte Systeme bestehen ausschließlich aus Komponenten, die in der Cloud gekauft oder gemietet werden können. „Vorschau“-Systeme werden voraussichtlich in der nächsten Einreichungsrunde verfügbar sein. Schließlich enthalten Systeme, die als „Forschung, Entwicklung oder Intern (RDI)“ kategorisiert sind, Hardware oder Software, die experimentell, in der Entwicklung oder für den internen Gebrauch ist.
Intel Habana Guadi2 wird angezeigt
Insbesondere der Gaudi2 Deep Learning Accelerator zeigte eine starke Leistung Leistung auf dem großen Sprachmodell GPT-3 und ist damit eine von nur zwei Halbleiterlösungen, die Leistungsergebnisse für das LLM-Training von GPT-3 vorlegen. Darüber hinaus bietet der Gaudi2 deutliche Kostenvorteile bei den Server- und Systemkosten, was ihn zu einer überzeugenden Preis-Leistungs-Alternative zum H100 von NVIDIA macht.
Die Xeon-Prozessoren der 4. Generation mit Intel-KI-Engines haben gezeigt, dass Kunden ein universelles KI-System für die Datenvorverarbeitung, das Modelltraining und die Bereitstellung aufbauen können, das KI-Leistung, Effizienz, Genauigkeit und Skalierbarkeit bietet.
Der Gaudi2 lieferte eine beeindruckende Trainingszeit auf GPT-3 und erreichte 311 Minuten auf 384 Beschleunigern und eine nahezu lineare Skalierung von 95 % von 256 auf 384 Beschleuniger auf dem GPT-3-Modell. Es zeigte auch hervorragende Trainingsergebnisse in den Bereichen Computer Vision und Verarbeitung natürlicher Sprache. Der Gaudi2-Ergebnisse wurden „out of the box“ eingereicht, was bedeutet, dass Kunden bei der Implementierung von Gaudi2 vor Ort oder in der Cloud vergleichbare Leistungsergebnisse erwarten können.
Die Xeon-Prozessoren der 4. Generation haben als einzige CPU-Einreichung unter zahlreichen alternativen Lösungen bewiesen, dass Intel Systeme.

Habana Gaudi2 8-Knoten-Cluster
Bei der NLP-Aufgabe (Natural Language Processing) unter Verwendung des Wikipedia-Datensatzes und des BERT-Large-Modells erreichte Gaudi2 mit 2.103 Beschleunigern eine Trainingszeit von 64 Minuten.
Bei der Bildsegmentierungsaufgabe (medizinisch) unter Verwendung des KiTS19-Datensatzes und des 3D-U-Net-Modells erreichte Gaudi2 eine Trainingszeit von 16.460 Minuten mit TensorFlow und 20.516 Minuten mit PyTorch, beide mit acht Beschleunigern.
In der Empfehlungsaufgabe unter Verwendung des Criteo-4-TB-Datensatzes und des DLRM-dcnv2-Modells erreichte Gaudi2 eine Trainingszeit von 14.794 Minuten mit PyTorch und 14.116 Minuten mit TensorFlow, beide mit acht Beschleunigern.
Im geschlossenen Bereich könnten Xeons der 4. Generation BERT- und ResNet-50-Modelle in weniger als 50 bzw. weniger als 90 Minuten trainieren. Mit BERT in der offenen Abteilung trainierte Xeon das Modell bei der Skalierung auf 30 Knoten in etwa 16 Minuten.
Diese Ergebnisse unterstreichen die hervorragende Skalierungseffizienz, die mit kostengünstigen und leicht verfügbaren Netzwerkadaptern der Intel Ethernet 800-Serie möglich ist, die die Open-Source-Software Intel Ethernet Fabric Suite auf Basis von Intel oneAPI nutzen.
Auswirkungen auf den Markt
Die Ergebnisse von Intel Habana Gaudi2 im MLPerf Training 3.0-Benchmark unterstreichen das Engagement des Unternehmens, wettbewerbsfähige und effiziente KI-Lösungen für eine breite Palette von Anwendungen bereitzustellen, vom Rechenzentrum bis zum intelligenten Edge. NVIDIA ist in dieser Hinsicht eindeutig der Clubhouse-Spitzenreiter, und jeder Serveranbieter stolpert über sich selbst, um der Branche eine breite Palette GPU-lastiger Boxen zu präsentieren, die für KI-Workloads bereit sind. Diese Daten bestätigen jedoch erneut, dass KI keine Einheitskategorie ist und Intel seinen Teil dazu beiträgt, der Branche Wahlmöglichkeiten zu bieten. Das Endergebnis ist ein Gewinn für Unternehmen, die KI einsetzen, da mehr Wettbewerb und Auswahl normalerweise eine sehr gute Sache sind.
Beteiligen Sie sich an StorageReview
Newsletter | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS Feed