Anfang des Jahres veröffentlichte Intel Leistungsergebnisse zwischen Intel Habana Gaudi2 und dem GPU-Marktführer NVIDIA, die Intels Engagement für KI verdeutlichten und bewiesen, dass KI keine Einheitskategorie ist. Gleichzeitig entstand durch eine gemeinsame Entwicklung von Intel-KI-Forschern und Microsoft Research BridgeTower, ein vorab trainierter multimodaler Transformator, der hochmoderne Vision-Language-Aufgaben bereitstellt. Hugging Face hat dieses Modell in seine Open-Source-Bibliothek für maschinelles Lernen integriert.
Anfang des Jahres veröffentlichte Intel Leistungsergebnisse zwischen Intel Habana Gaudi2 und dem GPU-Marktführer NVIDIA, die Intels Engagement für KI verdeutlichten und bewiesen, dass KI keine Einheitskategorie ist. Gleichzeitig entstand durch eine gemeinsame Entwicklung von Intel-KI-Forschern und Microsoft Research BridgeTower, ein vorab trainierter multimodaler Transformator, der hochmoderne Vision-Language-Aufgaben bereitstellt. Hugging Face hat dieses Modell in seine Open-Source-Bibliothek für maschinelles Lernen integriert.
Hugging Face veröffentlichte die ursprünglichen Benchmark-Ergebnisse in einem Blogbeitrag auf seiner Website und aktualisierte die Benchmark-Ergebnisse für die KI-Trainingsleistung für Habana Gaudi2 und NVIDIAs H100-GPU. Diesen Benchmark-Ergebnissen zufolge übertraf Gaudi2 H100 bei der Gewinnung des multimodalen Transformators BridgeTower-Modell, aber Gaudi2 nutzte Optimale Habana, erreichte eine x2.5-mal bessere Leistung als der A100. Die Ergebnisse bestätigten nicht nur den Platz von Gaudi2 im Bereich der KI, sondern auch im Vision-Language-Training.
Optimum Habana ist die Schnittstelle zwischen den Transformers- und Diffusers-Bibliotheken und dem Gaudi-Prozessor (HPU) von Habana. Es bietet Tools, die das einfache Laden, Trainieren und Inferenzieren von Modellen auf Einzel- und Multi-HPU-Einstellungen für verschiedene nachgelagerte Aufgaben ermöglichen.
BridgeTower-Hintergrund
Vision-Language-Modelle verwenden unimodale Encoder, um Datendarstellungen zu erfassen. Die Daten werden dann kombiniert oder in einen modalübergreifenden Encoder eingegeben. BridgeTower zeichnet sich durch seine einzigartigen Brückenschichten aus, die die obersten Schichten unimodaler Encoder mit jeder Schicht des kreuzmodalen Encoders verbinden und so eine effiziente Kombination von visuellen und textlichen Daten auf verschiedenen Ebenen ermöglichen.
BridgeTower, das auf nur 4 Millionen Bildern trainiert wurde, setzt neue Leistungsstandards und liefert eine Genauigkeit von 78.73 Prozent beim Visual Question Answering (VQAv2)-Test. Das übertrifft das bisherige Spitzenmodell um 1.09 Prozent. Bei einer Vergrößerung weist das Modell eine noch höhere Genauigkeit von 81.15 Prozent auf und übertrifft damit Modelle, die auf viel größeren Datensätzen trainiert wurden.
Als erstklassiges Vision-Language-Modell beruht die Leistung von BridgeTower auf seiner Fähigkeit, Daten mithilfe spezieller Hardware schnell zu laden. Diese schnellen Datenlademethoden sind für Vision-Modelle von Vorteil, die häufig vor Herausforderungen beim Datenladen stehen.
Hardware-Einblicke
Die aktualisierten Benchmark-Tests basierten auf der neuesten Hardware und Software von NVIDIA und Habana Labs. Die NVIDIA H100 Tensor Core GPU ist die neueste und schnellste GPU von INVIDIA, mit einer Transformer Engine für spezielle Läufe und 80 GB Speicher. Mithilfe der dritten Iteration der Tensor-Core-Technologie ist die Nvidia A100 Tensor-Core-GPU bei allen Cloud-Anbietern weit verbreitet und verfügt über 80 GB Speicher für eine höhere Geschwindigkeit als ihr 40-GB-Pendant.
Habana Labs Habana Gaudi2 ist die KI-Hardware der zweiten Generation von Habana Labs, die bis zu 8 HPUs mit jeweils 96 GB Speicher aufnehmen kann. Es wird für seine benutzerfreundlichen Funktionen gepriesen und erleichtert in Kombination mit Optimum Habana die Übertragung von Transformers-basierten Codes an Gaudi.
Benchmarking-Details
Der Test umfasste die Feinabstimmung eines BridgeTower-Modells mit 866 Millionen Parametern und das Training auf Englisch unter Verwendung verschiedener Techniken an mehreren Datensätzen. Der nächste Schritt umfasste eine weitere Feinabstimmung mithilfe des Datensatzes des New Yorker Caption Contest. Alle Plattformen verwendeten die gleichen Einstellungen und verarbeiteten Chargen von jeweils 48 Proben, um konsistente Ergebnisse zu erzielen.
Eine Herausforderung bei solchen Experimenten ist das zeitaufwändige Laden der Bilddaten. Optimalerweise sollten die Rohdaten zur Dekodierung direkt an die Geräte gesendet werden. Der Fokus verlagert sich nun auf die Optimierung dieses Datenladeprozesses.
Optimierung des Datenladens
Für ein schnelleres Laden von Bildern auf die CPU kann das Erhöhen der Unterprozesse hilfreich sein. Mit den TrainingArguments von Transformers kann das Argument dataloader_num_workers=N die Anzahl der CPU-Unterprozesse für das Laden von Daten festlegen. Die Standardeinstellung ist 0, was bedeutet, dass die Daten vom Hauptprozess geladen werden, dies ist jedoch möglicherweise nicht effizient. Eine Erhöhung kann die Geschwindigkeit verbessern, erhöht aber auch den RAM-Verbrauch. Die empfohlene Einstellung ist die Anzahl der CPU-Kerne. Es ist jedoch am besten, zunächst zu experimentieren, um die optimale Konfiguration zu ermitteln.
Dieser Benchmark hatte drei verschiedene Durchläufe:
- Ein Lauf mit gemischter Genauigkeit auf acht Geräten, bei dem das Laden von Daten denselben Prozess mit anderen Aufgaben teilt (dataloader_num_workers=0).
- Ein ähnlicher Lauf, jedoch mit einem dedizierten Unterprozess zum Laden der Daten (dataloader_num_workers=1).
- Das gleiche Setup, aber mit zwei dedizierten Unterprozessen (dataloader_num_workers=2).
Hardwarebeschleunigtes Laden von Daten mit Optimum Habana
Um die Geschwindigkeit weiter zu steigern, verlagern Sie Datenladeaufgaben mithilfe der Medienpipeline von Habana von der CPU auf Beschleunigergeräte, z. B. HPUs auf Gaudi2 oder GPUs auf A100/H100. Anstatt Bilder vollständig auf der CPU zu verarbeiten, können codierte Bilder zur Dekodierung und Erweiterung direkt an die Geräte gesendet werden. Dieser Ansatz maximiert die Rechenleistung des Geräts, kann jedoch den Speicherverbrauch des Geräts erhöhen.
Zwei wirksame Methoden zur Verbesserung von Trainingsabläufen mit Bildern sind die Zuweisung von mehr Dataloader-Ressourcen und die Verwendung von Beschleunigergeräten für die Bildverarbeitung. Beim Training fortgeschrittener Vision-Language-Modelle wie BridgeTower machen diese Optimierungen Habana Gaudi2 mit Optimum Habana wesentlich schneller als NVIDIA-Pendants. Habana Gaudi2 ist benutzerfreundlich und erfordert nur wenige zusätzliche Trainingsargumente.
Beteiligen Sie sich an StorageReview
Newsletter | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS Feed