Meta hat mit der Vorstellung des Meta Training and Inference Accelerator (MTIA) der nächsten Generation Fortschritte in seiner KI-Infrastruktur angekündigt. Diese Entwicklung markiert einen bedeutenden Sprung in Metas Bemühungen, KI-basierte Produkte, Dienstleistungen und Forschung zu verbessern und so auf die steigende Nachfrage nach ausgefeilteren KI-Modellen zu reagieren.
Meta hat mit der Vorstellung des Meta Training and Inference Accelerator (MTIA) der nächsten Generation Fortschritte in seiner KI-Infrastruktur angekündigt. Diese Entwicklung markiert einen bedeutenden Sprung in Metas Bemühungen, KI-basierte Produkte, Dienstleistungen und Forschung zu verbessern und so auf die steigende Nachfrage nach ausgefeilteren KI-Modellen zu reagieren.
Nach der Einführung seines Beschleunigers der ersten Generation verfeinert das MTIA-Projekt die Recheneffizienz, die für die besonderen KI-Workloads von Meta unerlässlich ist. Dazu gehören die Deep-Learning-Empfehlungsmodelle, die für die Verbesserung der Benutzererfahrungen auf den Plattformen von Meta von wesentlicher Bedeutung sind.
Nächste Generation vs. MTIA der ersten Generation
Der MTIA der ersten Generation hat im Vergleich zu seinem Gegenstück der nächsten Generation erhebliche technologische Fortschritte gemacht, um den wachsenden Anforderungen von KI-Workloads gerecht zu werden. Ursprünglich mit dem 7-nm-Prozess von TSMC gebaut, hatte der MTIA der ersten Generation eine Frequenz von 800 MHz, unterstützte 1.12 Milliarden Gates und lieferte bis zu 102.4 Teraflops pro Sekunde (TFLOPS/s) für INT8-Operationen. Es war mit 128 MB On-Chip-Speicher und 64 GB Off-Chip-LPDDR5-Speicher ausgestattet, mit einer TDP von 25 Watt. Dieses Setup wurde für ein Gleichgewicht zwischen Leistung und Energieeffizienz optimiert, mit einer Gesamtspeicherbandbreitenkapazität von 400 GB/s pro Verarbeitungselement (PE) für lokalen Speicher und 800 GB/s für On-Chip-Speicher.
Der MTIA der nächsten Generation ist auf den fortschrittlicheren 5-nm-Prozess von TSMC umgestiegen, wodurch der Beschleuniger mit einer höheren Frequenz von 1.35 GHz betrieben werden kann. Dieses Upgrade verdoppelt die Gate-Anzahl auf 2.35 Milliarden und erhöht die FLOPS auf 103 Millionen, was auf eine erhebliche Steigerung der Verarbeitungskapazitäten des Chips hinweist. Der MTIA der nächsten Generation führt eine Verdreifachung des lokalen PE-Speichers ein und verdoppelt den On-Chip-SRAM auf 256 MB, während der Off-Chip-LPDDR5-Speicher auf 128 GB erweitert wird. Dieser Anstieg geht einher mit einer verbesserten Speicherbandbreite, die bis zu 1 TB/s pro PE für den lokalen Speicher und 2.7 TB/s für den On-Chip-Speicher erreicht, was einen höheren Datendurchsatz und eine höhere Effizienz gewährleistet.
Darüber hinaus beträgt die TDP nun 90 Watt, um den höheren Leistungsstufen Rechnung zu tragen. Auch die Host-Verbindung wurde auf 8x PCIe Gen5 aufgerüstet, wodurch sich die Bandbreite auf 32 GB/s verdoppelt, was schnellere Datenübertragungen zwischen dem Beschleuniger und dem Host-System unterstützt. Diese bemerkenswerten Verbesserungen bieten eine stärkere Grundlage für die Entwicklung und Bereitstellung KI-gesteuerter Anwendungen und Dienste.
MTIA-Funktionen der nächsten Generation
Im Kern verfügt der MTIA über hochentwickelte 8×8-Grid-PEs, die die Rechenleistung bei dichter und spärlicher Rechenleistung erheblich steigern. Diese Verbesserung ist auf architektonische Fortschritte und eine erhebliche Steigerung des lokalen PE-Speichers, des On-Chip-SRAM und der Bandbreite zurückzuführen. Darüber hinaus erleichtert die verbesserte Network-on-Chip (NoC)-Architektur des Beschleunigers eine schnelle Koordination zwischen PEs und gewährleistet so eine Datenverarbeitung mit geringer Latenz, die für komplexe KI-Aufgaben unerlässlich ist.
Der Ansatz von Meta geht über die Siliziuminnovation hinaus. Der MTIA der nächsten Generation wird von einem robusten Rack-basierten System unterstützt, das bis zu 72 Beschleuniger aufnehmen kann und ein erhebliches Skalierungspotenzial für die ehrgeizigen KI-Projekte von Meta bietet. Das Design des Systems ermöglicht höhere Betriebsfrequenzen und Effizienz und ermöglicht problemlos die Anpassung an verschiedene Modellkomplexitäten.
Auch die Softwareintegration spielt im MTIA-Ökosystem eine zentrale Rolle, wobei Meta seine Arbeit an PyTorch nutzt, um nahtlose Kompatibilität und Entwicklerproduktivität sicherzustellen. Die Einbeziehung fortschrittlicher Programmier- und Ausführungs-Frameworks wie Triton-MTIA erleichtert die effiziente Übersetzung von KI-Modellen in Anweisungen für Hochleistungsrechnen und rationalisiert den Entwicklungsprozess.
Erste Leistungsergebnisse von MTIA der nächsten Generation
Laut Meta deuten vorläufige Leistungskennzahlen auf eine deutliche Verbesserung gegenüber der ersten Generation hin und belegen die Fähigkeit, einfache und komplexe Ranking- und Empfehlungsalgorithmen effizient zu verarbeiten. Dieser Chip verwaltet Algorithmen, die sich in Größe und Rechenaufwand erheblich unterscheiden, und übertrifft dank Metas integriertem Technologieansatz herkömmliche kommerzielle GPUs. Das Unternehmen konzentriert sich auf die Verbesserung der Energieeffizienz, indem es diese Chips in seinen Systemen einsetzt.
Erste Tests haben gezeigt, dass der MTIA-Chip der nächsten Generation die Leistung seines Vorgängers in allen wichtigen Modellen verdreifacht. Mit einem aktualisierten System, das doppelt so viele Geräte und eine leistungsstarke Dual-Socket-CPU umfasst, hat Meta im Vergleich zu seinem MTIA-Setup der ersten Generation eine sechsfache Steigerung des Modellverarbeitungsdurchsatzes und eine 50-prozentige Verbesserung der Energieeffizienz erreicht. Diese Verbesserungen resultieren aus umfangreichen Optimierungen der Computerkomponenten und der Serverarchitektur. Die Optimierung von Modellen erfolgt mit zunehmender Reife des Entwickler-Ökosystems schneller und bietet ausreichend Raum für weitere Effizienzsteigerungen.
Der MTIA-Chip, der jetzt in Rechenzentren aktiv ist, verbessert die KI-Workload-Verarbeitung von Meta und erweist sich als strategische Ergänzung zu kommerziellen GPUs. Da mehrere Initiativen zur Erweiterung der Funktionalitäten von MTIA laufen, markiert diese Veröffentlichung einen weiteren großen Schritt in Richtung des Engagements des Unternehmens, die KI-Technologie und ihre Anwendungen voranzutreiben.
Beteiligen Sie sich an StorageReview
Newsletter | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS Feed