Startseite Unternehmen Der Einfluss von Speicher und GPU auf KI-Workloads

Der Einfluss von Speicher und GPU auf KI-Workloads

by Brian Beeler
byteLAKE

Es vergeht kaum eine Woche, in der wir nicht von einem IT-Anbieter über die Auswirkungen seiner Lösungen auf Organisationen hören, die sich mit künstlicher Intelligenz, Deep Learning, maschinellem Lernen oder Edge Intelligence befassen. Das Problem besteht jedoch darin, dass es an wesentlichen Erkenntnissen darüber mangelt, wie sich diese Lösungen auf die Leistung jeder dieser Aufgaben auswirken. Kürzlich haben wir beschlossen, zu prüfen, ob wir durch eine Partnerschaft mit byteLAKE, einem Hersteller von KI- und HPC-Lösungen mit Sitz in Polen, etwas dagegen tun können. Das Hauptziel besteht darin, die Auswirkungen von Speicher und GPU auf KI-Workloads zu bewerten.Es vergeht kaum eine Woche, in der wir nicht von einem IT-Anbieter über die Auswirkungen seiner Lösungen auf Organisationen hören, die sich mit künstlicher Intelligenz, Deep Learning, maschinellem Lernen oder Edge Intelligence befassen. Das Problem besteht jedoch darin, dass es an wesentlichen Erkenntnissen darüber mangelt, wie sich diese Lösungen auf die Leistung jeder dieser Aufgaben auswirken. Kürzlich haben wir beschlossen, zu prüfen, ob wir durch eine Partnerschaft mit byteLAKE, einem Hersteller von KI- und HPC-Lösungen mit Sitz in Polen, etwas dagegen tun können. Das Hauptziel besteht darin, die Auswirkungen von Speicher und GPU auf KI-Workloads zu bewerten.

Einfluss der Speicherung auf die KI

Zunächst wollten wir eine weit verbreitete Vorstellung untersuchen, dass lokaler Speicher die Leistung von KI-Modellen beeinflusst. Wir haben eines davon genommen Dell EMC PowerEdge R740xd Server in unserem Labor, konfiguriert mit zwei Intel Xeon Gold 6130 CPUs mit 256 GB DRAM. Wir haben den byteLAKE AI-Test mit drei verschiedenen lokalen Speicheralternativen durchgeführt. Für den Test haben wir ein Legacy verwendet KIOXIA PX04S SSD zusammen mit der viel schnelleren, Samsung 983 ZET und Intel Optane 900P.

Speicher-GPU AI Dell EMC 740

Während des Benchmarks haben wir die Leistung des KI-Lernprozesses analysiert. In den Tests führen wir den Lernprozess für ein reales Szenario durch. In diesem Fall waren die Tests Teil des Trainingsverfahrens in einem der byteLAKE-Produkte: EWA-Wache. Es basiert auf dem neuesten YOLO (You Only Look Once), einem hochmodernen Echtzeit-Erkennungsmodell. Das Modell besteht aus einer einzelnen Eingabeschicht, 22 Faltungsschichten, 5 Pooling-Schichten, 2 Router-Schichten, einer einzelnen Reorg-Schicht und einer einzelnen Erkennungsschicht.

Als grundlegende Leistungsmetrik haben wir die Ausführungszeit des Trainings für 5000 Epochen verwendet. Die Benchmarks wurden für jede Speicherkonfiguration dreimal wiederholt. Die Durchschnittswerte sind unten aufgeführt.

Ergebnisse:

  • KIOXIA 98h 24m
  • Samsung 98h 44
  • Intel 98h 42

Wie aus den Daten hervorgeht, hatte die lokale Speicherung keinen Einfluss auf die Leistung. Die Tests reichten von einer SATA-SSD bis zum neuesten und besten Optane, ohne jegliche Auswirkungen. Allerdings spielt der Speicher möglicherweise eine wichtigere Rolle, wenn es um den Datenein- und -ausgang geht, aber rechnerisch für die KI gab es in diesem Fall keine Auswirkungen.

Einfluss von GPU und Speicher auf die KI

Mit den verfügbaren Speicherdaten haben wir dem PowerEdge eine einzelne NVIDIA T4 hinzugefügt, um die Auswirkungen einer GPU auf die KI zu messen. Für diesen Test haben wir auch dieselben drei Speicherkonfigurationen ausgeführt.

NVIDIA Tesla T4

Ergebnisse:

  • KIOXIA 4h 30
  • Samsung 4h 28m
  • Intel 4h 27m

Wie erwartet zeigte die GPU eine Wirkung, und zwar eine exponentielle Wirkung, die zu einer 22-fachen Verbesserung führte. Da die GPU die Gesamtleistung der KI beschleunigt, gab es einige Überlegungen, dass der schnellere Speicher einen Einfluss haben könnte. Dies war jedoch nicht der Fall, da das SATA-Laufwerk perfekt zum Hochgeschwindigkeits-NVMe passte.

Schlussfolgerungen

Bei diesem Test haben wir festgestellt, dass die Verwendung schnellerer Speichergeräte die Lernleistung nicht verbessert. Der Hauptgrund hierfür ist eine komplexe Struktur des KI-Modells. Die Lernzeit ist länger als die Datenlesezeit. Anders ausgedrückt: Die Lernzeit mit dem aktuellen Bildstapel ist länger als die Zeit, die zum Lesen des nächsten Bildstapels benötigt wird. Folglich verbergen sich die Speichervorgänge hinter den KI-Berechnungen.

Beim Hinzufügen der NVIDIA T4 gab es einige Bedenken, dass eine schnellere Verarbeitung durch die KI dazu führen würde, dass sich der Speicher auf die Leistung auswirkt. Dies war in diesem Test nicht der Fall, da das KI-Modell auch beim T4 noch über eine stärkere Lernkomponente verfügte und keinen Speicher benötigte, um besonders schnell zu sein.

Während noch mehr Arbeit geleistet werden muss, um die Auswirkungen bestimmter Komponenten und Systeme auf die KI weiter zu testen, glauben wir, dass diese ersten Daten nützlich und ein guter Ausgangspunkt für das Gespräch sind. Wir benötigen Anwendungsdaten, um besser verstehen zu können, wo aus IT-Sicht die richtigen Hebel liegen und wo Budgetausgaben die wirkungsvollsten Ergebnisse erzielen können. Dies hängt natürlich auch zu einem großen Teil davon ab, wo diese Aktivität stattfindet, sei es im Rechenzentrum oder am Edge. Vorerst begrüßen wir das Engagement von byteLAKE und anderen an der Spitze der KI-Speerspitze, um dabei zu helfen, nützliche Daten zur Beantwortung dieser drängenden Fragen bereitzustellen.

Dies ist unser erster KI-Test, aber nicht der letzte. Mariusz Kolanko, Mitbegründer von byteLAKE, gab an, dass sie an einem Produkt namens „ CFD-Suite (KI für Computational Fluid Dynamics „CFD“ zur Beschleunigung von Lösern), wobei der Deep-Learning-Prozess für jede Trainingsepoche viele Daten benötigt. Tatsächlich kann dieses Modell den Speicher zum Trainieren von Modellen im Big-Data-Bereich stärker belasten und sich möglicherweise auf die Leistung der Deep-Learning-Prozesse selbst auswirken. Letztendlich ist es wie bei jeder Anwendung wichtig zu verstehen, dass die Anwendung die richtigen Rechenzentrumsressourcen zuweisen muss. KI ist eindeutig keine Einheitsanwendung, die für alle passt.

Erfahren Sie mehr über byteLAKE

Diskutieren Sie auf Reddit

Beteiligen Sie sich an StorageReview

Newsletter | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | Facebook | RSS Feed