Startseite UnternehmenAI Bewertung des Einflusses von DRAM-Kanälen auf die KI-Inferenzleistung

Bewertung des Einflusses von DRAM-Kanälen auf die KI-Inferenzleistung

by Jordan Ranous

Um die Vorteile von DRAM in KI-Systemen zu validieren, haben wir eine Reihe von Tests mit acht Kingston KSM56R46BD4PMI-64HAI DDR5-Speichermodulen durchgeführt.

System-DRAM spielt eine wichtige Rolle in der KI, insbesondere bei der CPU-Inferenz. Da KI-Anwendungen immer komplexer werden, wird die Nachfrage nach schnelleren und effizienteren Speicherlösungen immer wichtiger. Wir wollten die Bedeutung von System-DRAM in der KI untersuchen und uns dabei auf die CPU-Inferenzierung und die entscheidende Rolle der Nutzung mehrerer Speicherkanäle konzentrieren.

Kingston KSM56R46BD4PMI-64HAI DDR5

Kingston KSM56R46BD4PMI-64HAI DDR5

Die Bedeutung von System-DRAM in der KI

System-DRAM ist der zentrale Knotenpunkt für Daten in KI-Systemen. Die Daten werden für den schnellen Zugriff durch die CPU vorübergehend gespeichert und ermöglichen so eine schnelle Datenverarbeitung.

Dies ist besonders wichtig bei KI-Anwendungen, bei denen der schnelle und effiziente Umgang mit großen Datenmengen nicht nur ein Vorteil, sondern eine Notwendigkeit ist. Hier ist ein genauerer Blick auf die vielfältige Rolle von System-DRAM bei der Verbesserung der KI-Fähigkeiten:

  • Geschwindigkeit und Effizienz: KI-Algorithmen, insbesondere bei der Inferenz, erfordern Hochgeschwindigkeitsspeicher, um große Datenmengen zu verarbeiten. System-DRAM sorgt für diese Geschwindigkeit, reduziert die Latenz und erhöht die Gesamtsystemleistung.
  • Kapazität: Moderne KI-Anwendungen erfordern große Speicherkapazitäten. DRAM mit hoher Kapazität stellt sicher, dass größere Datensätze im Speicher verarbeitet werden können, wodurch der langsamere Prozess des Abrufens von Daten von Speichergeräten vermieden wird.
  • Zuverlässigkeit: Bei der KI ist die Datenintegrität von größter Bedeutung. Der System-DRAM sorgt mit seinen Fehlerkorrekturfunktionen dafür, dass die Datenbeschädigung minimiert wird, was bei Anwendungen, bei denen es auf Genauigkeit ankommt, von entscheidender Bedeutung ist.
  • Skalierbarkeit: Da KI-Modelle immer komplexer werden, wird die Fähigkeit zur Skalierung von Speicherressourcen äußerst wichtig. System-DRAM bietet die erforderliche Skalierbarkeit, um den steigenden Anforderungen sich entwickelnder KI-Anwendungen und deren steigenden Datenanforderungen gerecht zu werden.
  • Bandbreite: Die höhere Bandbreite des System-DRAM ermöglicht schnellere Datenübertragungsraten und damit einen schnelleren Zugriff auf Daten. Dies ist besonders vorteilhaft für das Training komplexer neuronaler Netze und die Bewältigung umfangreicher Datenverarbeitungsaufgaben.

CPU-Inferenz und DRAM

In der künstlichen Intelligenz sind CPU-Inferenzierung – der Prozess der Verwendung eines trainierten Modells zur Erstellung von Vorhersagen oder Entscheidungen – und die Rolle von DRAM entscheidende Komponenten, die die Effizienz und Geschwindigkeit von KI-Anwendungen erheblich beeinflussen. Diese Phase ist speicherintensiv, da schnell auf große Datensätze zugegriffen und diese verarbeitet werden müssen. Aufgrund der Komplexität und Größe der beteiligten Daten stellt dies eine besondere Belastung für den Systemspeicher dar.

DRAM spielt durch mehrere wichtige Verbesserungen eine entscheidende Rolle bei der Optimierung der CPU-Inferenz für KI-Operationen. Erstens stellt es die erforderliche Bandbreite bereit, um einen hohen Datendurchsatz zu erreichen, der für eine schnelle Datenverarbeitung und Entscheidungsfindung bei der CPU-Inferenzierung unerlässlich ist. Dieser erhöhte Durchsatz führt direkt zu einer schnelleren Leistung bei komplexen Aufgaben.

Darüber hinaus verkürzt der System-DRAM durch die Speicherung von Daten in der Nähe der CPU die Zeit für den Datenzugriff erheblich und minimiert so die Gesamtlatenz bei der Inferenz. Diese Nähe ist entscheidend für die Aufrechterhaltung eines schnellen und reaktionsfähigen Systems. Da die Daten schließlich schnell verarbeitet und die Zugriffszeiten verkürzt werden, wird der Gesamtleistungsbedarf für CPU-Inferenzaufgaben deutlich reduziert. Dies führt zu einem energieeffizienteren Betrieb und sorgt für eine nachhaltigere und kostengünstigere Umgebung für KI-Anwendungen.

Die Rolle mehrerer Speicherkanäle

Die Systemspeicherarchitektur ist ein wesentliches Element bei der Definition der Leistung von KI-Anwendungen. Die Nutzung mehrerer Speicherkanäle ist wie die Verbreiterung einer Autobahn – sie ermöglicht einen größeren Datenverkehr gleichzeitig und steigert die Gesamtsystemleistung erheblich. So können Sie durch den Einsatz mehrerer Kanäle den KI-Betrieb optimieren:

  • Erhöhte Bandbreite: Mehrere Kanäle erhöhen die Speicherbandbreite. Dies ist für KI-Anwendungen von entscheidender Bedeutung, da sie mehr Daten gleichzeitig verarbeiten und analysieren können, was zu schnelleren Inferenzzeiten führt.
  • Parallelverarbeitung: Mit mehreren Kanälen können Daten parallel verarbeitet werden, was KI-Berechnungen mit großen Datensätzen erheblich beschleunigt.
  • Reduzierte Engpässe: Mehrere Speicherkanäle tragen zur Reduzierung von Systemengpässen bei. Durch die Verteilung der Speicherlast kann jeder Kanal effizienter arbeiten und die Gesamtsystemleistung verbessern.

Testdaten

Um die Vorteile von DRAM in KI-Systemen, insbesondere CPU-Inferenz, zu validieren, haben wir eine Reihe von Tests mit acht Kingston KSM56R46BD4PMI-64HAI DDR5-Speichermodulen über verschiedene Kanalkonfigurationen hinweg durchgeführt.

KSM48R40BD4TMM-64HMR 64 GB 2Rx4 8G x 80-Bit PC5-4800 CL40 registriertes EC8 288-Pin DIMM KSM56R46BD4PMI-64HAI 64 GB 2Rx4 8G x 80-Bit PC5-5600 CL46 registriertes EC8 288-Pin DIMM
Übertragungsgeschwindigkeit 4800 MT / s 5600 MT / s
CL (IDD) 40 Zyklen 46 Zyklen
Zeilenzykluszeit (tRCmin) 48 ns (min) 48 ns (min)
Auf Aktiv aktualisieren/Befehlszeit aktualisieren (tRFCmin) 295 ns (min) 295 ns (min)
Aktive Zeit der Zeile 32 ns (min) 32 ns (min)
Reihenvorladezeit 16 ns (min) 16 ns (min)
UL-Bewertung 94 Volt – 0 94 Volt – 0
Umgebungstemperaturbereich 0 C bis +95 C 0 C bis +95 C
Lagertemperatur -55 C bis + 100 C -55 C bis + 100 C

Um eine Basislinie festzulegen, haben wir gezielte CPU-Benchmarks und Geekbench-Tests initiiert, um die isolierten Fähigkeiten der CPU zu messen. Um das gesamte System, einschließlich Speicher und Speicher, ernsthaft zu beanspruchen, haben wir uns aufgrund seiner hohen Anforderungen für Y-Cruncher entschieden. Dieser Ansatz ermöglicht es uns, den Zusammenhalt und die Ausdauer des gesamten Systems unter extremen Bedingungen zu beurteilen und so ein klares Bild der Gesamtleistung und Stabilität zu liefern.

Letztendlich werden diese Ergebnisse konkrete Daten darüber liefern, wie sich der System-DRAM und die Anzahl der Speicherkanäle direkt auf die Rechengeschwindigkeit, Effizienz und Gesamtsystemleistung in KI-Anwendungen auswirken.

Geekbench 6

An erster Stelle steht Geekbench 6, ein plattformübergreifender Benchmark, der die Gesamtsystemleistung misst. Vergleiche zu jedem gewünschten System finden Sie im Geekbench Browser. Höhere Werte sind besser.

Geekbench 6 Kingston DDR5
2 Kanäle
Kingston DDR5
4 Kanäle
Kingston DDR5
8 Kanäle
CPU-Benchmark:
Single-Core
2,083 2,233 2,317
CPU-Benchmark:
Multi-Core-
14,404 18,561 19,752

Die Ergebnisse von Geekbench 6 für den Kingston DDR5 zeigen eine Reihe von Variationen beim Vergleich von 2-, 4- und 8-Kanal-Setups. Bei Single-Core-Tests steigen die Werte leicht, aber stetig von 2,083 mit zwei Kanälen auf 2,317 mit acht Kanälen, was auf eine verbesserte Effizienz und einen verbesserten Durchsatz für einzelne Kernoperationen mit zunehmender Anzahl von Kanälen hinweist. Die deutlichste Leistungssteigerung ist jedoch bei Multi-Core-Tests zu beobachten, wo die Werte von 14,404 mit zwei Kanälen auf beachtliche 19,752 mit acht Kanälen ansteigen.

Y-Cruncher

y-cruncher, ein skalierbares Multithread-Programm, kann Pi und andere mathematische Konstanten auf Billionen von Stellen berechnen. Seit seiner Einführung im Jahr 2009 hat sich y-cruncher zu einer beliebten Benchmarking- und Stresstest-Anwendung für Übertakter und Hardware-Enthusiasten entwickelt. Schneller ist in diesem Test besser.

Y-Cruncher
(Gesamtrechenzeit)
Kingston DDR5
2 Kanäle
Kingston DDR5
4 Kanäle
Kingston DDR5
8 Kanäle
1 Milliarde Ziffern 18.117 Sekunden 10.856 Sekunden 7.552 Sekunden
2.5 Milliarde Ziffern 51.412 Sekunden 31.861 Sekunden 20.981 Sekunden
5 Milliarde Ziffern 110.728 Sekunden 64.609 Sekunden 46.304 Sekunden
10 Milliarde Ziffern 240.666 Sekunden 138.402 Sekunden 103.216 Sekunden
25 Milliarden Ziffern 693.835 Sekunden 396.997 Sekunden  N / A

Der Y-Cruncher-Benchmark für 2, 4 und 8 Kanäle zeigt eine klare und konsistente Verbesserung der Rechengeschwindigkeit mit zunehmender Anzahl von Kanälen. Für die Berechnung von 1 Milliarde Ziffern von Pi verringert sich die Gesamtrechenzeit deutlich von 18.117 Sekunden mit zwei Kanälen auf nur 7.552 Sekunden mit acht Kanälen.

Dieser Trend zur Reduzierung der Rechenzeit setzt sich bei allen getesteten Skalen fort, wobei die Zeit für die Berechnung von 25 Milliarden Ziffern beim Übergang von 693.835 auf 396.997 Kanäle von 2 Sekunden auf 4 Sekunden sinkt.

3DMark – CPU-Profil

Der CPU-Profiltest in 3DMark misst speziell die Leistung des Prozessors über eine Reihe von Thread-Anzahlen hinweg und bietet einen detaillierten Einblick, wie sich unterschiedliche Konfigurationen von DDR5-RAM-Kanälen auf die Verarbeitung und Effizienz der CPU-Arbeitslast auswirken. Dieser Test ist hilfreich für das Verständnis der Leistungsnuancen bei speicherintensiven Vorgängen und Multithread-Anwendungen bei Verwendung verschiedener DDR5-RAM-Kanal-Setups.

3DMark – CPU-Profil – Ergebnisse
Fadenzahl Kingston DDR5
2 Kanäle
Kingston DDR5
4 Kanäle
Kingston DDR5
8 Kanäle
Maximale Threads 15,822 15,547 15,457
16-Threads 10,632 9,515 10,367
8-Threads 4,957 6,019 5,053
4-Threads 3,165 3,366 3,323
2-Threads 1,726 1,765 1,781
1 Faden 907 911 884

Die 3DMark-CPU-Profil-Ergebnisse für den Kingston DDR5-RAM zeigen ein etwas komplexes Bild, was darauf hindeutet, dass die optimale Anzahl an Kanälen je nach Thread-Anzahl und spezifischer Arbeitslast variieren kann.

Bei der maximalen Thread-Anzahl sind die Werte bei zwei Kanälen am höchsten (15,822) und nehmen bei mehr Kanälen leicht ab, was darauf hindeutet, dass die zusätzlichen Kanäle bei hochparallelen Aufgaben keinen Vorteil bieten. Bei acht Threads erzielt die 4-Kanal-Konfiguration jedoch die höchste Punktzahl (6,019), was auf einen Sweet Spot hinweist, bei dem die zusätzlichen Kanäle die Handhabung von Parallelität auf mittlerer Ebene verbessern. Die Werte sind bei allen Kanalkonfigurationen bei niedrigeren Thread-Anzahlen (4, 2 und 1 Thread) ähnlich.

Diese Ergebnisse legen nahe, dass zwar mehr Kanäle bestimmten Multithread-Vorgängen zugute kommen können, die Auswirkungen jedoch je nach Art der Aufgabe und Architektur des Systems variieren. Das heißt, mehr ist nicht immer für jeden Anwendungsfall besser.

Auswirkung des DRAM-Kanals auf die KI-Inferenz

Alle Tests wurden auf einer Intel Xeon w9-3475X-CPU unter Verwendung der Intel OpenVINO API über den UL Labs Procyon Benchmark durchgeführt.

Mit einer Reihe von KI-Inferenz-Engines von erstklassigen Anbietern deckt der UL Procyon AI Inference Benchmark ein breites Spektrum an Hardware-Setups und -Anforderungen ab. Der Benchmark-Score bietet eine praktische und standardisierte Zusammenfassung der Inferenzleistung auf dem Gerät. Dadurch können wir verschiedene Hardware-Setups in realen Situationen vergleichen und gegenüberstellen, ohne dass wir dafür eigene Lösungen benötigen.

Die Ergebnisse liegen bei FP32 innerhalb der Fehlergrenze, aber interessant wird es, wenn man zu INT wechselt und sich die detaillierten Ergebnisse und nicht die Gesamtpunktzahl ansieht.

Eine größere Zahl ist besser in der Gesamtpunktzahl, eine kleine Zahl besser in der Zeit.

An erster Stelle steht FP32 Precision

FP 32
Präzision 8 Kanal 2 Kanal
Gesamtnote 629 630
MobileNet V3 Durchschnittliche Inferenzzeit 0.81 0.77
ResNet 50 Durchschnittliche Inferenzzeit 1.96 1.82
Durchschnittliche Inferenzzeit von Inception V4 6.93 7.31
Durchschnittliche Inferenzzeit von DeepLab V3 6.27 6.17
YOLO V3 Durchschnittliche Inferenzzeit 12.99 13.99
Durchschnittliche Inferenzzeit von REAL-ESRGAN 280.59 282.45

Als nächstes kommt FP16 Precision

FP 16
Präzision 8 Kanal 2 Kanal
Gesamtnote 645 603
MobileNet V3 Durchschnittliche Inferenzzeit 0.81 0.76
ResNet 50 Durchschnittliche Inferenzzeit 1.91 1.94
Durchschnittliche Inferenzzeit von Inception V4 7.11 7.27
Durchschnittliche Inferenzzeit von DeepLab V3 6.27 7.13
YOLO V3 Durchschnittliche Inferenzzeit 12.93 15.01
Durchschnittliche Inferenzzeit von REAL-ESRGAN 242.24 280.91

Und schließlich INT

INT
Präzision 8 Kanal 2 Kanal
Gesamtnote 1,033 1004
MobileNet V3 Durchschnittliche Inferenzzeit 0.71 0.73
ResNet 50 Durchschnittliche Inferenzzeit 1.48 1.48
Durchschnittliche Inferenzzeit von Inception V4 4.42 4.47
Durchschnittliche Inferenzzeit von DeepLab V3 4.33 4.99
YOLO V3 Durchschnittliche Inferenzzeit 5.15 5.12
Durchschnittliche Inferenzzeit von REAL-ESRGAN 122.40 123.57

DRAM-Durchsatz und Latenz

Betrachten wir zunächst die Latenz der 2-Kanal- und 8-Kanal-DRAM-Konfiguration. Wir haben die gesamte CPU und den gesamten Speicher profiliert, aber unser einziger Fokus lag auf dem Übergang vom CPU-Cache zum DRAM. Da unsere Xeon W9-3475X-CPU nur über 82.50 MB L3-Cache verfügt, haben wir die Tabelle zu Beginn dieses Übergangs herausgezogen.

Testgröße (KB) 2-Kanal-Bandbreite
8-Kanal-Latenz (ns)
65,536 48.70080 47.24411
98,304 68.16823 66.25920
131,072 85.38640 82.16685
262,144 114.32570 107.57450
393,216 121.74860 115.40340
524,288 129.38970 123.22100
1,048,576 144.32880 138.28380

Hier können wir sehen, dass das Hinzufügen weiterer Kanäle die Latenz geringfügig verbesserte.

Kommen wir zur Bandbreite in den AVX512-Anweisungen, sehen wir einen etwas dramatischeren Unterschied in der Bandbreite zwischen 2-Kanal und 8-Kanal. Das Delta ist hier der Leistungsschlag zwischen 2 und 8 Kanälen.

Testgröße (KB) AVX512 2-Kanal-Bandbreite (GB/s) 8-Kanal-Bandbreite (GB/s) Delta(GB/s Differenz)
65,536 3,455.28 3,767.91 -312.63
98,304 1,801.88 2,011.83 -209.95
131,072 1,009.21 1,436.50 -427.28
262,144 178.52 508.65 -330.13
393,216 114.76 433.91 -319.15
524,288 94.81 396.90 -302.09
1,048,576 71.12 293.26 -222.13
1,572,864 66.98 267.44 -200.46
2,097,152 65.08 262.50 -197.42
3,145,728 63.63 253.12 -189.50

Schlussfolgerung

Zusammenfassend ist System-DRAM ein Eckpfeiler in der Architektur von KI-Systemen, insbesondere bei der CPU-Inferenz. Seine Fähigkeit, schnellen, zuverlässigen und umfangreichen Speicher bereitzustellen, ist unverzichtbar. Darüber hinaus kann die Nutzung mehrerer Speicherkanäle die Leistung von KI-Anwendungen erheblich steigern, indem die Bandbreite erhöht, parallele Verarbeitung ermöglicht und Engpässe minimiert werden. Während sich die KI weiterentwickelt, wird die Optimierung des System-DRAM weiterhin ein zentraler Schwerpunkt sein, um ein Höchstmaß an Leistung und Effizienz sicherzustellen.

KI-generiertes Bild, angeregt von Jordan Ranous

Darüber hinaus untermauern die Testdaten diese Annahme und zeigen die konkreten Vorteile verbesserter Speicherkonfigurationen. Während wir die Grenzen der KI und Datenverarbeitung erweitern, wird die strategische Verbesserung des Systemspeichers von entscheidender Bedeutung sein, um die nächste Generation von KI-Innovationen und realen Anwendungen zu unterstützen.

Beteiligen Sie sich an StorageReview

Newsletter | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS Feed