Casa ImpresaAI Valutazione dell'impatto dei canali DRAM sulle prestazioni di inferenza dell'intelligenza artificiale

Valutazione dell'impatto dei canali DRAM sulle prestazioni di inferenza dell'intelligenza artificiale

by Jordan Ranous

Per convalidare i vantaggi della DRAM nei sistemi AI abbiamo condotto una serie di test utilizzando otto moduli di memoria DDR56 Kingston KSM46R4BD64PMI-5HAI.

La DRAM di sistema svolge un ruolo importante nell'intelligenza artificiale, in particolare nell'inferenza della CPU. Man mano che le applicazioni AI diventano sempre più complesse, la richiesta di soluzioni di memoria più veloci ed efficienti diventa sempre più critica. Volevamo esaminare l'importanza della DRAM di sistema nell'intelligenza artificiale, concentrandoci sull'inferenza della CPU e sul ruolo vitale dell'utilizzo di più canali di memoria.

Kingston KSM56R46BD4PMI-64HAI DDR5

Kingston KSM56R46BD4PMI-64HAI DDR5

L'importanza della DRAM di sistema nell'intelligenza artificiale

La DRAM di sistema è l'hub centrale per i dati nei sistemi di intelligenza artificiale. I dati vengono temporaneamente archiviati per un rapido accesso da parte della CPU, consentendo una rapida elaborazione dei dati.

Ciò è particolarmente cruciale nelle applicazioni di intelligenza artificiale in cui gestire set di dati di grandi dimensioni in modo rapido ed efficiente non è solo un vantaggio ma una necessità. Ecco uno sguardo più da vicino al ruolo multiforme della DRAM di sistema nel migliorare le capacità dell'intelligenza artificiale:

  • Velocità ed efficienza: gli algoritmi di intelligenza artificiale, in particolare nell'inferenza, richiedono memoria ad alta velocità per elaborare grandi quantità di dati. La DRAM di sistema fornisce questa velocità, riducendo la latenza e aumentando le prestazioni complessive del sistema.
  • Capacità: le moderne applicazioni AI richiedono grandi capacità di memoria. La DRAM ad alta capacità garantisce che set di dati più grandi possano essere elaborati in memoria, evitando il processo più lento di recupero dei dati dai dispositivi di archiviazione.
  • Affidabilità: nell’intelligenza artificiale, l’integrità dei dati è fondamentale. La DRAM di sistema, con le sue funzionalità di correzione degli errori, garantisce che la corruzione dei dati sia ridotta al minimo, aspetto essenziale nelle applicazioni in cui la precisione è fondamentale.
  • Scalabilità: man mano che i modelli di intelligenza artificiale diventano sempre più complessi, la capacità di scalare le risorse di memoria diventa estremamente importante. La DRAM di sistema offre la scalabilità necessaria per soddisfare le crescenti esigenze delle applicazioni IA in evoluzione e i loro crescenti requisiti di dati.
  • Larghezza di banda: la maggiore larghezza di banda della DRAM di sistema consente velocità di trasferimento dati più elevate, consentendo un accesso più rapido ai dati. Ciò è particolarmente utile per l’addestramento di reti neurali complesse e la gestione di attività di elaborazione dati su larga scala.

Inferenza CPU e DRAM

Nell'intelligenza artificiale, l'inferenza della CPU (il processo di utilizzo di un modello addestrato per fare previsioni o decisioni) e il ruolo della DRAM sono componenti critici che influenzano in modo significativo l'efficienza e la velocità delle applicazioni IA. Questa fase richiede un utilizzo intensivo della memoria a causa della necessità di accedere ed elaborare rapidamente set di dati di grandi dimensioni. È particolarmente impegnativo per la memoria di sistema a causa della natura complessa e delle dimensioni dei dati coinvolti.

La DRAM è fondamentale nell'ottimizzazione dell'inferenza della CPU per le operazioni di intelligenza artificiale attraverso numerosi miglioramenti chiave. Innanzitutto, fornisce la larghezza di banda necessaria per ottenere un elevato throughput dei dati, essenziale per un'elaborazione rapida dei dati e un processo decisionale nell'inferenza della CPU. Questa maggiore produttività si traduce direttamente in prestazioni più rapide in attività complesse.

Inoltre, memorizzando i dati vicino alla CPU, la DRAM di sistema riduce significativamente il tempo di accesso ai dati, minimizzando così la latenza complessiva dell'inferenza. Questa vicinanza è fondamentale per mantenere un sistema rapido e reattivo. Infine, poiché i dati vengono elaborati velocemente e i tempi di accesso vengono ridotti, la potenza complessiva richiesta per le attività di inferenza della CPU viene notevolmente ridotta. Ciò porta a operazioni più efficienti dal punto di vista energetico e garantisce un ambiente più sostenibile ed economicamente vantaggioso per le applicazioni di intelligenza artificiale.

Il ruolo di più canali di memoria

L'architettura della memoria di sistema è un elemento essenziale nel definire le prestazioni delle applicazioni AI. L'utilizzo di più canali di memoria è come allargare un'autostrada: facilita un maggiore flusso di traffico dati contemporaneamente, migliorando significativamente le prestazioni complessive del sistema. Ecco come l’utilizzo di più canali può ottimizzare le operazioni di intelligenza artificiale:

  • Maggiore larghezza di banda: più canali aumentano la larghezza di banda della memoria. Ciò è fondamentale per le applicazioni di intelligenza artificiale, poiché possono elaborare e analizzare più dati contemporaneamente, portando a tempi di inferenza più rapidi.
  • Elaborazione parallela: con più canali, i dati possono essere elaborati in parallelo, accelerando significativamente i calcoli dell'intelligenza artificiale che coinvolgono set di dati di grandi dimensioni.
  • Colli di bottiglia ridotti: più canali di memoria aiutano a ridurre i colli di bottiglia del sistema. La distribuzione del carico di memoria consente a ciascun canale di funzionare in modo più efficiente, migliorando le prestazioni complessive del sistema.

Dati di test

Per convalidare i vantaggi della DRAM nei sistemi AI, in particolare l'inferenza della CPU, abbiamo condotto una serie di test utilizzando otto moduli di memoria Kingston KSM56R46BD4PMI-64HAI DDR5 in diverse configurazioni di canale.

KSM48R40BD4TMM-64HMR 64 GB 2Rx4 8G x 80 bit PC5-4800 CL40 DIMM EC8 a 288 pin registrato KSM56R46BD4PMI-64HAI 64 GB 2Rx4 8G x 80 bit PC5-5600 CL46 DIMM EC8 a 288 pin registrato
Velocità di trasferimento 4800 MT / s 5600 MT / s
CL(IDD) 40 46
Tempo ciclo riga (tRCmin) 48ns(minuto) 48ns(minuto)
Aggiorna ad attivo/Aggiorna tempo comando (tRFCmin) 295ns(minuto) 295ns(minuto)
Tempo di attività della riga 32ns(minuto) 32ns(minuto)
Tempo di precarica riga 16ns(minuto) 16ns(minuto)
Classificazione UL 94V-0 94V-0
Temperatura di esercizio Da 0°C a +95°C Da 0°C a +95°C
Temperatura di conservazione Da -55 C a + 100 C Da -55 C a + 100 C

Per stabilire una linea di base, abbiamo avviato benchmark mirati della CPU e test Geekbench, misurando le capacità isolate della CPU. Per mettere a dura prova l'intero sistema, compresa la memoria e l'archiviazione, abbiamo selezionato y-cruncher per le sue esigenze rigorose. Questo approccio ci consente di valutare la coesione e la resistenza dell'intero sistema in condizioni estreme, fornendo un quadro chiaro delle prestazioni e della stabilità complessive.

In definitiva, questi risultati forniranno dati concreti su come la DRAM del sistema e il numero di canali di memoria influiscono direttamente sulla velocità di calcolo, sull’efficienza e sulle prestazioni complessive del sistema nelle applicazioni IA.

Geekbench 6

La prima è, ovviamente, Geekbench 6, un benchmark multipiattaforma che misura le prestazioni complessive del sistema. Puoi trovare confronti con qualsiasi sistema desideri nel file Browser Geekbench. I punteggi più alti sono migliori.

Geekbench 6 Kingston DDR5
2 Canali
Kingston DDR5
4 Canali
Kingston DDR5
8 Canali
benchmark CPU:
Single core
2,083 2,233 2,317
benchmark CPU:
Multi-Core
14,404 18,561 19,752

I risultati di Geekbench 6 per Kingston DDR5 mostrano una serie di variazioni quando si confrontano configurazioni a 2, 4 e 8 canali. Nei test single-core, i punteggi aumentano in modo modesto ma costante da 2,083 con due canali a 2,317 con otto canali, indicando un miglioramento dell'efficienza e della produttività per le singole operazioni core all'aumentare del numero di canali. Tuttavia, il miglioramento prestazionale più evidente si osserva nei test multi-core, dove i punteggi salgono da 14,404 con due canali a un sostanziale 19,752 con otto canali.

y-cruncher

y-cruncher, un programma multi-thread e scalabile, può calcolare Pi e altre costanti matematiche fino a trilioni di cifre. Dal suo lancio nel 2009, y-cruncher è diventata una popolare applicazione di benchmarking e stress test per overclocker e appassionati di hardware. Più veloce è meglio in questo test.

y-cruncher
(Tempo di calcolo totale)
Kingston DDR5
2 Canali
Kingston DDR5
4 Canali
Kingston DDR5
8 Canali
1 miliardo di cifre secondi 18.117 secondi 10.856 secondi 7.552
2.5 miliardo di cifre secondi 51.412 31.861 Secondi 20.981 Secondi
5 miliardo di cifre secondi 110.728 64.609 Secondi 46.304 Secondi
10 miliardo di cifre secondi 240.666 138.402 Secondi 103.216 Secondi
25 miliardi di cifre secondi 693.835 396.997 Secondi  N/A

Il benchmark y-cruncher su 2, 4 e 8 canali dimostra un miglioramento chiaro e coerente nella velocità di calcolo all'aumentare del numero di canali. Per calcolare 1 miliardo di cifre del Pi greco, il tempo di calcolo totale diminuisce significativamente da 18.117 secondi con due canali a soli 7.552 secondi con otto canali.

Questa tendenza alla riduzione del tempo di calcolo continua su tutte le scale testate, con il tempo per il calcolo di 25 miliardi di cifre che scende da 693.835 secondi a 396.997 secondi quando si passa da 2 a 4 canali.

3DMark – Profilo della CPU

Il test del profilo della CPU in 3DMark misura specificamente le prestazioni del processore su una gamma di conteggi di thread, offrendo uno sguardo dettagliato su come le diverse configurazioni dei canali RAM DDR5 influiscono sulla gestione e sull'efficienza del carico di lavoro della CPU. Questo test è utile per comprendere le sfumature delle prestazioni nelle operazioni ad uso intensivo di memoria e nelle applicazioni multi-thread quando si utilizzano varie configurazioni di canali RAM DDR5.

3DMark – Profilo CPU – Punteggi
Conteggio discussioni Kingston DDR5
2 Canali
Kingston DDR5
4 Canali
Kingston DDR5
8 Canali
Numero massimo di thread 15,822 15,547 15,457
Thread 16 10,632 9,515 10,367
Thread 8 4,957 6,019 5,053
Thread 4 3,165 3,366 3,323
Thread 2 1,726 1,765 1,781
filo 1 907 911 884

I punteggi del profilo CPU 3DMark per la RAM Kingston DDR5 mostrano un quadro un po' complesso, indicando che il numero ottimale di canali può variare a seconda del numero di thread e del carico di lavoro specifico.

Al numero massimo di thread, i punteggi sono più alti con due canali (15,822) e diminuiscono leggermente con più canali, suggerendo che i canali aggiuntivi non forniscono vantaggi per attività altamente parallele. Tuttavia, con otto thread, la configurazione a 4 canali ottiene il punteggio più alto (6,019), indicando un punto debole in cui i canali aggiuntivi migliorano la gestione del parallelismo di medio livello. I punteggi sono simili in tutte le configurazioni di canale con un numero di thread inferiore (4, 2 e 1 thread).

Questi risultati suggeriscono che mentre più canali possono avvantaggiare determinate operazioni multi-thread, l’impatto varia a seconda della natura dell’attività e dell’architettura del sistema. Cioè, di più non è sempre meglio per ogni caso d’uso.

Effetto del canale DRAM sull'inferenza dell'intelligenza artificiale

Tutti i test sono stati eseguiti su una CPU Intel Xeon w9-3475X, utilizzando l'API Intel OpenVINO tramite il benchmark Procyon di UL Labs.

Dotato di una serie di motori di inferenza AI di fornitori di alto livello, il benchmark UL Procyon AI Inference Benchmark soddisfa un ampio spettro di configurazioni e requisiti hardware. Il punteggio benchmark fornisce un riepilogo pratico e standardizzato delle prestazioni di inferenza sul dispositivo. Ciò ci consente di confrontare e contrapporre varie configurazioni hardware in situazioni reali senza richiedere soluzioni interne.

I risultati rientrano nel margine di errore su FP32, ma le cose diventano interessanti quando si passa a INT, osservando i punteggi granulari anziché il punteggio complessivo.

Numeri più grandi migliorano il punteggio complessivo, numeri piccoli migliorano i tempi.

Il primo è FP32 Precision

FP 32
Precisione 8 Canale 2 Canale
Punteggio totale 629 630
Tempo medio di inferenza MobileNet V3 0.81 0.77
ResNet 50 Tempo medio di inferenza 1.96 1.82
Tempo di inferenza medio di Inception V4 6.93 7.31
Tempo di inferenza medio di DeepLab V3 6.27 6.17
YOLO V3 Tempo medio di inferenza 12.99 13.99
REAL-ESRGAN Tempo medio di inferenza 280.59 282.45

Il prossimo è Precisione FP16

FP 16
Precisione 8 Canale 2 Canale
Punteggio totale 645 603
Tempo medio di inferenza MobileNet V3 0.81 0.76
ResNet 50 Tempo medio di inferenza 1.91 1.94
Tempo di inferenza medio di Inception V4 7.11 7.27
Tempo di inferenza medio di DeepLab V3 6.27 7.13
YOLO V3 Tempo medio di inferenza 12.93 15.01
REAL-ESRGAN Tempo medio di inferenza 242.24 280.91

E infine INT

INT
Precisione 8 Canale 2 Canale
Punteggio totale 1,033 1004
Tempo medio di inferenza MobileNet V3 0.71 0.73
ResNet 50 Tempo medio di inferenza 1.48 1.48
Tempo di inferenza medio di Inception V4 4.42 4.47
Tempo di inferenza medio di DeepLab V3 4.33 4.99
YOLO V3 Tempo medio di inferenza 5.15 5.12
REAL-ESRGAN Tempo medio di inferenza 122.40 123.57

Throughput e latenza della DRAM

Innanzitutto, esaminiamo la latenza della configurazione DRAM a 2 e 8 canali. Abbiamo profilato l'intera CPU e memoria, ma il nostro unico obiettivo era la transizione dalla cache della CPU alla DRAM. Poiché la nostra CPU Xeon W9-3475X ha solo 82.50 MB di cache L3, abbiamo estratto il grafico all'inizio di quella transizione.

Dimensioni del test (KB) Larghezza di banda a 2 canali
Latenza 8 canali (ns)
65,536 48.70080 47.24411
98,304 68.16823 66.25920
131,072 85.38640 82.16685
262,144 114.32570 107.57450
393,216 121.74860 115.40340
524,288 129.38970 123.22100
1,048,576 144.32880 138.28380

Qui possiamo vedere che l'aggiunta di più canali ha migliorato la latenza di un piccolo margine.

Passando alla larghezza di banda nelle istruzioni AVX512, possiamo vedere una differenza un po' più drammatica nella larghezza di banda tra 2 canali e 8 canali. Il Delta qui è il successo in termini di prestazioni tra 2 e 8 canali.

Dimensione del test (KB) AVX512 Larghezza di banda a 2 canali (GB/s) Larghezza di banda a 8 canali (GB/s) Delta (differenza GB/s)
65,536 3,455.28 3,767.91 all'312.63 ottobre
98,304 1,801.88 2,011.83 all'209.95 ottobre
131,072 1,009.21 1,436.50 all'427.28 ottobre
262,144 178.52 508.65 all'330.13 ottobre
393,216 114.76 433.91 all'319.15 ottobre
524,288 94.81 396.90 all'302.09 ottobre
1,048,576 71.12 293.26 all'222.13 ottobre
1,572,864 66.98 267.44 all'200.46 ottobre
2,097,152 65.08 262.50 all'197.42 ottobre
3,145,728 63.63 253.12 all'189.50 ottobre

Conclusione

In sintesi, la DRAM di sistema è una pietra angolare nell’architettura dei sistemi di intelligenza artificiale, in particolare nell’inferenza della CPU. La sua capacità di fornire una memoria ampia, affidabile e ad alta velocità è indispensabile. Inoltre, l’utilizzo di più canali di memoria può migliorare significativamente le prestazioni delle applicazioni AI aumentando la larghezza di banda, consentendo l’elaborazione parallela e riducendo al minimo i colli di bottiglia. Mentre l’intelligenza artificiale continua ad evolversi, l’ottimizzazione della DRAM del sistema rimarrà un obiettivo chiave per garantire i massimi livelli di prestazioni ed efficienza.

Immagine generata dall'intelligenza artificiale, suggerita da Jordan Ranous

Inoltre, i dati dei test rafforzano questa nozione, dimostrando i vantaggi tangibili delle configurazioni di memoria migliorate. Mentre ampliamo i confini dell’intelligenza artificiale e dell’elaborazione dei dati, il miglioramento strategico della memoria di sistema sarà cruciale per supportare la prossima generazione di innovazione dell’intelligenza artificiale e di applicazioni nel mondo reale.

Interagisci con StorageReview

Newsletter | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS feed