Per convalidare i vantaggi della DRAM nei sistemi AI abbiamo condotto una serie di test utilizzando otto moduli di memoria DDR56 Kingston KSM46R4BD64PMI-5HAI.
La DRAM di sistema svolge un ruolo importante nell'intelligenza artificiale, in particolare nell'inferenza della CPU. Man mano che le applicazioni AI diventano sempre più complesse, la richiesta di soluzioni di memoria più veloci ed efficienti diventa sempre più critica. Volevamo esaminare l'importanza della DRAM di sistema nell'intelligenza artificiale, concentrandoci sull'inferenza della CPU e sul ruolo vitale dell'utilizzo di più canali di memoria.
L'importanza della DRAM di sistema nell'intelligenza artificiale
La DRAM di sistema è l'hub centrale per i dati nei sistemi di intelligenza artificiale. I dati vengono temporaneamente archiviati per un rapido accesso da parte della CPU, consentendo una rapida elaborazione dei dati.
Ciò è particolarmente cruciale nelle applicazioni di intelligenza artificiale in cui gestire set di dati di grandi dimensioni in modo rapido ed efficiente non è solo un vantaggio ma una necessità. Ecco uno sguardo più da vicino al ruolo multiforme della DRAM di sistema nel migliorare le capacità dell'intelligenza artificiale:
- Velocità ed efficienza: gli algoritmi di intelligenza artificiale, in particolare nell'inferenza, richiedono memoria ad alta velocità per elaborare grandi quantità di dati. La DRAM di sistema fornisce questa velocità, riducendo la latenza e aumentando le prestazioni complessive del sistema.
- Capacità: le moderne applicazioni AI richiedono grandi capacità di memoria. La DRAM ad alta capacità garantisce che set di dati più grandi possano essere elaborati in memoria, evitando il processo più lento di recupero dei dati dai dispositivi di archiviazione.
- Affidabilità: nell’intelligenza artificiale, l’integrità dei dati è fondamentale. La DRAM di sistema, con le sue funzionalità di correzione degli errori, garantisce che la corruzione dei dati sia ridotta al minimo, aspetto essenziale nelle applicazioni in cui la precisione è fondamentale.
- Scalabilità: man mano che i modelli di intelligenza artificiale diventano sempre più complessi, la capacità di scalare le risorse di memoria diventa estremamente importante. La DRAM di sistema offre la scalabilità necessaria per soddisfare le crescenti esigenze delle applicazioni IA in evoluzione e i loro crescenti requisiti di dati.
- Larghezza di banda: la maggiore larghezza di banda della DRAM di sistema consente velocità di trasferimento dati più elevate, consentendo un accesso più rapido ai dati. Ciò è particolarmente utile per l’addestramento di reti neurali complesse e la gestione di attività di elaborazione dati su larga scala.
Inferenza CPU e DRAM
Nell'intelligenza artificiale, l'inferenza della CPU (il processo di utilizzo di un modello addestrato per fare previsioni o decisioni) e il ruolo della DRAM sono componenti critici che influenzano in modo significativo l'efficienza e la velocità delle applicazioni IA. Questa fase richiede un utilizzo intensivo della memoria a causa della necessità di accedere ed elaborare rapidamente set di dati di grandi dimensioni. È particolarmente impegnativo per la memoria di sistema a causa della natura complessa e delle dimensioni dei dati coinvolti.
La DRAM è fondamentale nell'ottimizzazione dell'inferenza della CPU per le operazioni di intelligenza artificiale attraverso numerosi miglioramenti chiave. Innanzitutto, fornisce la larghezza di banda necessaria per ottenere un elevato throughput dei dati, essenziale per un'elaborazione rapida dei dati e un processo decisionale nell'inferenza della CPU. Questa maggiore produttività si traduce direttamente in prestazioni più rapide in attività complesse.
Inoltre, memorizzando i dati vicino alla CPU, la DRAM di sistema riduce significativamente il tempo di accesso ai dati, minimizzando così la latenza complessiva dell'inferenza. Questa vicinanza è fondamentale per mantenere un sistema rapido e reattivo. Infine, poiché i dati vengono elaborati velocemente e i tempi di accesso vengono ridotti, la potenza complessiva richiesta per le attività di inferenza della CPU viene notevolmente ridotta. Ciò porta a operazioni più efficienti dal punto di vista energetico e garantisce un ambiente più sostenibile ed economicamente vantaggioso per le applicazioni di intelligenza artificiale.
Il ruolo di più canali di memoria
L'architettura della memoria di sistema è un elemento essenziale nel definire le prestazioni delle applicazioni AI. L'utilizzo di più canali di memoria è come allargare un'autostrada: facilita un maggiore flusso di traffico dati contemporaneamente, migliorando significativamente le prestazioni complessive del sistema. Ecco come l’utilizzo di più canali può ottimizzare le operazioni di intelligenza artificiale:
- Maggiore larghezza di banda: più canali aumentano la larghezza di banda della memoria. Ciò è fondamentale per le applicazioni di intelligenza artificiale, poiché possono elaborare e analizzare più dati contemporaneamente, portando a tempi di inferenza più rapidi.
- Elaborazione parallela: con più canali, i dati possono essere elaborati in parallelo, accelerando significativamente i calcoli dell'intelligenza artificiale che coinvolgono set di dati di grandi dimensioni.
- Colli di bottiglia ridotti: più canali di memoria aiutano a ridurre i colli di bottiglia del sistema. La distribuzione del carico di memoria consente a ciascun canale di funzionare in modo più efficiente, migliorando le prestazioni complessive del sistema.
Dati di test
Per convalidare i vantaggi della DRAM nei sistemi AI, in particolare l'inferenza della CPU, abbiamo condotto una serie di test utilizzando otto moduli di memoria Kingston KSM56R46BD4PMI-64HAI DDR5 in diverse configurazioni di canale.
KSM48R40BD4TMM-64HMR 64 GB 2Rx4 8G x 80 bit PC5-4800 CL40 DIMM EC8 a 288 pin registrato | KSM56R46BD4PMI-64HAI 64 GB 2Rx4 8G x 80 bit PC5-5600 CL46 DIMM EC8 a 288 pin registrato | |
Velocità di trasferimento | 4800 MT / s | 5600 MT / s |
CL(IDD) | 40 | 46 |
Tempo ciclo riga (tRCmin) | 48ns(minuto) | 48ns(minuto) |
Aggiorna ad attivo/Aggiorna tempo comando (tRFCmin) | 295ns(minuto) | 295ns(minuto) |
Tempo di attività della riga | 32ns(minuto) | 32ns(minuto) |
Tempo di precarica riga | 16ns(minuto) | 16ns(minuto) |
Classificazione UL | 94V-0 | 94V-0 |
Temperatura di esercizio | Da 0°C a +95°C | Da 0°C a +95°C |
Temperatura di conservazione | Da -55 C a + 100 C | Da -55 C a + 100 C |
Per stabilire una linea di base, abbiamo avviato benchmark mirati della CPU e test Geekbench, misurando le capacità isolate della CPU. Per mettere a dura prova l'intero sistema, compresa la memoria e l'archiviazione, abbiamo selezionato y-cruncher per le sue esigenze rigorose. Questo approccio ci consente di valutare la coesione e la resistenza dell'intero sistema in condizioni estreme, fornendo un quadro chiaro delle prestazioni e della stabilità complessive.
In definitiva, questi risultati forniranno dati concreti su come la DRAM del sistema e il numero di canali di memoria influiscono direttamente sulla velocità di calcolo, sull’efficienza e sulle prestazioni complessive del sistema nelle applicazioni IA.
Geekbench 6
La prima è, ovviamente, Geekbench 6, un benchmark multipiattaforma che misura le prestazioni complessive del sistema. Puoi trovare confronti con qualsiasi sistema desideri nel file Browser Geekbench. I punteggi più alti sono migliori.
Geekbench 6 | Kingston DDR5 2 Canali |
Kingston DDR5 4 Canali |
Kingston DDR5 8 Canali |
benchmark CPU: Single core |
2,083 | 2,233 | 2,317 |
benchmark CPU: Multi-Core |
14,404 | 18,561 | 19,752 |
I risultati di Geekbench 6 per Kingston DDR5 mostrano una serie di variazioni quando si confrontano configurazioni a 2, 4 e 8 canali. Nei test single-core, i punteggi aumentano in modo modesto ma costante da 2,083 con due canali a 2,317 con otto canali, indicando un miglioramento dell'efficienza e della produttività per le singole operazioni core all'aumentare del numero di canali. Tuttavia, il miglioramento prestazionale più evidente si osserva nei test multi-core, dove i punteggi salgono da 14,404 con due canali a un sostanziale 19,752 con otto canali.
y-cruncher
y-cruncher, un programma multi-thread e scalabile, può calcolare Pi e altre costanti matematiche fino a trilioni di cifre. Dal suo lancio nel 2009, y-cruncher è diventata una popolare applicazione di benchmarking e stress test per overclocker e appassionati di hardware. Più veloce è meglio in questo test.
y-cruncher (Tempo di calcolo totale) |
Kingston DDR5 2 Canali |
Kingston DDR5 4 Canali |
Kingston DDR5 8 Canali |
1 miliardo di cifre | secondi 18.117 | secondi 10.856 | secondi 7.552 |
2.5 miliardo di cifre | secondi 51.412 | 31.861 Secondi | 20.981 Secondi |
5 miliardo di cifre | secondi 110.728 | 64.609 Secondi | 46.304 Secondi |
10 miliardo di cifre | secondi 240.666 | 138.402 Secondi | 103.216 Secondi |
25 miliardi di cifre | secondi 693.835 | 396.997 Secondi | N/A |
Il benchmark y-cruncher su 2, 4 e 8 canali dimostra un miglioramento chiaro e coerente nella velocità di calcolo all'aumentare del numero di canali. Per calcolare 1 miliardo di cifre del Pi greco, il tempo di calcolo totale diminuisce significativamente da 18.117 secondi con due canali a soli 7.552 secondi con otto canali.
Questa tendenza alla riduzione del tempo di calcolo continua su tutte le scale testate, con il tempo per il calcolo di 25 miliardi di cifre che scende da 693.835 secondi a 396.997 secondi quando si passa da 2 a 4 canali.
3DMark – Profilo della CPU
Il test del profilo della CPU in 3DMark misura specificamente le prestazioni del processore su una gamma di conteggi di thread, offrendo uno sguardo dettagliato su come le diverse configurazioni dei canali RAM DDR5 influiscono sulla gestione e sull'efficienza del carico di lavoro della CPU. Questo test è utile per comprendere le sfumature delle prestazioni nelle operazioni ad uso intensivo di memoria e nelle applicazioni multi-thread quando si utilizzano varie configurazioni di canali RAM DDR5.
3DMark – Profilo CPU – Punteggi | |||
Conteggio discussioni | Kingston DDR5 2 Canali |
Kingston DDR5 4 Canali |
Kingston DDR5 8 Canali |
Numero massimo di thread | 15,822 | 15,547 | 15,457 |
Thread 16 | 10,632 | 9,515 | 10,367 |
Thread 8 | 4,957 | 6,019 | 5,053 |
Thread 4 | 3,165 | 3,366 | 3,323 |
Thread 2 | 1,726 | 1,765 | 1,781 |
filo 1 | 907 | 911 | 884 |
I punteggi del profilo CPU 3DMark per la RAM Kingston DDR5 mostrano un quadro un po' complesso, indicando che il numero ottimale di canali può variare a seconda del numero di thread e del carico di lavoro specifico.
Al numero massimo di thread, i punteggi sono più alti con due canali (15,822) e diminuiscono leggermente con più canali, suggerendo che i canali aggiuntivi non forniscono vantaggi per attività altamente parallele. Tuttavia, con otto thread, la configurazione a 4 canali ottiene il punteggio più alto (6,019), indicando un punto debole in cui i canali aggiuntivi migliorano la gestione del parallelismo di medio livello. I punteggi sono simili in tutte le configurazioni di canale con un numero di thread inferiore (4, 2 e 1 thread).
Questi risultati suggeriscono che mentre più canali possono avvantaggiare determinate operazioni multi-thread, l’impatto varia a seconda della natura dell’attività e dell’architettura del sistema. Cioè, di più non è sempre meglio per ogni caso d’uso.
Effetto del canale DRAM sull'inferenza dell'intelligenza artificiale
Tutti i test sono stati eseguiti su una CPU Intel Xeon w9-3475X, utilizzando l'API Intel OpenVINO tramite il benchmark Procyon di UL Labs.
Dotato di una serie di motori di inferenza AI di fornitori di alto livello, il benchmark UL Procyon AI Inference Benchmark soddisfa un ampio spettro di configurazioni e requisiti hardware. Il punteggio benchmark fornisce un riepilogo pratico e standardizzato delle prestazioni di inferenza sul dispositivo. Ciò ci consente di confrontare e contrapporre varie configurazioni hardware in situazioni reali senza richiedere soluzioni interne.
I risultati rientrano nel margine di errore su FP32, ma le cose diventano interessanti quando si passa a INT, osservando i punteggi granulari anziché il punteggio complessivo.
Numeri più grandi migliorano il punteggio complessivo, numeri piccoli migliorano i tempi.
Il primo è FP32 Precision
FP 32 | ||
Precisione | 8 Canale | 2 Canale |
Punteggio totale | 629 | 630 |
Tempo medio di inferenza MobileNet V3 | 0.81 | 0.77 |
ResNet 50 Tempo medio di inferenza | 1.96 | 1.82 |
Tempo di inferenza medio di Inception V4 | 6.93 | 7.31 |
Tempo di inferenza medio di DeepLab V3 | 6.27 | 6.17 |
YOLO V3 Tempo medio di inferenza | 12.99 | 13.99 |
REAL-ESRGAN Tempo medio di inferenza | 280.59 | 282.45 |
Il prossimo è Precisione FP16
FP 16 | ||
Precisione | 8 Canale | 2 Canale |
Punteggio totale | 645 | 603 |
Tempo medio di inferenza MobileNet V3 | 0.81 | 0.76 |
ResNet 50 Tempo medio di inferenza | 1.91 | 1.94 |
Tempo di inferenza medio di Inception V4 | 7.11 | 7.27 |
Tempo di inferenza medio di DeepLab V3 | 6.27 | 7.13 |
YOLO V3 Tempo medio di inferenza | 12.93 | 15.01 |
REAL-ESRGAN Tempo medio di inferenza | 242.24 | 280.91 |
E infine INT
INT | ||
Precisione | 8 Canale | 2 Canale |
Punteggio totale | 1,033 | 1004 |
Tempo medio di inferenza MobileNet V3 | 0.71 | 0.73 |
ResNet 50 Tempo medio di inferenza | 1.48 | 1.48 |
Tempo di inferenza medio di Inception V4 | 4.42 | 4.47 |
Tempo di inferenza medio di DeepLab V3 | 4.33 | 4.99 |
YOLO V3 Tempo medio di inferenza | 5.15 | 5.12 |
REAL-ESRGAN Tempo medio di inferenza | 122.40 | 123.57 |
Throughput e latenza della DRAM
Innanzitutto, esaminiamo la latenza della configurazione DRAM a 2 e 8 canali. Abbiamo profilato l'intera CPU e memoria, ma il nostro unico obiettivo era la transizione dalla cache della CPU alla DRAM. Poiché la nostra CPU Xeon W9-3475X ha solo 82.50 MB di cache L3, abbiamo estratto il grafico all'inizio di quella transizione.
Dimensioni del test (KB) | Larghezza di banda a 2 canali |
Latenza 8 canali (ns)
|
65,536 | 48.70080 | 47.24411 |
98,304 | 68.16823 | 66.25920 |
131,072 | 85.38640 | 82.16685 |
262,144 | 114.32570 | 107.57450 |
393,216 | 121.74860 | 115.40340 |
524,288 | 129.38970 | 123.22100 |
1,048,576 | 144.32880 | 138.28380 |
Qui possiamo vedere che l'aggiunta di più canali ha migliorato la latenza di un piccolo margine.
Passando alla larghezza di banda nelle istruzioni AVX512, possiamo vedere una differenza un po' più drammatica nella larghezza di banda tra 2 canali e 8 canali. Il Delta qui è il successo in termini di prestazioni tra 2 e 8 canali.
Dimensione del test (KB) AVX512 | Larghezza di banda a 2 canali (GB/s) | Larghezza di banda a 8 canali (GB/s) | Delta (differenza GB/s) |
65,536 | 3,455.28 | 3,767.91 | all'312.63 ottobre |
98,304 | 1,801.88 | 2,011.83 | all'209.95 ottobre |
131,072 | 1,009.21 | 1,436.50 | all'427.28 ottobre |
262,144 | 178.52 | 508.65 | all'330.13 ottobre |
393,216 | 114.76 | 433.91 | all'319.15 ottobre |
524,288 | 94.81 | 396.90 | all'302.09 ottobre |
1,048,576 | 71.12 | 293.26 | all'222.13 ottobre |
1,572,864 | 66.98 | 267.44 | all'200.46 ottobre |
2,097,152 | 65.08 | 262.50 | all'197.42 ottobre |
3,145,728 | 63.63 | 253.12 | all'189.50 ottobre |
Conclusione
In sintesi, la DRAM di sistema è una pietra angolare nell’architettura dei sistemi di intelligenza artificiale, in particolare nell’inferenza della CPU. La sua capacità di fornire una memoria ampia, affidabile e ad alta velocità è indispensabile. Inoltre, l’utilizzo di più canali di memoria può migliorare significativamente le prestazioni delle applicazioni AI aumentando la larghezza di banda, consentendo l’elaborazione parallela e riducendo al minimo i colli di bottiglia. Mentre l’intelligenza artificiale continua ad evolversi, l’ottimizzazione della DRAM del sistema rimarrà un obiettivo chiave per garantire i massimi livelli di prestazioni ed efficienza.
Inoltre, i dati dei test rafforzano questa nozione, dimostrando i vantaggi tangibili delle configurazioni di memoria migliorate. Mentre ampliamo i confini dell’intelligenza artificiale e dell’elaborazione dei dati, il miglioramento strategico della memoria di sistema sarà cruciale per supportare la prossima generazione di innovazione dell’intelligenza artificiale e di applicazioni nel mondo reale.
Interagisci con StorageReview
Newsletter | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS feed