AI 시스템에서 DRAM의 장점을 검증하기 위해 우리는 56개의 Kingston KSM46R4BD64PMI-5HAI DDRXNUMX 메모리 모듈을 사용하여 일련의 테스트를 수행했습니다.
시스템 DRAM은 AI, 특히 CPU 추론에서 중요한 역할을 합니다. AI 애플리케이션이 더욱 복잡해짐에 따라 더 빠르고 효율적인 메모리 솔루션에 대한 요구가 점점 더 중요해지고 있습니다. 우리는 CPU 추론과 다중 메모리 채널을 활용하는 중요한 역할에 초점을 맞춰 AI에서 시스템 DRAM의 중요성을 살펴보고 싶었습니다.
Kingston KSM56R46BD4PMI-64HAI DDR5
AI에서 시스템 DRAM의 중요성
시스템 DRAM은 AI 시스템의 데이터 중앙 허브입니다. 데이터는 CPU의 빠른 액세스를 위해 임시로 저장되므로 신속한 데이터 처리가 가능합니다.
이는 대규모 데이터 세트를 빠르고 효율적으로 처리하는 것이 장점일 뿐만 아니라 필수인 AI 애플리케이션에서 특히 중요합니다. AI 기능 향상에 있어 시스템 DRAM의 다각적인 역할을 자세히 살펴보겠습니다.
- 속도 및 효율성: 특히 추론 분야의 AI 알고리즘은 방대한 양의 데이터를 처리하기 위해 고속 메모리가 필요합니다. 시스템 DRAM은 이러한 속도를 제공하여 대기 시간을 줄이고 전반적인 시스템 성능을 향상시킵니다.
- 용량: 최신 AI 애플리케이션에는 대용량 메모리가 필요합니다. 고용량 DRAM은 더 큰 데이터 세트를 메모리에서 처리할 수 있도록 보장하여 저장 장치에서 데이터를 가져오는 느린 프로세스를 방지합니다.
- 신뢰성: AI에서는 데이터 무결성이 가장 중요합니다. 오류 수정 기능을 갖춘 시스템 DRAM은 정확성이 중요한 애플리케이션에 필수적인 데이터 손상을 최소화합니다.
- 확장성: AI 모델이 점점 더 복잡해짐에 따라 메모리 리소스를 확장하는 능력이 매우 중요해졌습니다. 시스템 DRAM은 진화하는 AI 애플리케이션의 증가하는 요구와 증가하는 데이터 요구 사항을 수용하는 데 필요한 확장성을 제공합니다.
- 대역폭: 시스템 DRAM의 더 높은 대역폭으로 인해 데이터 전송 속도가 빨라지고 데이터에 더 빠르게 액세스할 수 있습니다. 이는 복잡한 신경망을 훈련하고 대규모 데이터 처리 작업을 관리하는 데 특히 유용합니다.
CPU 추론 및 DRAM
인공 지능에서 CPU 추론(훈련된 모델을 사용하여 예측이나 결정을 내리는 프로세스)과 DRAM의 역할은 AI 애플리케이션의 효율성과 속도에 큰 영향을 미치는 중요한 구성 요소입니다. 이 단계는 대규모 데이터 세트에 빠르게 액세스하고 처리해야 하기 때문에 메모리 집약적입니다. 관련된 데이터의 복잡한 성격과 크기로 인해 특히 시스템 메모리가 많이 필요합니다.
DRAM은 몇 가지 주요 개선 사항을 통해 AI 작업을 위한 CPU 추론을 최적화하는 데 중추적인 역할을 합니다. 첫째, 높은 데이터 처리량을 달성하는 데 필요한 대역폭을 제공합니다. 이는 CPU 추론의 신속한 데이터 처리 및 의사 결정에 필수적입니다. 이렇게 증가된 처리량은 복잡한 작업에서 더 빠른 성능으로 직접적으로 해석됩니다.
또한 시스템 DRAM은 데이터를 CPU 가까이에 저장함으로써 데이터 액세스 시간을 크게 줄여 전체적인 추론 지연 시간을 최소화합니다. 이러한 근접성은 빠르고 반응이 빠른 시스템을 유지하는 데 중요합니다. 마지막으로, 데이터가 빠르게 처리되고 액세스 시간이 단축됨에 따라 CPU 추론 작업에 필요한 전체 전력이 눈에 띄게 줄어듭니다. 이는 보다 에너지 효율적인 운영으로 이어지고 AI 애플리케이션을 위한 보다 지속 가능하고 비용 효율적인 환경을 보장합니다.
다중 메모리 채널의 역할
시스템 메모리 아키텍처는 AI 애플리케이션의 성능을 정의하는 데 필수적인 요소입니다. 다중 메모리 채널을 활용하는 것은 고속도로를 확장하는 것과 같습니다. 동시에 더 많은 데이터 트래픽 흐름을 촉진하여 전체 시스템 성능을 크게 향상시킵니다. 여러 채널을 활용하여 AI 운영을 최적화하는 방법은 다음과 같습니다.
- 대역폭 증가: 여러 채널이 메모리 대역폭을 증가시킵니다. 이는 더 많은 데이터를 동시에 처리하고 분석하여 추론 시간을 단축할 수 있기 때문에 AI 애플리케이션에 매우 중요합니다.
- 병렬 처리: 여러 채널을 사용하면 데이터를 병렬로 처리할 수 있어 대규모 데이터 세트가 포함된 AI 계산 속도가 크게 향상됩니다.
- 병목 현상 감소: 다중 메모리 채널은 시스템 병목 현상을 줄이는 데 도움이 됩니다. 메모리 로드를 분산하면 각 채널이 보다 효율적으로 작동하여 전체 시스템 성능이 향상됩니다.
테스트 데이터
AI 시스템, 특히 CPU 추론에서 DRAM의 장점을 검증하기 위해 우리는 다양한 채널 구성에서 56개의 Kingston KSM46R4BD64PMI-5HAI DDRXNUMX 메모리 모듈을 사용하여 일련의 테스트를 수행했습니다.
KSM48R40BD4TMM-64HMR 64GB 2Rx4 8G x 80비트 PC5-4800 CL40 등록 EC8 288핀 DIMM | KSM56R46BD4PMI-64HAI 64GB 2Rx4 8G x 80비트 PC5-5600 CL46 등록 EC8 288핀 DIMM | |
전송 속도 | 4800 MT/s | 5600 MT/s |
CL(IDD) | 40주기 | 46주기 |
행 주기 시간(tRCmin) | 48ns(분) | 48ns(분) |
활성으로 새로고침/새로고침 명령 시간(tRFCmin) | 295ns(분) | 295ns(분) |
행 활성 시간 | 32ns(분) | 32ns(분) |
행 사전 충전 시간 | 16ns(분) | 16ns(분) |
UL 등급 | 94V – 0 | 94V – 0 |
작동 온도 | 0C ~ +95C | 0C ~ +95C |
저장 온도 | -55 C에서 + 100 C로 | -55 C에서 + 100 C로 |
기준선을 설정하기 위해 집중적인 CPU 벤치마크와 Geekbench 테스트를 시작하여 CPU의 격리된 기능을 측정했습니다. 메모리와 스토리지를 포함한 전체 시스템에 심각한 스트레스를 주기 위해 우리는 엄격한 요구 사항을 충족하는 y-cruncher를 선택했습니다. 이 접근 방식을 통해 우리는 극한 조건에서 전체 시스템의 응집력과 내구성을 평가하여 전반적인 성능과 안정성에 대한 명확한 그림을 제공할 수 있습니다.
궁극적으로 이러한 결과는 시스템 DRAM과 메모리 채널 수가 AI 애플리케이션의 계산 속도, 효율성 및 전반적인 시스템 성능에 직접적인 영향을 미치는 방식에 대한 구체적인 데이터를 제공합니다.
Geekbench 6
처음이다 Geekbench 6, 전체 시스템 성능을 측정하는 크로스 플랫폼 벤치마크입니다. 다음에서 원하는 시스템과의 비교를 찾을 수 있습니다. 긱벤치 브라우저. 점수가 높을수록 좋습니다.
Geekbench 6 | 킹스턴 DDR5 2 채널 |
킹스턴 DDR5 4 채널 |
킹스턴 DDR5 8 채널 |
CPU 벤치마크: 싱글 코어 |
2,083 | 2,233 | 2,317 |
CPU 벤치마크: 멀티 코어 |
14,404 | 18,561 | 19,752 |
Kingston DDR6에 대한 Geekbench 5 결과는 2, 4 및 8채널 설정을 비교할 때 다양한 변형을 보여줍니다. 단일 코어 테스트에서 점수는 2,083개 채널의 2,317점에서 14,404개 채널의 19,752점으로 완만하지만 지속적으로 증가합니다. 이는 채널 수가 증가함에 따라 개별 코어 작업의 효율성과 처리량이 향상되었음을 나타냅니다. 그러나 가장 극적인 성능 향상은 멀티 코어 테스트에서 관찰되었으며, 점수는 XNUMX개 채널의 XNUMX점에서 XNUMX개 채널의 XNUMX점으로 크게 향상되었습니다.
y-크런처
멀티 스레드 및 확장 가능한 프로그램인 y-cruncher는 Pi 및 기타 수학 상수를 수조 자리까지 계산할 수 있습니다. 2009년 출시 이후 y-cruncher는 오버클럭커와 하드웨어 매니아들에게 인기 있는 벤치마킹 및 스트레스 테스트 애플리케이션이 되었습니다. 이 테스트에서는 빠를수록 좋습니다.
y-크런처 (총 계산 시간) |
킹스턴 DDR5 2 채널 |
킹스턴 DDR5 4 채널 |
킹스턴 DDR5 8 채널 |
1억 자리 | 18.117 (초) | 10.856 (초) | 7.552 (초) |
2.5억 자리 | 51.412 (초) | 31.861초 | 20.981초 |
5억 자리 | 110.728 (초) | 64.609초 | 46.304초 |
10억 자리 | 240.666 (초) | 138.402초 | 103.216초 |
25억 자릿수 | 693.835 (초) | 396.997초 | N/A |
2, 4, 8개 채널에 걸친 y-cruncher 벤치마크는 채널 수가 증가함에 따라 계산 속도가 명확하고 일관되게 향상되는 것을 보여줍니다. 1억 자릿수 Pi를 계산하는 경우 총 계산 시간은 18.117개 채널의 경우 7.552초에서 XNUMX개 채널의 경우 단 XNUMX초로 크게 감소합니다.
이러한 계산 시간 감소 추세는 테스트된 모든 규모에서 계속되며, 25채널에서 693.835채널로 이동할 때 396.997억 자릿수 계산 시간이 2초에서 4초로 감소합니다.
3DMark - CPU 프로필
3DMark의 CPU 프로필 테스트는 다양한 스레드 수에 걸쳐 프로세서 성능을 구체적으로 측정하여 DDR5 RAM 채널의 다양한 구성이 CPU 작업 부하 처리 및 효율성에 어떤 영향을 미치는지 자세히 보여줍니다. 이 테스트는 다양한 DDR5 RAM 채널 설정을 사용할 때 메모리 집약적 작업 및 멀티스레드 애플리케이션의 성능 차이를 이해하는 데 유용합니다.
3DMark – CPU 프로필 – 점수 | |||
스레드 수 | 킹스턴 DDR5 2 채널 |
킹스턴 DDR5 4 채널 |
킹스턴 DDR5 8 채널 |
최대 스레드 | 15,822 | 15,547 | 15,457 |
16 스레드 | 10,632 | 9,515 | 10,367 |
8 스레드 | 4,957 | 6,019 | 5,053 |
4 스레드 | 3,165 | 3,366 | 3,323 |
2 스레드 | 1,726 | 1,765 | 1,781 |
1 스레드 | 907 | 911 | 884 |
Kingston DDR3 RAM의 5DMark CPU 프로필 점수는 다소 복잡한 그림을 보여 주며, 이는 최적의 채널 수가 스레드 수 및 특정 작업 부하에 따라 달라질 수 있음을 나타냅니다.
최대 스레드 수에서 점수는 두 채널(15,822)에서 가장 높고 채널이 많을수록 약간 감소합니다. 이는 추가 채널이 고도의 병렬 작업에 이점을 제공하지 않음을 나타냅니다. 그러나 4개 스레드에서는 6,019채널 구성이 가장 높은 점수(4)를 얻었으며 이는 추가 채널이 중간 수준 병렬 처리 처리를 향상시키는 최적의 지점을 나타냅니다. 점수는 스레드 수가 더 적은(2, 1, XNUMX 스레드) 모든 채널 구성에서 유사합니다.
이러한 결과는 특정 멀티스레드 작업에 더 많은 채널이 도움이 될 수 있지만 그 영향은 작업의 성격과 시스템 아키텍처에 따라 다르다는 것을 시사합니다. 즉, 모든 사용 사례에서 많을수록 항상 더 나은 것은 아닙니다.
AI 추론에 대한 DRAM 채널 효과
모든 테스트는 UL Labs Procyon Benchmark를 통해 Intel OpenVINO API를 활용하여 Intel Xeon w9-3475X CPU에서 수행되었습니다.
최고 수준 공급업체의 다양한 AI 추론 엔진을 갖춘 UL Procyon AI 추론 벤치마크는 광범위한 하드웨어 설정 및 요구 사항을 충족합니다. 벤치마크 점수는 온디바이스 추론 성능에 대한 편리하고 표준화된 요약을 제공합니다. 이를 통해 사내 솔루션 없이도 실제 상황에서 다양한 하드웨어 설정을 비교하고 대조할 수 있습니다.
결과는 FP32의 오차 범위 내에 있지만 INT로 이동하여 전체 점수가 아닌 세분화된 점수를 보면 상황이 흥미로워집니다.
숫자가 클수록 전체 점수가 더 좋고, 숫자가 작을수록 시간이 더 좋습니다.
첫 번째는 FP32 Precision입니다.
FP 32 | ||
Precision | 8 채널 | 2 채널 |
전체 점수 | 629 | 630 |
MobileNet V3 평균 추론 시간 | 0.81 | 0.77 |
ResNet 50 평균 추론 시간 | 1.96 | 1.82 |
Inception V4 평균 추론 시간 | 6.93 | 7.31 |
DeepLab V3 평균 추론 시간 | 6.27 | 6.17 |
YOLO V3 평균 추론 시간 | 12.99 | 13.99 |
REAL-ESRGAN 평균 추론 시간 | 280.59 | 282.45 |
다음은 FP16 Precision입니다.
FP 16 | ||
Precision | 8 채널 | 2 채널 |
전체 점수 | 645 | 603 |
MobileNet V3 평균 추론 시간 | 0.81 | 0.76 |
ResNet 50 평균 추론 시간 | 1.91 | 1.94 |
Inception V4 평균 추론 시간 | 7.11 | 7.27 |
DeepLab V3 평균 추론 시간 | 6.27 | 7.13 |
YOLO V3 평균 추론 시간 | 12.93 | 15.01 |
REAL-ESRGAN 평균 추론 시간 | 242.24 | 280.91 |
그리고 마지막으로 INT
INT | ||
Precision | 8 채널 | 2 채널 |
전체 점수 | 1,033 | 1004 |
MobileNet V3 평균 추론 시간 | 0.71 | 0.73 |
ResNet 50 평균 추론 시간 | 1.48 | 1.48 |
Inception V4 평균 추론 시간 | 4.42 | 4.47 |
DeepLab V3 평균 추론 시간 | 4.33 | 4.99 |
YOLO V3 평균 추론 시간 | 5.15 | 5.12 |
REAL-ESRGAN 평균 추론 시간 | 122.40 | 123.57 |
DRAM 처리량 및 대기 시간
먼저 2채널과 8채널 DRAM 구성의 레이턴시를 살펴보겠습니다. 우리는 전체 CPU와 메모리를 프로파일링했지만 유일한 초점은 CPU 캐시에서 DRAM으로의 전환이었습니다. Xeon W9-3475X CPU에는 L82.50 캐시가 3MB밖에 없기 때문에 전환이 시작될 때 차트를 꺼냈습니다.
테스트 크기(KB) | 2채널 대역폭 |
8채널 지연 시간(ns)
|
65,536 | 48.70080 | 47.24411 |
98,304 | 68.16823 | 66.25920 |
131,072 | 85.38640 | 82.16685 |
262,144 | 114.32570 | 107.57450 |
393,216 | 121.74860 | 115.40340 |
524,288 | 129.38970 | 123.22100 |
1,048,576 | 144.32880 | 138.28380 |
여기에서 더 많은 채널을 추가하면 대기 시간이 약간 향상되는 것을 볼 수 있습니다.
AVX512 명령의 대역폭으로 이동하면 2채널과 8채널 간의 대역폭에서 좀 더 극적인 차이를 볼 수 있습니다. 여기서 Delta는 2채널과 8채널 사이의 성능 저하입니다.
테스트 크기(KB) AVX512 | 2채널 대역폭(GB/s) | 8채널 대역폭(GB/s) | 델타(GB/초 차이) |
65,536 | 3,455.28 | 3,767.91 | -312.63 |
98,304 | 1,801.88 | 2,011.83 | -209.95 |
131,072 | 1,009.21 | 1,436.50 | -427.28 |
262,144 | 178.52 | 508.65 | -330.13 |
393,216 | 114.76 | 433.91 | -319.15 |
524,288 | 94.81 | 396.90 | -302.09 |
1,048,576 | 71.12 | 293.26 | -222.13 |
1,572,864 | 66.98 | 267.44 | -200.46 |
2,097,152 | 65.08 | 262.50 | -197.42 |
3,145,728 | 63.63 | 253.12 | -189.50 |
결론
요약하면, 시스템 DRAM은 AI 시스템 아키텍처, 특히 CPU 추론의 초석입니다. 빠르고 안정적이며 광범위한 메모리를 제공하는 능력은 필수적입니다. 또한 다중 메모리 채널을 활용하면 대역폭을 늘리고 병렬 처리를 활성화하며 병목 현상을 최소화하여 AI 애플리케이션의 성능을 크게 향상시킬 수 있습니다. AI가 계속 발전함에 따라 시스템 DRAM 최적화는 최고 수준의 성능과 효율성을 보장하기 위한 핵심 초점으로 남을 것입니다.
Jordan Ranous가 요청한 AI 생성 이미지
또한 테스트 데이터는 향상된 메모리 구성의 실질적인 이점을 보여주면서 이러한 개념을 강화합니다. AI와 데이터 처리의 경계를 확장함에 따라 시스템 메모리의 전략적 향상은 차세대 AI 혁신과 실제 적용을 지원하는 데 매우 중요할 것입니다.
StorageReview에 참여
뉴스레터 | 유튜브 | 팟캐스트 iTunes/스포티 파이 | 인스타그램 | 트위터 | 틱톡 서비스 | RSS 피드