NVIDIA GeForce RTX 5090 리뷰: 30년 2025월 1,999일 출시, MSRP는 $5090. XNUMX이 고성능 게임과 AI 워크로드를 재정의할까요?
5090년 30월 2025일에 출시될 예정이며 MSRP가 1,999달러인 NVIDIA GeForce RTX 32은 고성능 게임과 AI 워크로드를 새롭게 정의할 것입니다. Blackwell 아키텍처를 기반으로 하는 이 플래그십 GPU는 7GB GDDR512 메모리, 50비트 메모리 버스, CUDA, Tensor, RT 코어 성능의 엄청난 증가로 연산 능력의 경계를 넓혔습니다. 중요한 점은 NVIDIA가 XNUMX 시리즈 플랫폼에 대해 여러 가지 AI 주장을 하고 있으며, 이 리뷰에서 이를 살펴보고자 합니다.
RTX 5090의 발전의 핵심은 Multi Frame Generation을 탑재한 DLSS 4로, AI를 활용하여 렌더링된 프레임당 최대 8개의 추가 프레임을 생성하여 지원되는 타이틀에서 최대 2배의 성능 향상을 제공합니다. 새로운 Transformer 기반 AI 모델은 Ray Reconstruction, Super Resolution 및 DLAA를 향상시켜 NVIDIA Reflex XNUMX를 통해 지연 시간을 줄이는 동시에 시각적 충실도를 획기적으로 개선합니다.
명백한 게임 이점 외에도 RTX 5090은 AI 강자로 평가받으며, 네이티브 FP4 정밀도로 생성 AI 워크플로를 가속화하고 이전 FP16 구현에 비해 모델 메모리 요구 사항을 절반으로 줄였습니다. 우리는 최근에 다음을 살펴보았습니다. RTX 4090 대 RTX 6000 Ada 게임 중심 카드가 워크스테이션 기반 AI 워크로드에 대한 생산성 강자에 맞설 수 있는지 확인하기 위해. 결과는 일반적으로 6000 Ada의 우세를 보여주지만, 예산이 부족한 사람들에게는 4090이 놀라울 정도로 좋은 성과를 보였습니다. 새로운 RTX 5090은 여러 가지 내장 AI 향상 기능으로 게임과 생산성 GPU 간의 경계를 더욱 모호하게 만드는 것을 목표로 합니다.
NVIDIA GeForce RTX 5090 Blackwell 아키텍처 및 하드웨어 혁신
RTX 5090의 핵심은 21,760개의 CUDA 코어로, RTX 33의 4090개 코어보다 16,384% 증가했습니다. 5세대 Tensor 코어와 4세대 RT 코어와 결합된 이 엄청난 코어 수는 게임, 컴퓨팅 집약적 워크로드, AI 가속에서 타의 추종을 불허하는 성능을 제공하는 것을 목표로 합니다.
RTX 680의 512개에서 증가한 4090개의 텐서 코어는 더욱 빠른 행렬 연산을 제공하여 보다 효율적인 AI 추론을 가능하게 합니다. 한편, RTX 170의 33개에서 4090% 증가한 128개의 RT 코어는 레이 트레이싱 성능을 향상시켜 게임과 전문적인 렌더링 작업에서 훨씬 더 사실적인 조명, 그림자, 반사를 구현할 수 있습니다. 이러한 업그레이드를 통해 무려 104.8 TFLOPS의 FP16 성능이 구현되며, RTX 27의 4090 TFLOPS보다 82.58% 향상되었습니다.
RTX 5090은 또한 RTX 32의 7GB GDDR4090X에 비해 대역폭과 용량이 상당히 업그레이드된 24GB GDDR6 메모리를 도입합니다. 5090은 512비트 메모리 버스에서 실행되며 1.79TB/s의 놀라운 메모리 대역폭을 달성하는데, 이는 RTX 1.01의 4090TB/s의 거의 두 배입니다. 이 엄청난 대역폭 증가는 추론에 모델 가중치에 대한 빠른 액세스가 필요한 AI 워크로드에 특히 큰 영향을 미칩니다. 더 빠른 메모리는 복잡한 AI 모델을 더 원활하게 처리하여 추론 중 지연 시간을 줄여줍니다. 또한 증가된 대역폭은 GPU Direct Storage를 가속화하여 빠른 스토리지 장치에서 대량의 모델 가중치를 순차적으로 직접 로드하는 것과 같은 사용 사례를 허용합니다. 이를 통해 가장 큰 AI 모델도 메모리에 완전히 로드하지 않고도 실행할 수 있습니다.
NVIDIA GeForce RTX 50 시리즈 사양
Nvidia RTX 5090은 거의 모든 면에서 RTX 4090보다 상당히 업그레이드되었습니다. 아래는 두 GPU의 자세한 비교입니다.
GPU 비교 | 엔비디아 RTX 5090 | 엔비디아 RTX 4090 | 엔비디아 RTX 5080 | 엔비디아 RTX 5070 |
GPU 이름 | GB202 | AD102 | GB203 | GB205 |
아키텍처 | 블랙웰 2.0 | 에이다 러브 레이스 | 블랙웰 2.0 | 블랙웰 2.0 |
프로세스 크기 | 4 nm의 | 5 nm의 | 4 nm의 | 4 nm의 |
트랜지스터 | 92,200 만 | 76,300 만 | 45,600 만 | 31,000 만 |
밀도 | 123.9M / mm² | 125.3M / mm² | 120.6M / mm² | 117.9M / mm² |
다이 크기 | 744 mm² | 609 mm² | 378 mm² | 263 mm² |
슬롯 너비 | 듀얼 슬롯 | 트리플 슬롯 | 듀얼 슬롯 | 듀얼 슬롯 |
크기 | 304 mm X 137 mm X 48 mm | 304 mm X 137 mm X 61 mm | 304 mm X 137 mm X 48 mm | 해당 사항 없음 |
TDP | 575 승 | 450 승 | 360 승 | 250 승 |
출력 | 1x HDMI 2.1b, 3x 디스플레이포트 2.1b | 1x HDMI 2.1, 3x 디스플레이포트 1.4a | 1x HDMI 2.1b, 3x 디스플레이포트 2.1b | 1x HDMI 2.1b, 3x 디스플레이포트 2.1a |
전원 커넥터 | 1x 16- 핀 | 1x 16- 핀 | 1x 16- 핀 | 1x 16- 핀 |
버스 인터페이스 | PCIe 5.0 x16 | PCIe 4.0 x16 | PCIe 5.0 x16 | PCIe 5.0 x16 |
기본 시계 | 2017 MHz | 2235 MHz | 2295 MHz | 2165 MHz |
부스트 클럭 | 2407 MHz | 2520 MHz | 2617 MHz | 2510 MHz |
메모리 클럭 | 2209MHz (28Gbps 유효) | 1313MHz (21Gbps 유효) | 2366MHz (30Gbps 유효) | 2209MHz (28Gbps 유효) |
메모리 크기 | 32 GB | 24 GB | 16 GB | 12 GB |
메모리 유형 | GDDR7 | GDDR6X | GDDR7 | GDDR7 |
메모리 버스 | 512 비트 | 384 비트 | 256 비트 | 192 비트 |
메모리 대역폭 | 1.79 TB / 초 | 1.01 TB / 초 | 960.0 GB / 초 | 672.2 GB / 초 |
쿠다 코어 | 21,760 | 16,384 | 10,752 | 6,144 |
텐서 코어 | 680 | 512 | 336 | 192 |
ROPs | 192 | 176 | 128 | 64 |
SM 카운트 | 170 | 128 | 84 | 48 |
텐서 코어 | 680 | 512 | 336 | 192 |
RT 코어 | 170 | 128 | 84 | 48 |
L1 캐시 | 128KB(SM당) | 128KB(SM당) | 128KB(SM당) | 128KB(SM당) |
L2 캐시 | 88 MB | 72 MB | 64 MB | 40 MB |
픽셀 비율 | 462.1G픽셀/초 | 443.5G픽셀/초 | 335.0G픽셀/초 | 160.6G픽셀/초 |
질감 비율 | 1,637 GTexel/초 | 1,290 GTexel/초 | 879.3 GTexel/초 | 481.9 GTexel/초 |
FP16(하프) | 104.8 TFLOPS(1:1) | 82.58 TFLOPS(1:1) | 56.28 TFLOPS(1:1) | 30.84 TFLOPS(1:1) |
FP32(플로트) | 104.8 TFLOPS | 82.58 TFLOPS | 56.28 TFLOPS | 30.84 TFLOPS |
FP64(더블) | 1.637 TFLOPS(1:64) | 1,290GFLOPS(1:64) | 879.3GFLOPS(1:64) | 481.9GFLOPS(1:64) |
출시 가격 (USD) | $1,999 | $1,599 | $999 | $549 |
NVIDIA GeForce RTX 5090 빌드 및 디자인
RTX 5090 Founders Edition은 미묘한 개선을 통해 Nvidia의 세련된 산업 디자인 언어를 유지합니다. 길이 304mm, 너비 137mm인 이 카드는 표준 2슬롯 구성에 적합하여 성능에 비해 놀라울 정도로 컴팩트합니다.
엔비디아는 RTX 5090에 듀얼 플로우 스루 디자인을 도입하여 냉각 효율성과 공기 흐름을 개선했습니다. 이 카드는 엔비디아가 3D 증기 챔버라고 부르는 것을 특징으로 하며, 듀얼 축류 팬과 페어링되어 무거운 작업 부하에서도 온도를 제어합니다. 손에 쥐고 있지 않으면 보기 힘들지만, 각 팬 뒤에 있는 두 개의 히트싱크 섹션을 통해 빛을 볼 수 있습니다.
카드의 중앙 부분에는 회로 보드가 있으며, 각 비디오 출력으로 가는 전선을 운반하는 작은 튜브가 있습니다. 이를 통해 RTX 5090의 냉각 기능 성능이 극적으로 향상되어 RTX 4090과 유사한 프로필을 유지하면서도 훨씬 더 많은 전력을 소모합니다.
RTX 5090의 두드러진 특징 중 하나는 공장에서 직접 적용된 액체 금속 열 화합물이 포함되어 있다는 것입니다. 이를 통해 기존 열 페이스트보다 더 나은 열 전도성이 보장되어 GPU가 더 낮은 온도와 더 높은 지속 성능을 유지할 수 있습니다.
최대 전력 소모량이 575W로 증가했음에도 불구하고 RTX 5090은 컴팩트한 듀얼 슬롯 폼 팩터를 유지하여 부피가 큰 트리플 슬롯 RTX 4090보다 하이엔드 PC 빌드에 더 적합합니다.
이 카드는 또한 차세대 마더보드와 주변 장치에 더 높은 대역폭을 제공하는 PCIe Gen 5를 지원합니다. 따라서 게임과 콘텐츠 제작의 미래에 대비할 준비가 되었습니다.
AI 게임의 시대
RTX 5090은 단순히 순수한 파워에 관한 것이 아닙니다. AI로 게임을 재정의하는 것입니다. Nvidia는 AI 기반 기능을 한 단계 끌어올려 이 세대를 성능과 시각적 충실도 면에서 게임 체인저로 만들었습니다.
DLSS 4: 다중 프레임 생성
DLSS(Deep Learning Super Sampling)는 수년 동안 Nvidia GPU의 초석이었지만 RTX 5090은 DLSS 4를 도입하여 완전히 새로운 수준으로 끌어올렸습니다. 이전 버전의 DLSS는 기존에 렌더링된 프레임마다 AI 프레임을 하나씩 생성할 수 있었지만 DLSS 4는 이제 렌더링된 프레임당 최대 XNUMX개의 AI 프레임을 생성할 수 있습니다.
이는 가장 까다로운 게임에서 모든 설정을 최대로 설정하더라도 놀라울 정도로 매끄러운 게임 경험을 제공합니다. Nvidia의 지연 감소 기술인 Reflex 2와 페어링하면 게임이 그 어느 때보다 더 좋아 보이고 반응성이 더 뛰어납니다.
레이 재구성
레이 트레이싱은 항상 까다로운 기능이었지만 RTX 5090의 AI 기반 레이 재구성은 게임을 바꿉니다. 기존의 디노이저를 AI로 훈련된 네트워크로 대체함으로써 Nvidia는 레이 트레이싱된 반사, 그림자 및 조명의 품질을 크게 개선했습니다.
이 기능은 레이 트레이싱 장면에 추가 픽셀을 생성하여 이미지 품질을 향상시키고, 더욱 현실적이고 몰입감 있게 보이게 합니다. 특히 까다로운 타이틀에서 레이 트레이싱에 있어 중요한 진전입니다.
AV1 인코딩 및 디코딩
콘텐츠 제작자를 위해 RTX 5090에는 3개의 9세대 NVENC 인코더와 2개의 6세대 NVDEC 디코더가 포함되어 있으며, AV1과 완벽하게 호환됩니다. 이를 통해 더 빠르고 효율적인 비디오 인코딩 및 디코딩이 보장되어 스트리머와 비디오 편집자에게 탁월한 선택이 됩니다.
NVIDIA GeForce RTX 5090 리뷰 – 성능 벤치마크
새로운 NVIDIA GeForce RTX 5090의 이점을 최대한 활용하기 위해 AMD ThreadRipper 플랫폼을 활용했습니다. 구성된 이 시스템은 64코어 CPU와 수냉 루프를 제공합니다. GPU가 방해받지 않고 작업을 수행할 수 있도록 충분한 기본 CPU 마력을 갖추고 있습니다. 시스템의 전체 구성은 아래에 나와 있습니다.
StorageReview AMD ThreadRipper 테스트 플랫폼
- 마더 보드 : ASUS 프로 WS TRX50-SAGE WIFI
- CPU : AMD Ryzen Threadripper 7980X 64코어
- 램: 32GB DDR5 4800MT/초
- 스토리지 : 2TB 삼성 980 프로
- OS : 워크스테이션용 Windows 11 Pro
- 드라이버 : NVIDIA 571.86 GameReady 드라이버
이 리뷰 당시 우리는 다음을 사용했습니다. 조기 릴리스 NVIDIA 571.86 GameReady 드라이버 우리가 테스트한 GPU에 대해서. 그러나 모든 애플리케이션이 새로운 Blackwell 아키텍처를 완벽하게 지원하는 것은 아니라는 점에 유의하는 것이 중요합니다. 우리가 사용한 테스트 중 다수가 업데이트되었고, 많은 테스트가 여전히 업데이트되고 있습니다. 따라서 NVIDIA의 새로운 50 시리즈 GPU와 함께 사용하도록 최적화됨에 따라 이전 테스트를 계속 탐색할 것입니다.
UL Procyon: AI 텍스트 생성
이 어플리케이션에는 XNUMXµm 및 XNUMXµm 파장에서 최대 XNUMXW의 평균 출력을 제공하는 Procyon AI 텍스트 생성 벤치마크 Benchmark는 간결하고 일관된 평가 방법을 제공하여 AI LLM 성능 테스트를 간소화합니다. 여러 LLM 모델에서 반복 테스트를 허용하는 동시에 대규모 모델 크기와 가변 요인의 복잡성을 최소화합니다. AI 하드웨어 리더와 함께 개발되어 더욱 안정적이고 효율적인 성능 평가를 위해 로컬 AI 가속기 사용을 최적화합니다. 아래에서 측정된 결과는 TensorRT를 사용하여 테스트되었습니다.
Procyon® AI 텍스트 생성 벤치마크에서 Nvidia RTX 5090이 가장 높은 점수를 받았습니다. 전체 점수 모든 테스트 모델에서 가장 빠른 성능:
- 피: 5,749 RTX 5090은 RTX 4090 4,958 및 RTX 6000 Ada 4,508보다 우수한 성능을 보입니다.
- 한랭 한 북서풍: RTX 6,267은 5090개, 그 뒤를 이어 RTX 4090은 5,094개, RTX 6000 Ada는 4,255개입니다.
- 라마3: RTX 6,104은 5090이고, RTX 4090은 4,849, RTX 6000 Ada는 4,026입니다.
- 라마2: RTX 6,591은 5090로 RTX 4090 5,013, RTX 6000 Ada 3,957보다 높습니다.
측면에서 전체 기간, RTX 5090은 다른 GPU보다 성능이 뛰어납니다.
- 피: RTX 10.280은 5090초로 RTX 4090의 12.872초 및 RTX 6000 Ada의 13.869초보다 빠릅니다.
- 한랭 한 북서풍: RTX 12.593은 5090초, RTX 4090은 17.010초, RTX 6000 Ada는 19.092초입니다.
- 라마3: RTX 14.304은 5090초로 RTX 4090의 19.991초, RTX 6000 Ada의 22.062초보다 앞선다.
- 라마2: RTX 23.018은 5090초로 RTX 4090의 32.448초 및 RTX 6000 Ada의 38.923초보다 빠릅니다.
RTX 5090은 이 테스트의 모든 범주에서 지속적으로 뛰어난 전반적인 성능과 더 빠른 처리 시간을 제공했습니다.
UL Procyon: AI 텍스트 생성 | 엔비디아 RTX 5090 | 엔비디아 RTX 4090 | 엔비디아 RTX 6000 에이다 |
파이 전체 점수 | 5,749 | 4,958 | 4,508 |
첫 번째 토큰까지의 Phi 출력 시간 | 0.244들 | 0.255들 | 0.288들 |
초당 Phi 출력 토큰 | 314.435 토큰/초 | 244.343 토큰/초 | 228.359 토큰/초 |
파이 전체 기간 | 10.280들 | 12.872들 | 13.869들 |
미스트랄 종합 점수 | 6,267 | 5,094 | 4,255 |
미스트랄 출력 시간 첫 번째 토큰까지 | 0.297들 | 0.322들 | 0.419들 |
초당 미스트랄 출력 토큰 | 255.945 토큰/초 | 183.266 토큰/초 | 166.633 토큰/초 |
미스트랄 전체 기간 | 12.593들 | 17.010들 | 19.092들 |
Llama3 전체 점수 | 6,104 | 4,849 | 4,026 |
Llama3 첫 번째 토큰까지의 출력 시간 | 0.234들 | 0.259들 | 0.348들 |
Llama3 초당 출력 토큰 | 214.285 토큰/초 | 150.039 토큰/초 | 138.620 토큰/초 |
라마3 전체 지속 시간 | 14.304들 | 19.991들 | 22.062들 |
Llama2 전체 점수 | 6,591 | 5,013 | 3,957 |
Llama2 첫 번째 토큰까지의 출력 시간 | 0.419들 | 0.500들 | 0.679들 |
Llama2 초당 출력 토큰 | 134.502 토큰/초 | 92.853 토큰/초 | 78.532 토큰/초 |
라마2 전체 지속 시간 | 23.018들 | 32.448들 | 38.923들 |
UL 프로키온: AI 이미지 생성
이 어플리케이션에는 XNUMXµm 및 XNUMXµm 파장에서 최대 XNUMXW의 평균 출력을 제공하는 Procyon AI 이미지 생성 벤치마크 저전력 NPU에서 하이엔드 GPU에 이르기까지 다양한 하드웨어에서 AI 추론 성능을 측정하는 일관되고 정확한 방법을 제공합니다. 여기에는 하이엔드 GPU용 Stable Diffusion XL(FP16), 적당히 강력한 GPU용 Stable Diffusion 1.5(FP16), 저전력 장치용 Stable Diffusion 1.5(INT8)의 세 가지 테스트가 포함됩니다. 이 벤치마크는 각 시스템에 대한 최적의 추론 엔진을 사용하여 공정하고 비교 가능한 결과를 보장합니다.
Procyon AI Image Generation Benchmark에서 Nvidia RTX 5090은 모든 테스트에서 다른 GPU보다 성능이 우수합니다.
- 안정 확산 1.5(FP16): RTX 5090은 전체 점수 8,193점, 생성 시간 12.204초, 이미지 생성 속도 0.763초/이미지로 XNUMX위를 차지했습니다.
- 안정 확산 1.5(INT8): RTX 5090은 다시 한번 전체 점수 79,272점, 생성 시간 3.154초, 이미지 생성 속도 0.394초/이미지로 선두를 차지했습니다.
- 안정적 확산 XL(FP16): 마지막으로 RTX 5090은 7,179초의 생성 시간과 83.573초/이미지의 이미지 생성 속도로 전체적으로 5.223점을 기록하며 다시 한 번 앞서나갔습니다.
UL Procyon: AI 이미지 생성 | 엔비디아 RTX 5090 | 엔비디아 RTX 4090 | 엔비디아 RTX 6000 에이다 |
안정적 확산 1.5(FP16) – 전체 점수 | 8,193 | 5,260 | 4,230 |
안정적 확산 1.5(FP16) – 전체 시간 | 12.204들 | 19.011들 | 23.639들 |
안정적 확산 1.5(FP16) – 이미지 생성 속도 | 0.763초/이미지 | 1.188초/이미지 | 1.477초/이미지 |
안정적 확산 1.5(INT8) – 전체 점수 | 79,272 | 62,160 | 55,901 |
안정적 확산 1.5(INT8) – 전체 시간 | 3.154들 | 4.022들 | 4.472들 |
안정적 확산 1.5(INT8) – 이미지 생성 속도 | 0.394초/이미지 | 0.503초/이미지 | 0.559초/이미지 |
Stable Diffusion XL(FP16) – 전체 점수 | 7,179 | 5,025 | 3,043 |
안정적 확산 XL(FP16) – 전체 시간 | 83.573들 | 119.379들 | 197.172들 |
안정된 확산 XL(FP16) – 이미지 생성 속도 | 5.223초/이미지 | 7.461초/이미지 | 12.323초/이미지 |
럭스마크
Luxmark는 오픈 소스 광선 추적 렌더러인 LuxRender를 사용하여 매우 상세한 3D 장면을 처리하는 시스템 성능을 평가하는 GPU 벤치마크입니다. 이 벤치마크는 특히 정확한 조명 시뮬레이션이 중요한 시각 효과 및 건축 시각화 응용 프로그램의 경우 서버 및 워크스테이션의 그래픽 렌더링 성능을 평가하는 데 적합합니다.
Luxmark OpenCL 벤치마크에서 NVIDIA RTX 5090은 Hall 및 Food GPU 테스트에서 가장 높은 점수를 받았습니다.
- 음식 점수: RTX 23,141은 5090로 RTX 4090 17,171과 RTX 6000 Ada 14,873을 앞지릅니다.
- 홀 스코어: 51,725 RTX 5090은 RTX 4090 38,887 및 RTX 6000 Ada 32,132보다 우수한 성능을 보입니다.
Luxmark (높을수록 좋음) | 엔비디아 RTX 5090 | 엔비디아 RTX 4090 | 엔비디아 RTX 6000 에이다 |
음식 점수 | 23,141 | 17,171 | 14,873 |
홀 스코어 | 51,725 | 38,887 | 32,132 |
Geekbench 6
Geekbench 6 전체 시스템 성능을 측정하는 크로스 플랫폼 벤치마크입니다. Geekbench Browser를 사용하면 모든 시스템을 비교할 수 있습니다.
NVIDIA RTX 5090은 374,807의 우수한 Geekbench GPU OpenCL 점수로 선두를 달렸습니다. 이 점수는 RTX 6000 Ada의 336,882와 RTX 4090의 333,384를 능가하여 이 비교에서 최고의 성과를 거두었습니다.
Geekbench (높을수록 좋음) | 엔비디아 RTX 5090 | 엔비디아 RTX 4090 | 엔비디아 RTX 6000 에이다 |
GPU OpenCL 점수 | 374,807 | 333,384 | 336,882 |
V- 레이
이 어플리케이션에는 XNUMXµm 및 XNUMXµm 파장에서 최대 XNUMXW의 평균 출력을 제공하는 V- 레이 Benchmark는 고급 V-Ray 6 엔진을 사용하여 CPU, NVIDIA GPU 또는 둘 다의 렌더링 성능을 측정합니다. 빠른 테스트와 간단한 채점 시스템을 사용하여 사용자가 시스템의 렌더링 기능을 평가하고 비교할 수 있도록 합니다. 효율적인 성능 통찰력을 추구하는 전문가에게 필수적인 도구입니다.
이 테스트에서 NVIDIA RTX 5090은 인상적인 14,764점으로 선두를 차지하며 RTX 4090 10,847점과 RTX 6000 Ada 10,766점을 크게 앞지릅니다. RTX 5090은 렌더링 성능에서 다시 한 번 뚜렷하게 우위를 점합니다.
V-Ray (높을수록 좋음) | 엔비디아 RTX 5090 | 엔비디아 RTX 4090 | 엔비디아 RTX 6000 에이다 |
vpaths | 14,764 | 10,847 | 10,766 |
NVIDIA GeForce RTX 5090 전력 소비
전력 소비는 모든 하이엔드 컴퓨팅 플랫폼의 중요한 구성 요소입니다. 새로운 세대의 GPU는 부하 시 더 많은 전력을 소모하므로 더 큰 전원 공급 장치와 충분한 냉각 공기 흐름이 필요합니다. 그러나 성능과 관련된 전력에는 또 다른 측면이 있습니다. 더 빠른 GPU는 더 높아질 수 있지만 각 작업 부하의 지속 시간은 감소합니다.
NVIDIA는 CES 2025의 편집자 데이에 Blackwell 아키텍처의 향상된 전력 효율성에 대해 논의했으며, AI 기반 워크로드에서 이를 구현하는 것을 보고 싶었습니다. Quarch Mains 분석기 우리 테스트 랩에서는 시스템을 실행하는 동안 소모되는 총 시스템 전력을 측정했습니다. Procyon AI 이미지 생성기 Stable Diffusion XL FP16 테스트. 이 작업 부하는 각 GPU를 전력 한계까지 밀어붙였으며, 생성된 각 이미지에 대한 정의된 시작 및 종료 지점이 쉽게 눈에 띄었습니다.
먼저 최대 전력 소모량이 6000W인 NVIDIA RTX 300 Ada를 살펴보겠습니다. Procyon AI 이미지 생성 테스트를 실행하는 동안 시스템 전력이 백그라운드 부하 235W에서 514W로 증가하거나 부하 시 279W가 증가하는 것을 보았습니다. 이미지당 시간을 살펴보면 두 번째 마지막 이미지에서 GPU 부하가 12.6초 동안 지속되었습니다. 마지막 이미지 생성에 소비된 총 전력은 1.76Wh로 측정되었습니다.
다음으로, 최대 전력 소비량이 4090W인 NVIDIA GeForce RTX 450으로 실행한 동일한 테스트 세그먼트를 살펴보겠습니다. AI 이미지 생성 테스트를 실행하면서 시스템은 233W에서 평균 669W로 증가했고, 이는 부하 시 436W 증가로 나타났습니다. 마지막으로 생성된 두 번째 이미지를 살펴보면 부하 시 시간은 2초로 측정되었습니다. 이는 해당 기간 동안 소비된 총 전력이 7.3Wh라는 것을 의미합니다.
마지막으로, 최대 전력 소비량이 5090W로 가장 높은 새로운 NVIDIA GeForce RTX 600을 살펴보겠습니다. 이 카드가 Procyon AI 이미지 생성 테스트를 실행하는 동안 시스템은 백그라운드 전력이 272W에서 811W로 증가하여 539W로 작동했습니다. 두 번째 마지막 이미지를 생성하는 데 걸린 시간은 불과 5.1초로 측정되었고, 그 기간 동안 1.16Wh가 사용되었습니다.
세 개의 NVIDIA GPU를 모두 살펴보았을 때, 더 빠른 모델이 소모하는 최대 전력은 증가했지만, 소비되는 총 에너지는 감소했습니다. 이는 워크로드를 위해 새로운 GPU를 구매할 때 고려해야 할 필수적인 요소입니다. 전력 소비는 증가하지만, 특정 워크로드를 완료하는 데 필요한 에너지는 감소합니다.
결론
이 리뷰는 NVIDIA GeForce RTX 5090의 전반적인 성능을 아주 일찍 살펴봅니다. 모든 소프트웨어가 새로운 아키텍처에 최적화된 것은 아니며, 더 AI 중심적인 워크로드를 위한 Linux 드라이버는 XNUMX월 말에 카드가 일반 판매될 때까지 제공되지 않습니다.
새로운 RTX 5090을 활용할 수 있는 모든 워크로드에서 엄청난 성능 향상을 보았습니다. 일부 애플리케이션은 비호환성에서 예상보다 느린 작업에 이르기까지 다양한 상황을 보았기 때문에 업데이트가 필요합니다. 우리가 흥분하는 부분은 이 카드가 얼마나 많은 성능 잠재력을 제공하는지 보는 것입니다. Procyon AI 텍스트 및 이미지 생성 워크로드에서 RTX 4090과 비교할 때 RTX 5090은 각각 16%와 56%의 향상을 제공했습니다. 렌더링 성능을 측정하는 V-Ray에서 RTX 5090의 성능은 이전 모델보다 36% 증가했습니다. 우리가 보고 있는 GPU 가속 워크로드 중 어느 것도 축소되지 않습니다. 상황이 더욱 격렬해지고 있습니다. AI Assistants라는 개념을 도입하면 사용자는 게임이나 작업만 하는 것이 아니라 병렬로 실행되는 AI 워크로드가 있게 됩니다. 여기에는 또 다른 집중적인 작업과 함께 추가 GPU 리소스가 필요합니다.
이제 가격과 가치에 대한 주제로 넘어가겠습니다. GeForce RTX 4090은 초기 가격이 1,599달러였고, 새로운 GeForce RTX 5090은 시작 가격은 1,999달러로, 최고급 제품의 경우 25% 인상되었습니다. 많은 사람에게 가치가 있을까요? 그렇습니다. GPU를 최고 포화 상태로 자주 밀어붙이는 사용자의 경우 더 빠른 GPU를 사용하면 더 많은 작업을 수행할 수 있습니다. 워크로드를 더 짧은 시간에 실행하고 생산성을 높일 수 있다면 PC의 수년에 걸쳐 비용을 분산하는 것이 가치가 있을 수 있습니다. 모든 사람에게 최고급 모델이 필요할까요? 아마도 그렇지 않을 것입니다. RTX 5070을 포함하여 다양한 모델이 있을 것이며, RTX 549의 가격은 훨씬 낮을 것입니다.
전력 소비는 이 차세대 카드에서 기억해야 할 또 다른 사항입니다. GeForce RTX 4090은 450W로 전력을 많이 소모했고, RTX 5090은 그 수준을 무려 575W로 끌어올렸습니다. 이는 추가 냉각 요구 사항과 더 큰 전원 공급 장치를 수용해야 하기 때문에 PC 및 워크스테이션 섀시 설계에 새로운 과제를 안겨줄 것입니다.
전반적으로 새로운 NVIDIA GeForce RTX 5090은 우리에게 깊은 인상을 주었고 애플리케이션 지원이 더 널리 퍼지면서 성능이 얼마나 향상될지 보고 싶어합니다. RTX 3090과 A6000, 또는 RTX 4090과 6000 Ada가 이전에 했던 것처럼 GeForce RTX 5090은 다음 워크스테이션 모델이 어디로 갈지 가리키고 있으며 우리는 기다릴 수 없습니다.
StorageReview에 참여
뉴스레터 | 유튜브 | 팟캐스트 iTunes/스포티 파이 | 인스타그램 | 트위터 | 틱톡 서비스 | RSS 피드