去年 4000 月發布的 Quadro RTX 4000 是 NVIDIA 專業 GPU 系列的一部分。 RTX XNUMX 專為 CAD 軟件專業人士設計,可提供強烈的真實感和與其設計的沉浸式交互。 因此,這使他們能夠在本地工作站上運行高級模擬和分析。
去年 4000 月發布的 Quadro RTX 4000 是 NVIDIA 專業 GPU 系列的一部分。 RTX XNUMX 專為 CAD 軟件專業人士設計,可提供強烈的真實感和與其設計的沉浸式交互。 因此,這使他們能夠在本地工作站上運行高級模擬和分析。
與其他 NVIDIA GPU 不同,RTX 4000 使用 NVIDIA Quadro 可擴展視覺解決方案 (SVS)。 因此,每個單獨的 RTX 4000 卡最多可以支持四個 5Hz 的 60K 顯示器,或雙 8K 顯示器。 當使用兩個 Quadro Sync II 板時,一個系統最多可支持八個 RTX 4000 GPU,同步 32 個獨立顯示器。 NVIDIA 還聲稱帶寬比上一代 Quadro P40 提高了 4000%,這在一定程度上要歸功於 8GB 的 GDDR6 顯存。
RTX 4000 採用 4.4” H x 9.5” L 單槽外形,使 GPU 能夠適應各種工作站機箱。 在這種纖薄的外形中,NVIDIA 能夠容納 2304 個 CUDA 內核、288 個 Tensor 內核、36 個 RT 內核和 8GB GDDR6 內存。 該硬件專為密集的 AEC、DCC、AI、VR 和圖形工作負載而設計。 RTX 4000 配備 VirtualLink,可簡化與下一代高分辨率 VR 頭戴式顯示器的連接。
Quadro RTX 4000 規格
架構 | 英偉達圖靈 |
GPU內存 | 8GB GDDR6 |
存儲器接口 | 256-位 |
內存帶寬 | 高達 416GB/秒 |
NVIDIA CUDA 內核 | 2,304 |
NVIDIA 張量核心 | 288 |
NVIDIA RT 核心 | 36 |
單精度性能 | 7.1 TFLOPS |
張量性能 | 57.0 TFLOPS |
系統介面 | PCI Express 3.0 x 16 |
電源消耗功率 | 總板功率:160W 顯卡總功率:125W 熱解決方案活躍 |
外形 | 4.4” 高 x 9.5” 長,單槽 |
最大同時顯示 | 4x 3840×2160 @ 120 赫茲 4x 5120×2880 @ 60 赫茲 2x 7680×4320 @ 60赫茲 |
VR就緒 | 充足 |
圖形 API | 著色器型號5.1 OpenGL 4.5 DirectX的12.0 Vulkan 1.0 |
計算 API | CUDA 直接計算 OpenCL |
性能
為了測試新架構在 NVIDIA Quadro RTX 4000 GPU 中的性能,我們將其安裝在運行 Windows 920 的 Lenovo ThinkSystem P10 工作站中。為了全面了解每張卡的性能,我們利用了多個行業基準測試和 GPU 加速可以充分利用被測卡的軟件。 我們不僅將它與共享 Turning 架構的 NVIDIA Quadro RTX 5000 進行比較,還將與之前的 Pascal Quadro 系列進行比較,包括 P6000是, P5000和 P4000. 對於所選擇的 GPU,這更少,更好,更多。
為了更好地了解這些 GPU 如何從不同的架構擴展,我們提供了下表 RTX 的現狀。 RTX 4000 顯然是該系列中的入門級顯卡,P 系列顯卡從 P1000 開始。 當然,RTX 系列一直擴展到 RTX 8000,帶來了更多的顯存、帶寬和內核。
NVIDIA Quadro GPU | ||||
---|---|---|---|---|
RTX 4000 | RTX 5000 | RTX 6000 | RTX 8000 | |
GPU內存 | 8GB GDDR6 | 16GB GDDR6 | 24GB GDDR6 | 48GB GDDR6 |
存儲器接口 | 256-位 | 256-位 | 384-位 | 384-位 |
內存帶寬 | 高達 416GB/秒 | 高達 448GB/秒 | 高達 672GB/秒 | 高達 672GB/秒 |
NVIDIA CUDA 內核 | 2,304 | 3,072 | 4,608 | 4,608 |
NVIDIA 張量核心 | 288 | 384 | 576 | 576 |
NVIDIA RT 核心 | 36 | 48 | 72 | 72 |
單精度性能 | 7.1 TFLOPS | 11.2 TFLOPS | 16.3 TFLOPS | 16.3 TFLOPS |
張量性能 | 57.0 TFLOPS | 89.2 TFLOPS | 130.5 TFLOPS | 130.5 TFLOPS |
我們的第一個基準測試是 LuxMark 跨平台 OpenCL 基準測試工具。 LuxMark 基於 LuxCore API,並作為 LuxCoreRender 套件的促銷組件提供。 它使用一個新的基於微內核的 OpenCL 路徑跟踪器作為其基準測試的渲染器,提供了一種獨特的方式來對給定工作站中安裝的 GPU 施加壓力。
勒克斯馬克 | |
---|---|
圖形處理器 | 成績 |
P4000 | 15,303 |
P5000 | 13,170 |
P6000 | 21,297 |
RTX 4000 | 28,338 |
RTX 5000 | 29,404 |
雖然 Pascal GPU 在 LuxMark 上取得了不錯的成績,但在觀察 Turning GPU 時,性能有了明顯的提升。 RTX 4000 以 5000 的成績僅次於 RTX 28,338。
接下來是 Arion,這是一個 CUDA 基準測試工具,由 RandomControl 開發,允許工作站在渲染應用程序中對 CPU 或 GPU 施加壓力。 ArionBench 是一款基於 Arion 2 技術的軟件工具,它通過模擬 3D 場景中的光流任務使 CPU/GPU 承受重壓。
阿里昂 | |
---|---|
圖形處理器 | 成績 |
P4000 | 1,865 |
P5000 | 2,738 |
P6000 | 3,731 |
RTX 4000 | 4,484 |
RTX 5000 | 6,193 |
從 Pascal 到 Turing,RTX 4000 的分數又一次大幅躍升,比 P6000 有了相當大的躍升。
我們的下一個基準測試利用 SolidWorks 2019 和四個 3D 模型,包括奧迪 R8、建築挖掘機、噴氣發動機和拉力賽車。 Solidworks 是行業領先的 GPU 加速 3D CAD 建模應用程序,可在基於 Windows 的系統上運行。 SolidWorks 由 Dassault Systèmes 開發,全球有超過 165,000 萬名工程師和超過 2019 家公司在使用它。 出於基準測試目的,我們利用了 SolidWorks 4.5 中新的“性能管道”功能。該架構提供了響應速度更快的實時顯示,尤其是對於大型模型。 它利用現代 OpenGL (XNUMX) 和硬件加速渲染在您平移、縮放或旋轉大型模型時保持高水平的細節和幀速率。
在渲染每個模型後,我們的腳本將每個模型旋轉五次並測量完成此任務所需的時間。 然後將其除以渲染的幀數,併計算每部分的平均幀數 (FPS) 分數。
SolidWorks的 | |
---|---|
SolidWorks R8 | 中等 |
P4000 | 198.0232 |
P5000 | 214.9254 |
P6000 | 217.9745 |
RTX 4000 | 211.1824 |
RTX 5000 | 208.8849 |
Solidworks 挖掘機 | 中等 |
P4000 | 186.4832 |
P5000 | 211.9595 |
P6000 | 230.9774 |
RTX 4000 | 259.6056 |
RTX 5000 | 294.2529 |
Solidworks 噴氣發動機 | 中等 |
P4000 | 163.0573 |
P5000 | 198.5351 |
P6000 | 210.411 |
RTX 4000 | 220.6897 |
RTX 5000 | 283.2206 |
Solidworks 拉力賽車 | 中等 |
P4000 | 205.6225 |
P5000 | 219.0114 |
P6000 | 218.4922 |
RTX 4000 | 214.4253 |
RTX 5000 | 217.256 |
使用 Solidworks R8 和 Rally Car 時,Turing 模型的性能略有下降,但 Digger 和 Jet Engine 有很大的提升。 在我們的 Solidworks 測試中,我們使用了 beta 顯示模式,這可能是 Audi R8 和 RallyCar 裝配體上出現異常縮放的原因。
接下來是環境系統研究所 (Esri) 基準。 Esri 是地理信息系統 (GIS) 軟件的供應商。 Esri 的性能團隊設計了他們的 PerfTool 插件腳本來自動啟動 ArcGIS Pro。 此應用程序使用“ZoomToBookmarks”功能來瀏覽各種預定義的書籤,並創建一個日誌文件,其中包含預測用戶體驗所需的所有關鍵數據點。 該腳本自動循環書籤三次以說明緩存(內存和磁盤緩存)。 換句話說,該基準模擬了人們可能會通過 Esri 的 ArcGIS Pro 2.3 軟件看到的大量圖形使用。
測試由三個主要數據集組成。 兩個是賓夕法尼亞州費城和魁北克省蒙特利爾的 3-D 城市景觀。 這些城市視圖包含覆蓋在地形模型和覆蓋航拍圖像上的帶紋理的 3-D 多面體建築物。 第三個數據集是俄勒岡州波特蘭地區的二維地圖視圖。 此數據包含有關道路、土地利用地塊、公園和學校、河流、湖泊和山體陰影地形的詳細信息。
查看蒙特利爾模型的繪製時間,NVIDIA Quadro RTX 4000 的平均繪製時間為 00:01:31.284,而平均和最小 FPS 分別顯示為 502.395 和 180.699。
ESRI ArcGIS Pro 2.3 蒙特利爾 | |
---|---|
抽獎時間 | 中等 |
Quadro P4000 | 00:01:31.084 |
Quadro P5000 | 00:01:31:082 |
Quadro P6000 | 00:01:31.081 |
四核RTX 4000 | 00:01:31.284 |
四核RTX 5000 | 00:01:31.067 |
平均 FPS | 中等 |
Quadro P4000 | 432.327 |
Quadro P5000 | 489.889 |
Quadro P6000 | 521.551 |
四核RTX 4000 | 502.395 |
四核RTX 5000 | 527.636 |
最低幀率 | 中等 |
Quadro P4000 | 164.546 |
Quadro P5000 | 194.218 |
Quadro P6000 | 190.336 |
四核RTX 4000 | 180.699 |
四核RTX 5000 | 190.775 |
接下來是我們的費城模型,其中 RTX 4000 的平均繪圖時間為 00:01:00.231,而平均和最小 FPS 分別顯示為 434.170 和 196.825。
ESRI ArcGIS Pro 2.3 費城 | |
---|---|
抽獎時間 | 中等 |
Quadro P4000 | 00:02:53.928 |
Quadro P5000 | 00:01:01.109 |
Quadro P6000 | 00:01:01.245 |
四核RTX 4000 | 00:01:00.231 |
四核RTX 5000 | 00:01:01.111 |
平均 FPS | 中等 |
Quadro P4000 | 304.340 |
Quadro P5000 | 451.826 |
Quadro P6000 | 469.879 |
四核RTX 4000 | 434.170 |
四核RTX 5000 | 531.315 |
最低幀率 | 中等 |
Quadro P4000 | 160.152 |
Quadro P5000 | 212.910 |
Quadro P6000 | 207.879 |
四核RTX 4000 | 196.825 |
四核RTX 5000 | 224.341 |
我們的最後一個模型是波特蘭。 此處,RTX 4000 的平均繪製時間為 00:00:32.646。 平均 FPS 顯示為 2,821.928,而最低 FPS 顯示為 1,083.260。
ESRI ArcGIS Pro 2.3 波特蘭 | |
---|---|
抽獎時間 | 中等 |
Quadro P4000 | 00:00:32.426 |
Quadro P5000 | 00:00:32.310 |
Quadro P6000 | 00:00:32.552 |
四核RTX 4000 | 00:00:32.646 |
四核RTX 5000 | 00:00:32.541 |
平均 FPS | 中等 |
Quadro P4000 | 2,051.053 |
Quadro P5000 | 2,057.395 |
Quadro P6000 | 2,343.948 |
四核RTX 4000 | 2,821.928 |
四核RTX 5000 | 2,783.547 |
最低幀率 | 中等 |
Quadro P4000 | 1,179.974 |
Quadro P5000 | 1,189.524 |
Quadro P6000 | 1,282.045 |
四核RTX 4000 | 1,083.260 |
四核RTX 5000 | 1,007.309 |
結論
NVIDIA Quadro RTX 4000 是較低級別的圖靈架構 GPU,但這並不意味著它不強大。 RTX 4000 配備 2304 個 CUDA 內核和 8GB GDDR6 GPU。 與所有 Quadro RTX 一樣,4000 能夠在其易於訪問的單插槽外形中提供加速的光線追踪、深度學習和高級著色。 這可以讓創意專業人士更快地獲得洞察力,同時加快他們的創意工作。 RTX 4000 還配備了 VirtualLink,可簡化與下一代高分辨率 VR 頭戴式顯示器的連接。
在性能方面,RTX 4000 表現非常出色,尤其是考慮到它處於新 GPU 的低端。 在我們的 LuxMark 基準測試中,它幾乎是 Pascal 基準的兩倍,甚至超過了 P6000。 在 Arion 中,RTX 4000 是 P4000 的兩倍多,再次輕鬆超過 P6000。 在我們的 Solidworks 基準測試中,RTX 4000 輕鬆超越了 P4000,並且在 Digger 和 Jet Engine 基準測試中表現更出色。 在 ESRi 中,RTX 4000 的性能比 P4000(在某些情況下是 P5000)好得多,但在某些工作負載中,P6000 的性能更好。 請記住,RTX 4000 處於 Turing 架構的低端,而 P6000 處於 Pascal 架構的高端。
總而言之,Quadro RTX 4000 是 NVIDIA 大量令人印象深刻的 GPU 產品線中廣受歡迎的新成員,它為入門級顯卡提供了令人印象深刻的性能數據,同時價格僅為 900 美元左右。