首頁 Enterprise Western Digital OpenFlex Data24 – GPUDirect 效能分析

Western Digital OpenFlex Data24 – GPUDirect 效能分析

by 布賴恩·比勒

在這篇詳細的文章中,我們為 Western Digital OpenFlex™ Data100 提供了真實的 NVIDIA® H24 GPU 效能分析。透過啟用 GPU 記憶體和儲存之間的直接資料路徑,OpenFlex Data24 顯著減少了延遲並最大限度地提高了頻寬。

本報告由西部數據贊助。本報告中所表達的所有觀點和意見均基於我們對所考慮產品的公正看法。

如今,人工智慧成為熱門話題,雖然一些超大規模企業不再為其人工智慧數據問題提供客製化解決方案,但西部數據 (WD) 為我們其他人提供了答案。 西部數據 OpenFlex™ Data24™ 提供強大且可擴展的儲存解決方案,以滿足人工智慧和其他 GPU 加速工作負載的高吞吐量需求。透過啟用 GPU 記憶體和儲存之間的直接資料路徑,OpenFlex Data24 顯著減少了延遲。它還最大限度地提高頻寬,確保高效的資料處理和最佳的 GPU 利用率,從而更快、更有效地處理大規模資料集。

透過利用 NVMe-oF™,西部數據可以在多個伺服器之間共享分散的高速存儲,確保快速的數據存取和傳輸。 OpenFlex Data24 與高效能 GPU 無縫集成,使其能夠提供人工智慧訓練和推理所需的巨大吞吐量,使其成為下一代資料中心營運的關鍵推動者。這些功能使 OpenFlex Data24 成為任何希望充分利用人工智慧和其他高階運算工作負載潛力的組織的強大工具。

西部資料 OpenFlex Data24 4000

Western Digital 的 OpenFlex Data24 4000 系列 NVMe-oF 儲存平台為共享儲存環境帶來了無與倫比的效能。此高效能平台擴展了 NVMe™ 快閃記憶體的功能,透過乙太網路結構提供低延遲共用。 Data24 4000 系列利用 2000 個 Western Digital RapidFlex™ A100 Fabric Bridge 設備,使用多達 XNUMX 個 XNUMXGbE 連接埠提供無縫網路連接。這些介面都支援 羅CEv2 和 TCP 協議,為資料傳輸提供多種選擇。

機殼採用 2U 外形設計,可容納多達 24 個雙埠 U.2 NVMe SSD。該平台支援 PCIe® Gen4,其架構旨在充分利用每個 SSD 的性能,從而在整個機箱中保持高頻寬。 NVMe SSD 提供各種容量和耐用性選項,包括容量高達 655TB 的 Ultrastar® DC SN15.36 SSD,總原始容量為 368TBXNUMX。

該平台的設計消除了超額訂閱,確保均衡存取並保持 NVMe 效能。 Data24 4000 系列還整合了 RESTful API 支持,以簡化管理、增強易用性以及與現有 IT 基礎架構的整合。

高可用性和企業級可靠性是 Data24 4000 系列的關鍵屬性。雙 I/O 模組和 N+2 風扇冗餘等功能讓您高枕無憂,即使在發生不可預見的組件故障時也能確保連續運作。整個平台(包括 SSD)均享有 5 年有限保固。

西部資料 OpenFlex Data24 主要規格

OpenFlex Data24 規格
最大儲存容量 368TB
輸入電壓 120V - 240V
電源供應器 雙800W
數據傳輸速率 12 個 100Gbps NVMe-oF
外形 2U
工作溫度 10°C至35℃,
重量 18.25公斤/ 40.2的磅
尺寸(寬x長x高) 491.9 毫米 x 628.65 毫米 x 85.5 毫米/19.37 英寸 x 24.75 英寸 x 3.37 英寸
功耗(最大/典型) 750W / ~550W
電源效率 80 Plus鈦
磁碟機插槽 24
散熱 4個系統風扇(支援N+2)
機架單位 (U) 2U
所需機架深度 1000毫米(39.4英寸)
所需機架寬度 450公厘(17.72英吋)

測試 OpenFlex Data24

為了擴展 OpenFlex Data24 的效能,我們必須整合幾個關鍵部分:NVIDIA GPUDirect™、NVIDIA IndeX® 和高達 5.9TB 的龍捲風模擬資料。透過利用 NVIDIA GPUDirect,我們實現了 GPU 記憶體和 OpenFlex Data24 之間的直接通信,從而大大減少了延遲並最大限度地提高了資料吞吐量。利用 NVIDIA 的 IndeX,我們能夠更有效地視覺化海量龍捲風資料集並與之交互,展示系統的即時處理能力。此設定提供了一個完美的測試平台,用於展示 OpenFlex Data24 以驚人的速度和效率處理密集型 AI 工作負載和大規模資料處理的能力。

NVIDIA GPU 直接

NVIDIA GPU 直接 技術顯著提高了高效能 GPU 運算環境中的資料傳輸效率。這套技術優化了 GPU 和其他系統元件之間的資料移動。透過減少延遲和開銷,GPUDirect 可實現 GPU 與網路適配器、儲存設備和其他 GPU 等週邊設備之間更直接的通訊。傳統的數據傳輸過程涉及透過 CPU 和系統記憶體路由數據,從而造成效能瓶頸。 GPUDirect 透過允許對 GPU 記憶體的直接記憶體存取 (DMA) 繞過 CPU 和系統記憶體來緩解這些瓶頸,從而提高整體吞吐量。

NVIDIA 資深科技行銷經理 Harry Petty 表示:

「NVIDIA 的技術可實現低延遲和快速的儲存資料傳輸,透過減少 GPU 空閒時間來優化 AI 工作負載的效能。這可以提供更快的模型訓練時間和更準確的結果,從而實現更快的發現和更有效率的工作流程。

GPUDirect 包含多個重要功能,包括 GPUDirect RDMA,它有助於 GPU 和支援 RDMA 的網路介面卡之間的直接資料傳輸。這種直接通訊對於需要快速資料交換的應用程式至關重要,例如科學模擬和大規模資料分析。透過實現更快的資料傳輸,GPUDirect RDMA 減少了延遲並提高了 GPU 叢集的效率。此外,GPUDirect Storage將GPU與高速儲存系統更緊密地集成,允許資料密集型應用程式利用現代NVMe儲存的最大頻寬。這種整合可加速資料存取並減少等待資料載入到 GPU 記憶體所花費的時間,這對於即時分析和大規模機器學習工作負載至關重要。

GPUDirect 的功能在多個 GPU 協同工作的環境(例如深度學習訓練叢集)中特別有影響力。透過促進 GPU 之間的直接通信,GPUDirect 優化了平行處理並顯著減少了與 GPU 間資料傳輸相關的開銷。此增強功能對於訓練複雜的神經網路特別有益,因為在這種情況下,必須在多個 GPU 之間快速交換大量資料。 GPUDirect 的效率提昇在分子動力學模擬和流體動力學等應用中也很明顯,在這些應用中,計算工作負載分佈在多個 GPU 上,以更快地獲得結果。

NVIDIA 索引

NVIDIA 索引 是一種先進的體積視覺化工具,旨在以高保真度處理大量資料集。 IndeX利用GPU加速提供3D體積資料的即時互動式視覺化,使其成為石油天然氣勘探、醫學影像和科學研究等產業不可或缺的工具。傳統的視覺化工具通常難以應對現代資料集的龐大規模和複雜性,導致渲染時間變慢和互動式使用者體驗減少。 IndeX 透過利用 NVIDIA 的 GPU 技術提供高效能渲染和資料處理來克服這些限制,確保使用者可以即時與其資料互動。

IndeX 的功能源自於其利用 GPU 並行處理能力的能力,使其能夠有效管理和渲染大規模體資料。此功能對於需要高解析度視覺化的應用非常有價值,例如石油和天然氣領域的地震解釋和油藏模擬。透過提供地下結構詳細、準確的視覺表示,IndeX 幫助地球科學家做出更明智的決策。在醫學領域,IndeX 有助於透過 MRI 和 CT 掃描等影像方式實現複雜解剖結構的可視化,從而幫助診斷和治療計劃。

IndeX 的即時渲染能力對於科學研究也至關重要,因為需要及時視覺化和分析來自模擬和實驗的大型資料集。研究人員可以互動地操作和探索他們的數據,從而更快地檢驗和發現假設。 IndeX 的可擴展性確保它能夠處理先進科學儀器和模擬生成的不斷增長的數據量,為研究人員提供有效視覺化和解釋數據的工具。透過與現有工作流程無縫整合並支援各種資料格式,IndeX 提高了生產力並加快了跨多個學科的發現步伐。

將它們全部捆綁在一起

將 Data24 4000 系列與 NVIDIA GPUDirect 技術集成,可簡化 GPU 和儲存之間的資料傳輸,從而顯著增強 GPU 密集型應用程式的效能。 GPUDirect 促進直接內存訪問,允許資料移動繞過 CPU 和系統內存,以減少延遲並提高吞吐量。與 Data24 4000 系列的高效能 NVMe-oF 功能結合,GPUDirect 確保 GPU 能夠快速存取儲存在 NVMe SSD 上的大型資料集。

這種整合對於 GPU 和儲存之間的高速資料交換至關重要的環境(例如深度學習和科學模擬)尤其有利。 Data24 4000 系列的低延遲和高頻寬,再加上 GPUDirect 支援的直接資料路徑,可最大限度地縮短資料傳輸時間並提高 GPU 利用率。這種協同作用優化了平行處理任務的效能,其中多個 GPU 需要快速、頻繁地存取共享資料。

對於此測試,OpenFlex Data24 4000 和 GPU 伺服器透過 200GbE 交換器使用 NVMe-oF RoCEv2 協定連接,匹配的 MTU 為 5000。 OpenFlex Data3 7 配備 2 個 200GbE 連接埠。每個 CX24 連接埠都有 4000 個 IP 位址,允許單一 CX12 映射到 Data100 上的四個連接埠。這提供了與每個雙埠驅動器上所有 7 個 PCIe 通道的連接。對於無阻塞網路架構,2 個 7 GbE 連結相當於 24 個 4 GbE 連結的頻寬潛力。

每個 NVIDIA H100 透過 PCIe Gen5 x16 插槽連接,理論上可以實現雙向 64GB/s 的頻寬。每個200GbE和100GbE RNIC連接埠理論上可分別達到25 GB/s和12.5 GB/s。一個關鍵的設計考慮因素是確保非阻塞架構。這要求 GPU、RNIC 和 NVMe-oF 磁碟機都實體對應到相同 CPU、NUMA 和 PLX 交換器上。這允許配置充分利用 GPUDirect。如同在此實作中所看到的,第二個 CPU、NUMA 和 PLX 交換器上的鏡像配置將允許可預測的計算規模和理論上的效能加倍。

在 AI 訓練叢集中,Data24 4000 和 GPUDirect 的組合可以減少與資料載入相關的瓶頸,從而縮短訓練時間。高效率的數據路徑確保GPU能夠不間斷地連續接收數據,維持高處理速度並提高整體系統效率。這種設定也有利於即時分析和其他需要快速資料存取和處理的應用程序,為各種計算工作負載提供顯著的效能提升。

NVIDIA IndexX 伺服器配置

對於 NVIDIA IndeX 測試,我們採用了配備交換 PCIe 背板的 Supermicro 521GE-TNRT、一對 NVIDIA H100 和三個 NVIDIA ConnectX-7 網路卡。

Supermicro® 521GE-TNRT 主要規格
型號 超微 521GE-TNRT
處理器 2 個英特爾® 至強® 鉑金 8462Y+
記憶體應用 1TB DDR5
GPU 2 個 NVIDIA H100 PCIe
網絡接口 3 個 NVIDIA ConnectX-7 網路卡

GDSIO 綜合測試

用於此目的的基準測試工具是 GDSIO,這是一種專門的專有 NVIDIA 實用程序,旨在測量 GPU 直接儲存 (GDS) 環境中的儲存效能。我們研究了本輪測試的一些配置:具有 12 個驅動器和 24 個驅動器的單一 GPU,以及具有 24 個驅動器的兩個 GPU。

GDSIO 效能測試中 Western Digital OpenFlex Data24 的效能與 NVIDIA H100 GPU 搭配使用,揭示了對驅動器原始功率的深入了解。當配置 12 個磁碟機和單一 GPU 時,系統的寫入頻寬為 44.14 GB/s。在使用一個 GPU 的情況下將磁碟機數量增加到 24 個,顯示出適度的改進,寫入效能達到 54.15 GB/s。在 24 個驅動器設定中引入第二個 GPU 帶來了顯著的提升,將寫入頻寬提升至 87.91 GB/s。

讀取效能也遵循類似的趨勢。 12 個驅動器、53.47 個 GPU 配置的讀取頻寬為 24 GB/s。使用 54.75 個 GPU 擴展到 101.14 個驅動器後,速度會略微增加到 24 GB/s。然而,最顯著的改進來自雙 GPU 設置,系統實現了令人印象深刻的 XNUMX GB/s 讀取頻寬。這些結果強調了 OpenFlex DataXNUMX 隨著驅動器數量的增加而可預測地擴展的能力。

GPU 的增加對於最大限度地提高效能起著至關重要的作用。具有 24 個驅動器和兩個 GPU 的配置成為最佳設置,為讀寫操作提供最高頻寬。該測試強調了 GPU 加速在充分發揮 GDSIO 框架潛力方面的重要性。 OpenFlex Data24 與 NVIDIA H100 GPU 搭配使用時,可展現出卓越的效能,使其成為適用於要求嚴苛的儲存環境的強大解決方案。

對於 AI 工作負載來說,快速資料攝取和處理至關重要,透過 OpenFlex Data24 觀察到的效能可以轉化為訓練時間的顯著減少和大型資料集更有效的處理。將資料快速從儲存移動到 GPU 記憶體的能力可確保充分利用強大 GPU 的運算資源,從而促進更快、更有效率的模型訓練和推理。

使用 OpenFlex Data24 為 H100 的龍捲風提供動力

氣候研究人員長期以來一直在研究超級單體雷暴,這是造成世界上最猛烈、最危險龍捲風的大氣現象。這些風暴是動態且複雜的,使得準確的模擬非常耗時且資料密集。探索此類數據是一個緩慢而繁瑣的過程,通常需要數小時才能呈現新的視覺化效果。

NVIDIA GPU 和 NVIDIA IndeX 的使用徹底改變了這個領域。科學家現在可以即時進行體積可視化。我們在配備 H100 的 Supermicro 系統上運行的模擬(由 OpenFlex Data24 提供數據)展示了 Leigh Orf 教授模擬的 2011 年俄克拉荷馬州風暴。這種模擬是根據龍捲風形成前的初始條件進行數學推導的,包括 250 億個網格點,每個網格點都有降雨、冰雹、壓力和風速等十幾個屬性。這種詳細的視覺化顯示了 6000 個模擬步驟,為龍捲風的動態提供了前所未有的洞察力。

此模擬的關鍵是 NanoVDB,這是一種緊湊的稀疏體資料結構,可透過將資料直接對應到 GPU 記憶體來減少資料集大小和記憶體佔用。結合 GPUDirect Storage 技術和 OpenFlex Data24,我們實現了高達 89GB/s 的速度,並且可以每秒超過 13 幀的速度查看結果。這大約是每 5.9 秒攝取約 66TB 的資料集。這種組合允許互動式導航、動態參數調整以及輕鬆瀏覽模擬。


停用 GPUDirect 後(因此,資料現在遍歷 CPU 複合體),頻寬會減少至 15 GB/s 左右,幀速率顯著下降至每秒 4 幀。

速度至關重要,但逼真的品質對於驗證模擬的準確性也至關重要。如果模擬與現實不一致,則必須修正模型。 NVIDIA Iray 是一種基於 GPU 的路徑追蹤器,可渲染物理上正確的光傳輸,與 NVIDIA IndeX 體積資料一起使用來支援這種視覺化。龍捲風的漏斗、地面接觸以及以藍灰色孔隙表示的雲水比和降雨等細節元素都清晰可見。

結論

本專案充分展現了配置良好的非阻塞架構可提供 GPU 加速工作負載所帶來的效能、時間和成本優勢。簡而言之,將 GPU 發揮到最大吞吐量或處理能力可以帶來更有效率的結果和投資回報。

Western Digital 的架構支援開放式可組合基礎架構 (OCI),OpenFlex Data24 4000 平台透過使用 NVMe-over-Fabrics (NVMe-oF) 分解資料儲存來利用此 OCI 方法。這種儲存資源與 GPU 伺服器的解耦不僅有助於釋放伺服器資源(從傳統的鎖定升級中釋放這些資源),而且還允許微調 NVMe 磁碟機到 GPU 的對應。這種與 GPU 要求相符的精確驅動器可以滿足 GPU 功能、效能和資料容量的需要,從而提供這些資源所需的可預測規模和靈活性。

由於資料不再是孤立的,它成為可存取的網路儲存資源,可根據需要在多個 GPU 伺服器之間共享,從而進一步提高靈活性。

西部資料 OpenFlex Data24 與 NVIDIA GPUDirect 技術結合,展現了處理 AI 和其他 GPU 加速工作負載的強大能力。透過啟用 GPU 記憶體和 NVMe 儲存之間的直接資料路徑,Data24 顯著減少延遲並最大化頻寬,確保高效的資料處理和最佳的 GPU 利用率。這種整合可以更快、更有效地處理大規模資料集,使 Data24 成為現代資料密集型環境中的寶貴資產。

我們的實際測試涉及大量龍捲風模擬資料集,展示了透過此設定實現的顯著性能提升。 OpenFlex Data24 能夠提供高吞吐量和低延遲的資料傳輸,再加上 NVIDIA IndeX 的即時視覺化功能,突顯了其在 AI 訓練、科學模擬和即時分析等要求嚴格的應用中的潛力。

利用 Data24 系列和 GPUDirect 技術進行 AI 訓練集群,可確保從儲存到 GPU 的無縫資料流,從而顯著減少訓練時間。這種設置最大限度地減少了瓶頸並提高了整體系統效率,使其成為追求更快、更準確的人工智慧模型的關鍵組成部分。

除了人工智慧之外,OpenFlex Data24 的優勢還擴展到其他 GPU 加速的工作負載,包括高效能運算和即時數據分析。該平台可減少延遲並提高吞吐量,確保需要快速資料存取和處理的應用程式能夠以最佳效能運行,從而提供及時、準確的結果。

請於 6 年 8 月 2024 日至 2024 日在 FMS 607 XNUMX 號展位觀看此演示。

西部資料 OpenFlex 平台

[1] XNUMX 太字節 (TB) 等於 XNUMX 兆位元組。實際使用者容量可能會因操作環境而減少。

參與 StorageReview

電子通訊 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | 的TikTok | RSS訂閱