首頁 Enterprise 效能與彈性:適用於 AI 和 HPC 工作負載的 Graid SupremeRAID

效能與彈性:適用於 AI 和 HPC 工作負載的 Graid SupremeRAID

by 凱文·奧布萊恩

Graid Technology 透過 SupremeRAID 設定了新的資料保護和效能標準,特別是針對 AI 和 HPC 工作負載。

Graid Technology 的 SupremeRAID 透過設定新的資料保護和效能標準,特別是針對人工智慧和高效能運算 (HPC) 等現代工作負載,繼續重新定義儲存格局。傳統的 RAID 配置通常難以滿足這些資料密集環境的需求,尤其是在依賴受 PCIe 匯流排限制的硬體 RAID 卡時。 Graid 利用 GPU 加速突破了這些障礙,提供卓越的效能,同時對 CPU 資源的影響最小,同時確保強大的 RAID 保護。

適用於 AI 和 HPC 的 Grad SupremeRAID

技嘉S183-SH0-AAV1伺服器

在 AI 和 HPC 等高階工作負載中,也通常採用 JBOD(磁碟束)和軟體 RAID (mdadm) 等替代配置。雖然 JBOD 與檢查點結合使用以防止資料遺失很實用,但它會引入更多故障點,並給 IT 管理員帶來具有挑戰性的復原流程的負擔。軟體 RAID 提供資料彈性,但會消耗寶貴的 CPU 資源來管理 RAID 奇偶校驗數據,並且在許多方面表現不佳。相比之下,Graid 的 SupremeRAID 提供了一種簡化的高效能解決方案,可簡化資料管理,而不會影響速度或可靠性。

Grid SupremeRAID 卡

本文將探討 Graid 的 SupremeRAID、JBOD 和軟體 RAID 之間的效能比較,說明為什麼 Graid 成為效能和資料保護至關重要的 IT 環境的最佳選擇。

性能測試台

我們使用 技嘉S183-SH0-AAV1 用於此測試台的雙英特爾第五代可擴充 5U 伺服器。我們想要找到一款具有充足運算能力的緊湊型伺服器,而恰好該伺服器支援 1 個 E32.S SSD,這是單一 Graid SupremeRAID SR-1 支援的最大容量。技嘉伺服器擁有 1010 個 DIMM 插槽,支援 32GB RDIMM 和 96GB 256DS RDIMM。該平台在後部提供三個 FHHL PCIe Gen3 插槽,為高速網路連接提供了多種選擇。此外,此主機板還提供雙 5GbE 板載網路和 1GbE 管理連接埠。

網格 HPC DRAM

金士頓 96GB DDR5-5600 ECC RDIMM

伺服器支援 32 個 DIMM 插槽,但在本例中,我們安裝了 16 個金士頓 DIMM,每個通道 1 個 DIMM (1DPC),以實現最大 DRAM 速度。如果工作負載需要更大的佔用空間,可以遷移到更高密度的 DIMM 或 2DPC 配置,但後者會將 DRAM 速度降至 4400MT/s。  金士頓 96GB DDR5-5600 ECC RDIMM 這台伺服器提供了出色的性價比效能組合,使其成為需要高速 DRAM 和合理 DRAM 佔用空間的工作負載的有吸引力的選擇,而無需支付 128GB DIMM 的成本溢價。這些模組為密集型 HPC 和 AI 工作負載提供了兩全其美的優勢。 

鎧俠 7.68TB XD7P 固態硬碟

32 個 E1.S SSD 托架裝有 KIOXIA 7.68TB XD7P SSD。此驅動器使用 PCIe Gen4 x2 接口,提供 7.2GB/s 讀取和 4.8GB/s 寫入的最大頻寬。 KIOXIA 專門為密集型超大規模和 HPC 工作負載設計了這些驅動器,其中 E1.S SSD 的密度優勢非常有利。重要的是,鎧俠已確保 XD7P 的散熱設計能夠跟上這種密集伺服器設計,即使在重負載下也是如此。

技嘉 S183-SH0-AAV1 伺服器後 I/O

測試系統規格

  • 技嘉S183-SH0-AAV1伺服器
  • 2 個 Intel Xeon Platinum 8592+ CPU(64 核,1.9GHz)
  • 16 個 96GB 金士頓 DDR5-5600
  • 32 個鎧俠 XD7P 7.68TB E1.S 固態硬碟
  • 網格 SupremeRAID SR-1010
  • Ubuntu 22.04.4服務器

性能測試結果

HPC 工作負載一次可以運行數天、數週或數月,如果沒有彈性後端存儲,單一驅動器故障可能會迫使這些作業恢復原狀。為了評估 Graid 對 HPC 和人工智慧工作負載的彈性和效能的影響,我們查看了 y-cruncher 的內部儲存基準測試的效能。目標是比較各種儲存配置、JBOD、軟體 RAID 和 Graid SupremeRAID,以了解它們對 CPU 密集型工作負載的影響。

RAID 配置

我們知道 mdadm 軟體 RAID 發現奇偶校驗資料的寫入命中率很高。雖然 RAID10 將實現更高的效能,但它也會顯著減少可用容量。為了最好地優化軟體 RAID5 效能,我們配置了兩個 RAID5 池,分佈在 SSD 0-15 和 16-31 上。這在兩個 CPU 上實現了平衡。

Graid 比較也調整為使用兩個 RAID5 池,將一半 SSD 平均分配在 CPU0 上,另一半放在 CPU1 上,以實現 NUMA 平衡。我們在每個 RAID5 池上使用單一磁碟區以及每個 RAID5 池上的兩個磁碟區進行測試。

每個磁碟機都單獨對應到 JBOD 配置中,確保 NUMA 平衡。

我們無法在此報告中包含硬體 RAID,因為該伺服器中磁碟機的佈線方式使得傳統的硬體 RIAD 卡不受支援。然而值得注意的是,即使我們可以,最好的情況也是達到單卡 PCIe Gen4 x16 插槽的頻寬限制,約為 28GB/s。

軟件配置

對於這些不同的儲存場景,我們使用 y 粉碎機的內部性能測試工具。測試結果分為順序讀寫效能、計算I/O速度、磁碟I/O速度、磁碟I/O速度與計算速度的比率。我們選擇這個工具是因為它同時強調 CPU、記憶體和磁碟機 I/O。儘管它不代表任何單一的特定工作負載,但我們發現它產生的數據與 I/O 密集型應用程式下的整體系統效能密切相關。值得注意的是,I/O 測試包括實際的資料處理,而不僅僅是盡快通過介面推送位,使其更準確地反映實際負載下的系統效能。

順序讀寫效能表示磁碟陣列的原始速度。計算速度是 CPU 處理資料的速率,而磁碟 I/O 速度是計算工作發生時資料流到 CPU 的速度。進入磁碟的工作負載需要磁碟 I/O 速度高於計算速度才不會減慢。如果這個比率小於1.0,則磁碟是瓶頸,而大於1.0,則CPU是瓶頸。當比率為 2.0 或更高時,用於大型工作負載的 y-cruncher 表現最佳。

存儲配置 順序讀取 GB/s 順序寫入 GB/s 計算GB/s 磁碟 I/O GB/s
直接JBOD 102 102 18.4 81.5 4.42
網格 RAID5 x 2 2VD 64.3 43.8 23.1 70.4 3.05
網格 RAID5 x 2 4VD 85.2 73.7 22.1 69.4 3.14
軟體RAID5×2 122 3.6 25.7 10.9 0.42

透過直接 JBOD 到 32 個單獨的 E1.S SSD,y-cruncher 透過其內部條帶處理實現了 102GB/s 的讀取效能和 102GB/s 的寫入效能。這通常是 y-cruncher 在該平台上看到的最高效能,儘管代價是沒有資料奇偶性。當使用 mdadm 將配置切換到軟體 RAID5 磁碟區(分佈在兩個 CPU 上)時,順序效能驟降至僅 3.6GB/s 寫入和 122GB/s 讀取。具有兩個 RAID5 池和兩個磁碟區的 Grad 測得讀取效能為 64.3Gb/s,寫入效能為 43.8GB/s。將其分成兩個 RAID5 池,但有四個卷,Graid 發現頻寬增加至 85.2GB/s 讀取和 73.7GB/s 寫入。

在解決了頻寬問題並了解了儲存配置選項的範圍後,我們深入研究了這項決定對應用程式的影響。 JBOD 配置中計算與磁碟 I/O 頻寬的比率最高為 4.43。軟體 RAID5 僅為 0.42,而 5VD 的 Graid RAID3.05 為 2,帶有 3.14VD 的 Graid RAID4 為 XNUMX。

在此 y-cruncher 範例中,包含伺服器的所有效能能力,需要 2.0 或更高的比率才能獲得最佳效能。雖然 JBOD 配置獲得了最佳的整體結果,但它是以奇偶校驗資料為代價的,這意味著任何驅動器的故障,即使是短暫的故障,都意味著資料遺失。另一方面,軟體 RAID 可以提供資料可用性和比 JBOD 更高的讀取速度,但寫入會受到嚴重影響,導致磁碟 I/O 無法跟上 CPU 的速度,從而導致可怕的 42 結果。

這兩個數據點對於了解 Graid SupremeRAID 為這些工作負載提供的優勢至關重要。對於此用例,整體效能資料介於 JBOD 和軟體 RAID 之間,但原始 I/O 並不是完整的情況。此範例表明,Graid 可以提供超出所需的應用程式效能,同時還提供資料可用性。這種組合意味著使用 Graid 的組織可以透過非阻塞架構獲得遠遠超過傳統 RAID 卡所能提供的 RAID 保護、儲存和應用程式效能。

結論

Graid Technology 的 SupremeRAID 不斷突破資料保護和效能的界限,樹立了業界新標準。透過利用 GPU 加速的力量,Graid 在 RAID 配置中提供無與倫比的速度和效率,顯著減少 CPU 壓力,同時最大限度地提高吞吐量。

我們為本報告收集的數據表明,Graid 有能力確保強大的資料保護,同時滿足現代 AI 和 HPC 工作負載的嚴格要求(傳統 RAID 和軟體 RAID 解決方案往往無法滿足這些領域)。這種效率使 CPU、DRAM 和儲存等關鍵系統資源能夠充分發揮其所支援的應用程式的效能,從而提高整體系統價值和效率。

網格技術

本報告由格萊德科技贊助。本報告中所表達的所有觀點和意見均基於我們對所考慮產品的公正看法。

參與 StorageReview

電子通訊 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | 的TikTok | RSS訂閱