在發表我們的評論時 戴爾PowerEdge R760 服務器方面,我們故意推遲了存儲數量,並指出 R760 有許多存儲配置選項,這些選項會使最初的審查時間過長。 在本次評測中,我們將深入研究 Dell PowerEdge 支持 Gen4 NVMe SSD 的存儲選項,以及戴爾所謂的直接驅動器與 PERC 12 硬件 RAID 卡的性能概況。
在發表我們的評論時 戴爾PowerEdge R760 服務器方面,我們故意推遲了存儲數量,並指出 R760 有許多存儲配置選項,這些選項會使最初的審查時間過長。 在本次評測中,我們將深入研究 Dell PowerEdge 支持 Gen4 NVMe SSD 的存儲選項,以及戴爾所謂的直接驅動器與 PERC 12 硬件 RAID 卡的性能概況。
Dell PowerEdge NVMe 背板選項
戴爾在其 16G PowerEdge 服務器中提供各種存儲背板。 配置 R760 時,有近 50 個驅動器機箱可供選擇。 雖然其中一些是傳統支持(例如 PERC 11),但關鍵是機箱決定是一個重大決定。 這甚至沒有考慮即將推出的 E3.S NVMe SSD 支持,這是在 PowerEdge 服務器中獲取 Gen5 SSD 的唯一方法。 我們看了 Dell PowerEdge R3 中的 E660.S 如果您想了解有關 Gen5 和 EDSFF 外形尺寸的優勢的更多信息。
回到手頭的任務。 在本次評測中,我們希望了解選擇戴爾直接驅動器選項與 PERC 12 HWRAID 卡選項相比的影響。 如前所述,此處的明確重點僅考慮 Gen4 U.2/U.3 NVMe SSD。 目前,我們忽略 SATA/SAS 和 3.5 英寸 HDD 的機箱選項。 這些配置要簡單得多。
在 R760 中,戴爾提供了幾個機箱選項來安裝 Gen4 NVMe 驅動器。 直接驅動器選項可配置為支持 8 或 16 個驅動器。 對於 HWRAID 配置,戴爾以相同的方式提供 PERC 12 HWRAID 卡,每批 8 個 SSD 使用一張 RAID 卡。 這一決定很重要,因為它對於讓配備 760 個 NVMe SSD 的完全填充的 R16 獲得最佳性能至關重要。
戴爾 PERC 12 概述
Dell PowerEdge RAID 控制器 (PERC) 12 基於 Broadcom SAS4116W 芯片。 儘管產品名稱中包含 SAS,但該控制器是三模式 RAID-on-Chip (ROC) 設備。 Broadcom MegaRAID 系列中使用相同的 RAID 控制器。 我們最近回顧了 兆兆RAID 9670W 突出關鍵能力。 然而,對於 Dell PERC 12,根據您感興趣的戴爾服務器和存儲系列,基本的設計差異會發揮作用。
關於 PowerEdge,大多數配置將利用“H965i Front”PERC 12 卡。 在我們對帶有 HWRAID 的 R760 系統的評測中,我們在系統中有兩張 H965i 前置卡,每組一張用於 8 個 Solidigm P5520 SSD。 值得一提的是,這些卡比附加卡小得多。 PCB 設計和熱管理確實令人印象深刻。 這些卡直接安裝到 8 驅動器 NVMe 背板上,並通過兩根 x8 PCIe 電纜連接到主板。 這可以釋放服務器讀取端的 PCIe 插槽以供其他設備使用。
說到附加卡,標準 PERC 12 H965i 是一款半高半長的卡,包含板載風扇。 此版本的 PERC 12 將出現在一些 PowerEdge 配置中,也可以在一些新的配置中找到。 Dell PowerVault MD JBOD。 最後,還有 H965i MX,它是一個又長又窄的 PCB,專為 MX7000 模塊化機箱而設計。
戴爾 PERC 11 與 PERC 12
Dell PERC 11 卡確實支持 NVMe SSD,但不幸的是,硬件 RAID 的優勢是以巨大的性能成本為代價的。 這一成功正是業界對博通新芯片和戴爾版本的 PERC 卡如此興奮的原因。 戴爾公佈了一些數據 PERC 11 和 PERC 12 之間的差異令人震驚。
PERC 12 的延遲優勢顯而易見; 但看看最壞情況下的性能,即重建期間的性能。 PERC 12 獲得了數千% 的改進,甚至 RAID 重建時間也有顯著的優勢。
查看戴爾引用的帶寬和 IOPS 數字,我們可以再次看到 PERC 12 與 PERC 11 相比向前邁出的巨大一步。總體而言,所有這些工作負載在 PERC 2 卡中至少提高了 12 倍。 當然,我們已經完成了測試來檢查 PERC 12 的性能,我們將會進行測試。
戴爾直驅與戴爾 PERC 12 性能對比
為了比較 Direct Drive 與 PERC 12 的存儲性能,我們將 R760 服務器“表兄弟”配置為 Solidigm P5520 7.68TB 固態硬盤。 帶直接驅動器的戴爾 R760 有 8 個 NVMe 托架。 採用 PERC 760 的 R12 具有 16 個 NVMe 托架,配有雙 H965i 前置 RAID 卡。
從表面上看,雙方都存在某些性能限制可能並不明顯。 從直接驅動器方法開始,每個 SSD 都有自己的 x4 PCIe 連接,這意味著 32 個 SSD 有 XNUMX 個 PCIe 通道專用。
這可以實現令人難以置信的帶寬,如果每個 Gen52 驅動器可以使其 4GB/s 連接飽和,則通常可以超過 6.5GB/s。 與 PERC 12 H965i 設置相比,每組八個 SSD 直接與 RAID 卡連接,RAID 卡通過 x16 PCIe 連接連接回主板。 這會將 Direct Drives 配置支持的帶寬減少一半。 很明顯,原生 NVMe 連接獲勝? 不完全是。
當處理多 CPU 系統中的多個 NVMe 設備時,驅動器和 CPU 之間的 NUMA 映射以及系統中斷就會發揮作用。 這可以進行優化,但需要大量調整。 並非所有應用程序都考慮到這一點。
虛擬化是管理 NUMA 映射的一大挑戰,因為共享資源是實時平衡的,有時 CPU 可能無法直接訪問那些分配的 PCIe 資源。 硬件 RAID 卡可以緩解其中的許多問題,並針對系統中斷和上下文切換進行優化,從而釋放 CPU 資源。 NUMA 映射也變得不那麼複雜,因為每個 CPU 僅需管理一張存儲卡,而不是將 16 個獨立 SSD 分佈在兩個 CPU 上。
我們的測試計劃側重於兩個領域。 第一個是 Vdbench 工作負載,使用傳遞到任一 R760 的八個 SSD 來測量 JBOD 性能。 Direct Drives R760 上有八個本機 SSD,而在 HWRAID R760 上,PERC 12 通過八個原始存儲設備。 兩者均按原樣進行測試,未進行優化。 第二階段測試展示了 PERC 2 解決方案從單卡設置到優化雙卡設置的擴展性能。
我們的 Direct Drives PowerEdge R760 評測設備具有以下配置:
- 雙 Intel Xeon Gold 6430(32 核/64 線程,1.9GHz 基礎)
- 1TB DDR5 內存
- 8 個 Solidigm P5520 7.68TB Gen4 SSD
- RHEL 9
HWRAID NVMe PowerEdge R760 評測單元具有以下配置:
- 雙 Intel Xeon Gold 6430(32 核/64 線程,1.9GHz 基礎)
- 1TB DDR5 內存
- 16 個 Solidigm P5520 7.68TB Gen4 SSD
- 雙 PERC 12 H965i
- RHEL 9
Vdbench 工作負載分析
對存儲設備進行基準測試時,最好進行應用程序測試,然後進行綜合測試。 雖然不能完美地代表實際工作負載,但綜合測試有助於通過可重複性因素確定存儲設備的基線,從而可以輕鬆地在競爭解決方案之間進行同類比較。 這些工作負載提供了一系列測試配置文件,從“四個角”測試和常見數據庫傳輸大小測試到來自不同 VDI 環境的跟踪捕獲。
這些測試利用典型的 Vdbench 工作負載生成器和腳本引擎來自動化並捕獲大型計算測試集群的結果。 這使我們能夠在各種存儲設備(包括閃存陣列和單個存儲設備)上重複相同的工作負載。 我們對這些基準測試的測試過程會用數據填充整個驅動器表面,然後對相當於驅動器容量 25% 的驅動器部分進行分區,以模擬驅動器如何響應應用程序工作負載。 這與完整的熵測試不同,後者使用 100% 的驅動器並使它們進入穩定狀態。 因此,這些數字將反映更高的持續寫入速度。
簡介:
- 4K 隨機讀寫:100% 讀取或寫入,128 個線程,0-120% iorate
- 64K 順序讀取:100% 讀取,32 個線程,0-120% IOrate
- 64K 順序寫入:100% 寫入、16 個線程、0-120% iorate
- 4K 70R/30W 和 90R/10W 隨機混合,64 線程,0-120% 像素
看看我們的第一個針對讀取傳輸帶寬的測試,我們可以看到具有 32 個 PCIe 通道的 Direct Drives 方法比具有 12 個通道的單個 PERC 16 具有 PCIe 通道優勢。 在 JBOD 模式下,直接驅動器的計算結果為 41.6GB/s,而 PERC 28 的計算結果為 12GB/s。
從讀取帶寬切換到寫入帶寬時,由於 Solidigm P5520 的寫入速度低於讀取速度,額外 PCIe 通道的優勢會縮小。 此處,Direct Drives 配置測得的速度為 18.3GB/s,而 PERC 20.3 的速度為 12GB/s。
在我們的隨機 4K 讀取工作負載中,Direct Drive PowerEdge R8 中的 5520 個 Solidigm P760 SSD 測得 5.55 萬 IOPS 峰值,而 PERC 4.34 設置上的 12 萬 IOPS。
在 4K 隨機寫入中,這種差異再次縮小,Direct Drive 測量為 3.96M IOPS,而 PERC 4.15 上為 12M IOPS。
在兩個混合工作負載中的第一個中,我們研究了具有 4/70 讀/寫分佈的 30K 隨機傳輸。 此處,Direct Drives PowerEdge R760 配置測得的峰值 IOPS 為 4.47M,而 PERC 12 的峰值為 3.66M IOPS。
在相同的 90K 傳輸測試中將讀取百分比提高到 4%,我們測得 Direct Drives 服務器的 IOPS 為 5.04 萬,而 PERC 3.62 系統的 IOPS 為 12 萬。
FIO工作負載分析
為了測量戴爾 Direct Drive 和 PERC 12 HWRAID 產品的驅動器性能,基準測試分為以下配置。 第一個包括測量 RAID、RAID10 和 RAID5 配置之外的每個驅動器的 JBOD 配置。
對於直接驅動器方法,SSD 會正常顯示給操作系統; 對於 PERC 12,它們作為原始存儲設備通過 HBA。 這些配置通過一個腳本流程來預處理閃存,運行它們所適應的測試,並轉移到下一個預處理/工作負載組合。
- 順序預處理
- JBOD、8DR10、8DR5(單和雙 PERC)的順序測試
- 隨機預處理
- JBOD、8DR10、8DR5(單和雙 PERC)的隨機優化測試
- 8DR10、8DR5(單和雙 PERC)的隨機重建測試
- 隨機寫入延遲可實現 8DR5 的優化和重建(單 PERC)
由於 PERC 12 H965i 具有 x16 PCIe Gen4 插槽,其峰值性能將在一個方向上約為 28GB/s,而這正是 Gen4 插槽的最高性能。 戴爾採用獨特的方法來解決此帶寬限制,在 PowerEdge R12 中提供雙 PERC 760 配置。 負載被分散,每個 PERC 16 控制自己的一組 12 個 SSD,而不是將 8 個 SSD 托架全部連接到單個卡。 這種方法避開了帶寬限制,同時顯著提高了高要求工作負載下的峰值可用吞吐量。
首先看看順序傳輸性能,我們可以看到 Direct Drives 配置的帶寬優勢,讀取速度為 54.4GB/s,而單個 PERC 12 的讀取速度為 28.1GB/s。 本機寫入速度也具有優勢,測量結果為 33.4GB/s,而後面有八個驅動器的單個 PERC 28.3 的寫入速度為 12GB/s。 一般來說,寫入速度不會有很大差異,因為一般來說,此類 SSD 的讀取速度遠遠超過寫入速度。
工作量 | JBOD 直接驅動器(MB/秒) | JBOD 1 x PERC 12(MB/秒) | JBOD 2 x PERC 12(MB/秒) | RAID 10 1 x PERC 12 - 最佳(MB/秒) | RAID 10 2 x PERC 12 - 最佳(MB/秒) | RAID 5 1 x PERC 12 – 最佳(MB/秒) | RAID 5 2 x PERC 12 – 最佳(MB/秒) |
---|---|---|---|---|---|---|---|
最大順序讀取 | 54,396 | 28,076 | 56,114 | 27,450 | 55,482 | 24,049 | 56,107 |
最大順序寫入 | 33,367 | 28,284 | 56,541 | 11,037 | 22,120 | 12,269 | 24,351 |
最大 50:50 Seq 讀取:寫入 | 33,569 | 28,286 | 56,541 | 11,011 | 21,875 | 12,269 | 24,360 |
將我們的注意力轉向隨機傳輸性能,我們開始看到 RAID 卡在 NUMA 平衡方面的優勢發生了變化。 在讀取性能方面,Solidigm 7.68TB P5520 SSD 在我們的 7.96K 讀取測試中測得 4M IOPS,而 PERC 12 JBOD 配置測得 7M IOPS。 通過 Direct Drives 配置的寫入速度下降至 3.4M IOPS,而 PERC 12 保持 5.97M IOPS。 對於 4K OLTP 工作負載,這種情況變得更加明顯,Direct Drive 測量為 3.6 萬 IOPS,而 PERC 10.2 測量為 12 萬 IOPS。
雖然傳統觀點認為硬件 RAID 對於現代 SSD 沒有價值,但我們發現情況已不再如此。 是的,Direct Drives NVMe 設置可以調整,但它是跨多個 SSD 的移動目標,平衡在兩個 CPU 上。
這與 PERC 12 HWRAID 卡形成鮮明對比,後者管理所有復雜性並僅連接到一個 CPU。 為了進行擴展,Dell PowerEdge R2 中的第二個 PERC 卡連接到另一個 CPU,為跨這兩個磁盤組分配的較大工作負載提供平衡。 應該注意的是,在 760M IOPS 左右,系統開始使 CPU 飽和,這就是為什麼我們在使用附加 PERC 10 卡時在某些區域沒有看到線性擴展的原因。
工作量 | JBOD 直接驅動器(MB/秒) | JBOD 1 x PERC 12(MB/秒) | JBOD 2 x PERC 12(MB/秒) | RAID 10 1 x PERC 12 – 最佳(MB/秒) | RAID 10 2 x PERC 12 – 最佳(MB/秒) | RAID 5 1 x PERC 12 – 最佳(MB/秒) | RAID 5 2 x PERC 12 – 最佳(MB/秒) |
---|---|---|---|---|---|---|---|
4KB 隨機讀取 (IOP) | 7,958,204 | 7,003,556 | 12,447,020 | 6,757,498 | 13,067,852 | 6,974,826 | 13,205,656 |
4KB 隨機寫入 (IOP) | 3,473,446 | 5,974,265 | 11,323,633 | 2,204,738 | 4,684,333 | 862,769 | 1,725,198 |
4KB OLTP (IOP) | 3,553,974 | 10,195,618 | 11,967,984 | 6,441,868 | 12,288,219 | 2,635,711 | 5,279,999 |
雖然我們沒有研究 Direct Drives PowerEdge R760 配置的軟件 RAID 選項,但我們確實有機會了解 RAID 配置在降級狀態下的 PERC 12 上的性能如何。 雖然與最佳性能相比性能顯著下降,但 RAID10 和 RAID5 在重建 RAID 組時都提供了強大的性能。
工作量 | RAID 10 1 x PERC 12 – 重建(MB/秒) | RAID 10 2 x PERC 12 – 重建(MB/秒) | RAID 5 1 x PERC 12 – 重建(MB/秒) | RAID 5 2 x PERC 12 – 重建(MB/秒) |
---|---|---|---|---|
4KB 隨機讀取 (IOP) | 1,345,175 | 2,692,738 | 2,350,889 | 4,676,748 |
4KB 隨機寫入 (IOP) | 1,666,967 | 3,174,430 | 242,802 | 479,144 |
4KB OLTP (IOP) | 1,618,209 | 3,253,603 | 243,349 | 486,251 |
雖然最佳 RAID 性能是選擇存儲解決方案的一個重要方面,但了解其在次優條件下的性能也同樣重要。 為此,我們在最佳條件下測量了 RAID4 中的 5K 寫入延遲,並在驅動器發生故障時重建性能。 如果性能或延遲受到嚴重影響,應用程序響應能力可能會成為問題。 雖然重建性能與最佳性能相比有所下降,但性能延遲不會增加到超過基線。
最後的思考
戴爾的新款 PERC12 NVMe RAID 卡改變了 PowerEdge 服務器中 NVMe 存儲選項的遊戲規則。 過去,一些客戶猶豫是否要放棄 SAS SSD,或者選擇連接到各種 SDS 或虛擬機管理程序的 NVMe 驅動器。 然而,PERC 12 卡的推出改變了 PowerEdge 的方程式,使其成為更可行的選擇。
PERC 12 表現如此出色的原因還歸功於 PowerEdge 服務器的佈局。 我們的 R760 有兩個 PERC 12(H965i 前置)卡,每個卡都有 x16 通道。 這使我們能夠在每張卡上使用 8 個 Solidigm SSD,提供每張卡高達 28GB/s 的最大帶寬。 將所有 16 個 SSD 連接到單個 RAID 卡將導致潛在性能損失一半。
您可能會問,“為什麼不使用帶有 HWRAID 的 24 個 SSD?” 請記住,每個系統都有某個地方的瓶頸。 在這種情況下,我們可以很容易地使 CPU 飽和,因此服務器內的 x86 就成為門控因素。 如果我們談論的是集群解決方案,那麼我們還將固定網絡。 少數 SSD 可以輕鬆填充 200GbE 甚至 400GbE。 隨著 SSD 容量現已突破 30.72TB,服務器也不再需要裝滿驅動器來解決系統容量問題。
如果您閱讀我們的 Broadcom 9600 系列 RAID 卡評測, 我們一開始非常懷疑新芯片能否真正提供 HWRAID 的所有數據彈性和重建優勢,而不會削弱 NVMe SSD 的性能配置。 我們對該評測的結果感到驚喜,在這裡更是如此,PERC 12 能夠在 R760 中加倍,獲得兩倍的頂級性能。 雖然戴爾直接驅動器在許多使用案例(例如軟件定義存儲)中可能仍然是首選,但 PERC 12 選項對於大多數企業使用案例來說應該非常受歡迎。
參與 StorageReview
電子通訊 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | 的TikTok | RSS訂閱