像 DapuStore Haishen5 H5100 這樣的高效能 SSD 對於 AI 和 HPC 等高階應用程式至關重要。
數據比以往任何時候都更有價值,因此對高效能、可靠且節能的儲存解決方案的需求至關重要。 DapuStor Haishen5 H5100 E3.S SSD以先進的技術和周到的工程滿足了這些需求。我們對 16 個 H5100 進行了測試,以了解這些現代 Gen5 SSD 的速度和功能。
DapuStor海神5 H5100 E3.S SSD
H5100 以 DapuStor Gen4 SSD 為基礎,代表了儲存效能的重大飛躍。該驅動器利用最新的 Marvell Bravera PCIe Gen5 企業控制器、KIOXIA BiCS8 3D TLC NAND 和定制的 DapuStor 韌體,與 Gen4 同類產品相比,吞吐量提高了一倍。 Haishen14,000 H9,500 的順序讀取速度高達 5 MB/s,寫入速度高達 5100 MB/s,可大幅減少資料存取時間和延遲,這對於 AI 和 HPC 等現代工作負載至關重要。
隨機讀取和寫入IOPS分別高達2.8萬和380萬,而4K隨機讀取延遲小於54微秒,寫入延遲小於8微秒。這些效能增強意味著更快的資料處理、更高的系統回應能力以及處理更密集工作負載的能力,使其成為需要高速資料傳輸和儲存效率的應用程式的理想選擇。
現代資料中心和超大規模企業面臨的不僅是效能挑戰。能源效率變得越來越重要。 KIOXIA BiCS8 3D NAND 和 Marvell Bravera SC5 控制器相結合,可提供高容量和功效。 BiCS8 的垂直堆疊技術可實現高達 32TB 的容量,同時降低功耗。相較之下,Bravera SC5 的動態電源管理和高效能資料處理可確保最佳效能和最低能耗,使其成為要求嚴苛的企業應用的理想選擇。
設計的靈活性也至關重要。隨著新伺服器從 U.2 遷移到 E3.S 和超大規模伺服器,甚至 NVIDIA 也有多種 E1.S 應用程序,SSD 供應商需要支援更廣泛的外形規格。對於 H5100,需要注意的是 DapuStor 支援 Gen2 中的傳統 U.5 外形規格。它們還支援 E3.84.S 和 E7.68.S EDFFF 外形尺寸的 3TB 和 1TB 容量驅動器,與 U.2 驅動器相比,具有多種密度和效率優勢。
DapuStor H5100 的另一個有趣的方面是韌體設計。控制其韌體使 DapuStor 能夠更輕鬆地整合所有驅動器組件的互動方式。這種優勢體現在許多方面,從更嚴格的 QoS 到支援靈活資料放置 (FDP) 等高級功能。如果客戶有標準框架之外的要求,DapuStor 將針對特定用例自訂磁碟機韌體。可自訂的功能包括韌體調整、安全設定、效能調整和電源管理配置。
H5100 SSD 整合了先進的服務品質 (QoS) 功能,可確保各種工作負載的一致性能和資料完整性。這些 QoS 功能使驅動器能夠有效管理 I/O 操作並確定其優先級,即使在苛刻的條件下也能保持低延遲和高吞吐量。
DapuStor H5100 中的 FDP 技術最佳化了磁碟機內的資料管理。 FDP 允許將資料寫入不同的實體空間,從而提高效能、耐用性和整體儲存效率。這項進階功能有助於減少寫入放大並增強驅動器有效處理混合工作負載的能力。雖然目前僅在超大規模領域出現,但 FDP 在 OCP 中正在獲得巨大的發展勢頭,並且由於 FDP 提供的固有耐用性優勢,不久之後就會有更多主流應用程式利用這一優勢。
DapuStor海神5 H5100 SSD規格
規範 | 3.84TB(E3.S) | 7.68TB(E3.S) | 3.84TB(U.2 15毫米) | 7.68TB(U.2 15毫米) | 15.36TB(U.2 15毫米) | 30.72B(U.2 15毫米) | 3.84TB(E1.S) | 7.68TB(E1.S) |
---|---|---|---|---|---|---|---|---|
介面 | ||||||||
讀取帶寬 (128KB) MB/s | 14000 | 14000 | 14000 | 14000 | 14000 | 14000 | 14000 | 14000 |
寫入帶寬 (128KB) MB/s | 6300 | 8800 | 6300 | 8800 | 9500 | 9500 | 4800 | 5000 |
隨機讀取 (4KB) KIOPS | 2800 | 2800 | 2800 | 2800 | 2800 | 2800 | 2800 | 2800 |
隨機寫入 (4KB) KIOPS | 300 | 380 | 300 | 380 | 380 | 380 | 200 | 200 |
4K 隨機延遲(典型值)RW µs | 57/8 | 54/8 | 56/8 | 54/8 | 54/8 | 54/8 | 57/8 | 54/8 |
4K 順序延遲(典型值)RW µs | ||||||||
典型功率(W) | 18 | 18 | 18 | 19 | 19 | 19 | 17.5 | 17.5 |
閒置功率 (W) | 7 | 7 | 7 | 5 | 5 | 5 | 7 | 7 |
閃光燈類型 | ||||||||
耐力 | ||||||||
平均無故障時間 | ||||||||
UBER | ||||||||
商品保修條款 |
績效結果
為了更了解 DapuStor Haishen5 H5100 E3.S SSD 的效能,我們在 Supermicro 儲存伺服器中測試了 16 個 7.68TB 硬碟。 Supermicro Storage A+ ASG-1115S-NE316R 是一款適用於資料密集應用的高效能 1U 機架式伺服器。它支援 16 個熱插拔 E3.S NVMe 驅動器,使其成為這些 SSD 的理想測試平台。此伺服器由單一 AMD EPYC 9634 84 核心 CPU 和 384GB DDR5 ECC 記憶體提供支援。
我們使用Graid解決方案來聚合DapuStor SSD。 Grad 將寫入奇偶校驗運算工作卸載到 GPU,進而為其他程序釋放系統資源。對於 PCIe Gen4/5 平台,Graid 目前使用 NVIDIA A2000 GPU。在大多數平台上,帶有主動空氣冷卻器的庫存雙寬卡就足夠了。然而,在這個帶有兩個單寬插槽的 Supermicro 1U 平台中,Graid 有一個解決方案。他們有 NVIDIA A2000 的修改版本,帶有薄型被動冷卻器,允許其在有氣流的伺服器平台上使用,但沒有空間容納類似於較厚 GPU 的東西。
借助 Graid,我們將儲存聚合到一個大型 RAID5 池中,組合 16 個 7.68TB DapuStor Haishen5 H5100 E3.S SSD 建立一個 105TB 磁碟區。 Graid 的預設卷條帶大小為 4KB。雖然 JBOD 快閃記憶體效能可以提供更高的效能,但如果任何 SSD 發生故障,則存在全部資料遺失的風險。 RAID 解決方案可防止磁碟機遺失事件,並且是此測試場景的更好選擇。
在大型 HW RAID16 Graid 組中使用 5 個 DapuStor Haishen5100 H5 PCIe Gen5 SSD,我們從峰值頻寬和峰值 I/O 測試開始。這對客戶來說是一個重要的考慮因素。奇偶校驗保護對於防止磁碟機故障時遺失資料至關重要。然而,必須避免引入太多可能限制系統效能的開銷。
查看針對 1MB 資料傳輸大小的峰值讀取頻寬,我們見證了該 RAID 群組令人難以置信的 205GB/s。對於 12.8 磁碟機 RAID16 組來說,每個磁碟機的速度為 5GB/s。在順序寫入中,我們測得總計 105GB/s,或每個 SSD 6.6GB/s。這些數據接近 SSD 14GB/s 讀取和 8.8GB/s 寫入的規格表數字。
We 查看 4K 隨機傳輸速度 測量峰值吞吐量. 4K 隨機讀取最高為 18.1M IOPS 和 74.3GB/s,而 4K 隨機寫入為 1.873M IOPS 和 7.7GB/s。
峰值吞吐量和頻寬 |
DapuStor 7.68TB x 16 硬體 RAID 吞吐量 | DapuStor 7.68TB x 16HW RAID 頻寬 | DapuStor 7.68TB x 16HW RAID 延遲 |
1MB 順序讀取 (84T/16Q) | 129k IOPS | 205GB /秒 | 6.9ms |
1MB 順序寫入 (84T/16Q) | 100k IOPS | 105GB /秒 | 13.4ms |
4K隨機讀取(84T/32Q) | 12.8 萬次 IOPS | 52.4GB /秒 | 0.21ms |
4K隨機讀取(84T/256Q) | 18.1 萬次 IOPS | 74.3GB /秒 | 1.184ms |
4K隨機寫入(84T/32Q) | 1.873 萬次 IOPS | 7.7GB /秒 | 0.717ms |
雖然靜態讀取或寫入測試在測量峰值頻寬或吞吐量時很重要,但跨各種區塊大小的混合 I/O 效能顯示了儲存在更傳統的用例中的效能。
我們從 4K 區塊大小開始,讀取百分比範圍在 70% 到 90% 之間。將 70% 讀取、30% 寫入隨機工作負載應用於 DapuStor Haishen5 H5100 16 SSD RAID 群組時,我們測得吞吐量為 4.173M IOPS 和 17.1GB/s。同時保持平均延遲僅 0.644 毫秒。將讀取混合增加到 80%,吞吐量增加到 5.762M IOPS 和 23.6GB/s。在 90% 的讀取混合度下,效能繼續擴展到 7.36M IOPS 和 30.1GB/s。
混合 4K 隨機吞吐量和頻寬 |
DapuStor 7.68TB x 16HW RAID 吞吐量 | DapuStor 7.68TB x 16HW RAID 頻寬 | DapuStor 7.68TB x 16HW RAID 延遲 |
4K 隨機 70/30 (84T/32Q) | 4.173 萬次 IOPS | 17.1GB /秒 | 0.644ms |
4K 隨機 80/20 (84T/32Q) | 5.762 萬次 IOPS | 23.6GB /秒 | 0.466ms |
4K 隨機 90/10 (84T/32Q) | 7.360 萬次 IOPS | 30.1GB /秒 | 0.365ms |
當區塊大小增加到 8K 時,我們更接近傳統資料庫和 OLTP 工作負載。在這裡,16 Gen5 SSD HW RAID 組繼續以其令人難以置信的性能給我們留下了深刻的印象。在 70% 的讀取混合情況下,我們測得 2.956M IOPS 或 24.3GB/s。在 80% 的讀取混合度下,吞吐量增加到 4.024M IOPS,頻寬增加到 33GB/s。在 90% 的讀取混合情況下,我們以 5.939GB/s 的速度測得了 48.7M IOPS,平均延遲僅為 0.452 毫秒。
混合 8K 隨機吞吐量和頻寬 |
DapuStor 7.68TB x 16 硬體 RAID 吞吐量 | DapuStor 7.68TB x 16 硬體 RAID 頻寬 | DapuStor 7.68TB x 16 HW RAID 延遲 |
8K 隨機 70/30 (84T/32Q) | 2.956 萬次 IOPS | 24.3GB /秒 | 0.909ms |
8K 隨機 80/20 (84T/32Q) | 4.024 萬次 IOPS | 33GB /秒 | 0.668ms |
8K 隨機 90/10 (84T/32Q) | 5.939 萬次 IOPS | 48.7GB /秒 | 0.452ms |
16K 區塊大小在我們的隨機工作負載測試中獲得了最佳結果。透過 GPU 加速的硬體 RAID 將 16 個 H5100 Gen5 SSD 整合到 RAID5 中,我們可以提高平台的可用頻寬。從 70% 的讀取混合開始,我們測得 1.938M IOPS 和 31.7GB/s。讀取 80% 時,IOPS 增加到 2.484M,每秒 40.6GB,平均延遲接近 1 毫秒。在 90% 讀取峰值時,儲存陣列能夠測量到 3.63M IOPS 和 59.4GB/s 的總頻寬,考慮到這是隨機 I/O 存取陣列,這是一個令人難以置信的數字。
混合 16K 隨機吞吐量和頻寬 |
DapuStor 7.68TB x 16 硬體 RAID 吞吐量 | DapuStor 7.68TB x 16 硬體 RAID 頻寬 | DapuStor 7.68TB x 16 HW RAID 延遲 |
16K 隨機 70/30 (84T/32Q) | 1.938 萬次 IOPS | 31.7GB /秒 | 1.386ms |
16K 隨機 80/20 (84T/32Q) | 2.484 萬次 IOPS | 40.6GB /秒 | 1.082ms |
16K 隨機 90/10 (84T/32Q) | 3.630 萬次 IOPS | 59.4GB /秒 | 0.740ms |
結論
像 DapuStore Haishen5 H5100 這樣的高效能 SSD 對於進階應用程式至關重要。在人工智慧和機器學習中,這些 SSD 可加速資料處理,從而實現更快的模型訓練和即時分析。對於大數據分析,它們可確保快速資料檢索和分析,支援明智的商業決策。在高頻交易中,它們提供所需的低延遲和高速交易。此外,海神5 H5100 E3.S還為虛擬化和雲端運算提供一致、快速的資料訪問,這對於維護高效、可靠的虛擬化環境至關重要。幾乎每個用例都可以從 Gen5 SSD 提供的顯著效能和效率提升中受益。
在我們的測試中,H5100 SSD 在我們的密集 1U 伺服器中提供了令人難以置信的效能。它是適用於各種高效能應用程式的多功能解決方案,可幫助企業滿足不斷變化的資料儲存需求。我們透過 Graid SupremeRAID 設定專注於 GPU 加速的硬體 RAID 效能。這使我們能夠保持該伺服器中 16 個 PCIe Gen5 SSD 的強大效能,而不會影響 JBOD 或 RAID0 配置的儲存完整性。該設定具有令人難以置信的 205GB/s 讀取和 105GB/s 寫入順序頻寬以及 1MB 傳輸大小等亮點。隨機 I/O 性能也很強勁,在 18.1K 傳輸測試中測得令人印象深刻的 1.9M IOPS 讀取和 4M IOPS 寫入。
與內建效能一樣令人興奮的是透過網路共享資料的潛力。雖然現在還處於早期階段,但我們正在嘗試使用此 DapuStor 設定和 Broadcom 400GbE OCP NIC。透過 1U 機箱中的兩個 NIC,我們預計將實現約 80GB/s 的共享儲存效能。對於 AI 訓練或即時資料視覺化等任務,快速網路和快速儲存是最大化 GPU 利用率的關鍵。我們預計這個令人印象深刻的平台會取得更多進展。
參與 StorageReview
電子通訊 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | 的TikTok | RSS訂閱