將液體冷卻與高效的 SSD 管理相結合,為尋求擴展效能和儲存密度的資料中心提供了一條前進之路。
隨著資料中心努力提高能源效率,特別是滿足人工智慧工作負載的需求,許多資料中心正在轉向液體冷卻來優化效能和管理能源消耗。液體冷卻可以有效管理高效能伺服器產生的熱量,使它們能夠以峰值容量運行,而無需承擔與傳統空氣冷卻相關的能源密集型成本。 Solidigm 的高密度 SSD 非常適合這些環境,提供卓越的 TB 至瓦效率。
雖然人工智慧迫使許多資料中心營運商考慮液體冷卻,但其影響範圍更廣。在先前的報告中,我們研究了 液體冷卻效果 在 2U Dell PowerEdge R760 上。 CoolIT 的直接液體冷卻 (DLC) 透過降低風扇速度顯著降低了伺服器能耗,節省了 200 瓦的功率。該測試完全以 CPU 效能為中心;這次,我們希望從更以儲存為中心的角度來了解 SSD 對伺服器功耗的影響。
什麼是 NVMe 活動電源狀態?
NVMe 電源狀態是預先定義的狀態 NVMe 設備可以轉變為管理功耗和效能。 NVMe 規範允許多達 32 種電源狀態,每種狀態都有最大功耗、進入延遲 (ENLAT)、退出延遲 (EXLAT) 和相對效能值的特性。這些電源狀態分為操作狀態和非操作狀態。操作電源狀態或 P 狀態可讓設備處理 I/O 操作。當設備空閒且不處理 I/O 操作時,使用非操作狀態或 F 狀態。
管理這些電源狀態對於優化 NVMe 設備的電源效率至關重要,尤其是在功耗至關重要的環境中,例如邊緣設備和國際太空站上的 SSD 等專用應用程式。例如,NVMe 規範包括自主電源狀態轉換 (APST) 等功能,該功能允許設備根據當前使用情況和熱條件在電源狀態之間自動轉換。這有助於平衡效能與功耗,確保在遠端或受限環境中可靠運作。運行時 D3 (RTD3) 支援允許設備進入零功耗空閒狀態,從而在設備不使用時進一步節省能源。
當電源效率和熱管理至關重要時,NVMe 電源狀態特別有用。例如,在邊緣設備中,空閒時快速轉換到較低功耗狀態的能力可以顯著降低能耗,這對於在電源可用性有限的遠端或惡劣環境中運行的設備至關重要。這是透過 PCIe 主動狀態電源管理 (ASPM) 等功能以及 L1.1 和 L1.2 等低功耗狀態來實現的,這些功能可將功耗降至最低水平。由於環境有限且受控,管理國際太空站的功率和熱輸出至關重要。 NVMe 電源狀態可協助限制 SSD 的功耗,以管理熱設計功耗 (TDP) 並優化整體能源預算,確保 SSD 高效運作而不會過熱。
在這些特殊環境中,NVMe 電源狀態提供了一種靈活且高效的方式來管理 NVMe 裝置的功耗。透過利用這些狀態,設備可以平衡性能和功效,使其適合從邊緣計算到太空任務的各種應用。根據即時條件動態調整電源狀態的能力確保 NVMe 設備能夠滿足不同環境的不同需求,同時優化能源效率和熱管理。
除了 NVMe 電源狀態之外,複合溫度和接觸溫度的概念在管理新型企業級 SSD 中 NVMe SSD 的熱性能方面也發揮著至關重要的作用。 TouchTemperature代表SSD的外殼溫度。 Solidigm 一直是採用新的更高接觸溫度標準的領導者。例如,Solidigm D5-P5336 的出廠設定觸摸溫度為 80°C。這種較高的接觸溫度限制允許 SSD 以較低的氣流冷卻或在較高的環境溫度下運作。這種靈活性使資料中心能夠優化冷卻策略並改善整體熱管理,從而有可能降低冷卻成本並提高 SSD 的可靠性和使用壽命。
管理 NVMe 活動電源狀態
在執行 Ubuntu 22.04 的 Linux 測試環境中,我們可以使用 NVMe 工具集輪詢驅動器以查看和變更 D5-P5336 的電源狀態。如下所示,驅動器支援狀態 0,1、2 和 0,其中階段 2 限制最少,階段 XNUMX 限制最多。
對於 Solidigm 61.44 TB D5-P5336,PS0 為 25W,PS1 為 15W,PS2 為 10W。驅動器空閒時的功耗約為 5.5W,因此隨著功率模式的每次提升,SSD 用於 NAND 讀寫操作的功率開銷越來越少。寫入操作受到的影響最大,因為寫入 NAND 所消耗的電量比讀取時消耗的電量更多。
檢查 Solidigm D5-P5336 SSD 目前電源狀態的命令如下所示。目前值為 00000000 表示驅動器處於 PS0,即最高 25W 模式。
發出類似的命令來更改電源狀態,最終數字代表您希望 SSD 所處的電源模式。如果您使用電源模式 0 或 5,請變更 —-value= 數字以對應正確的電源模式。
電源狀態對效能的影響
為了測量電源狀態對 Solidigm D5-P5336 61.44TB SSD 的功耗影響和效能影響,我們為 Dell PowerEdge R760 配備了 24 個 SSD。運行 Ubuntu 和 FIO 工作負載產生器,我們可以輕鬆地在所有 SSD 上運行一致的工作負載並動態更新電源模式。
我們在伺服器的 iDRAC9 板載管理系統內使用戴爾的板載電源監控來監控系統層級的電源。
我們專注於順序讀取和寫入頻寬工作負載,在每個磁碟機上使用 128K 區塊大小,然後測量所有 24 個 SSD 的聚合效能。應該指出的是,這種具有 760 個 NVMe 托架的特定 Dell PowerEdge R24 配置利用 PCIe 交換器而不是直連 NVMe 托架。因此,測得的總頻寬在到達驅動器之前使可用 PCIe 交換器通道飽和。與 Soldigim P5536 規格表相比,這會影響我們測量的總讀取效能,但總寫入速度均低於此限制。
總瓦數 | 寫速度 | 讀取 GB/秒 | 瓦 超過基礎 |
瓦/驅動器 (含系統開銷) |
|
---|---|---|---|---|---|
空閒無驅動器 | 462 | - | - | - | - |
安裝的空閒驅動器 | 594 | - | - | 132 | 5.5 |
24x 順序讀取 PS0 | 858 | - | 109GB /秒 | 396 | 16.5 |
24x 順序讀取 PS1 | 858 | - | 105GB /秒 | 396 | 16.5 |
24x 順序讀取 PS2 | 759 | - | 79.8GB /秒 | 297 | 12.375 |
24x 順序寫入 PS0 | 1089 | 82.5GB /秒 | - | 627 | 26.125 |
24x 順序寫入 PS1 | 825 | 34.4GB /秒 | - | 363 | 15.125 |
24x 順序寫入 PS2 | 726 | 17.3GB /秒 | - | 264 | 11 |
回顧我們關於將風冷平台轉換為直接液體冷卻的好處的文章,我們發現 CPU 的性能略有提高,但也節省了 200W 的功耗。在新一波以人工智慧為中心的伺服器中,電源是一種寶貴的商品,這些伺服器經常將所有可用資源專用於 GPU 和高階 CPU。在達到或接近風冷功率預算限制的資料中心中,切換到 DLC 可以購買一個功率預算,允許伺服器在與風冷伺服器相同的功率佔用範圍內填充更多 SSD。
200W 的功率節省對儲存密度有很大幫助;如果您的工作負載面向讀取密集型工作負載,那麼與風冷伺服器相比,液冷伺服器中的儲存佔用空間可以增加一倍,從 12 個 SSD 增加到 24 個 SSD。透過 Solidigm D5-P5336,這款 24 碟伺服器透過液體迴路將儲存容量從 737TB 增加到 1,474TB。如果工作負載寫入量很大,您可以為伺服器配備大約八個以上的 SSD。然而,這些數字是在基本功耗模式下得出的,因此,如果您願意從高端降低一些寫入效能,您可以輕鬆地在伺服器上安裝24 個SSD,以實現寫入繁重的工作負載,但性能會降低。
結論
透過對 Solidigm D5-P5336 SSD 的測試,我們看到了管理 NVMe 電源狀態如何在不顯著影響效能的情況下顯著影響電源效率。希望最大限度提高能源效率的資料中心營運商可以利用這些電源狀態來實現更大的儲存密度或降低營運成本,特別是在電力非常寶貴的以人工智慧為中心的環境中。 Solidigm 的高密度 SSD 在這方面佔據了有利位置,可提供出色的 TB 至瓦效率,尤其是在採用現代液體冷卻技術的情況下。
我們的研究結果表明,即使對電源狀態進行微小的調整也可以顯著節省電量,這在受電源可用性限制的環境中至關重要。優化伺服器的整體功耗可提高儲存密度並支援更永續的資料中心營運。
隨著現代伺服器的極限,特別是在人工智慧驅動的工作負載中,電源管理變得越來越重要。將液體冷卻與高效 SSD 管理選項相結合,為希望在不超出功耗預算的情況下擴展效能和儲存密度的資料中心提供了一條前進之路。
您可以在 OCP 2024 上現場觀看這些技術的完整演示。
本報告由 Solidigm 贊助。 本報告中表達的所有觀點和意見均基於我們對所考慮產品的公正看法。
參與 StorageReview
電子通訊 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | 的TikTok | RSS訂閱