首頁 企業 OCP 的超大規模 NVMe 引導 SSD 規範帶來性能、經濟性和效率

OCP 的超大規模 NVMe 引導 SSD 規範帶來性能、經濟性和效率

by 萊爾·史密斯
nvme 引導驅動器

在過去幾年中,圍繞超大規模空間中的啟動驅動器的問題進行了大量討論。 雖然超大規模用戶不想在它們上花太多錢,但他們需要一個基本的最低性能閾值以及其他必要的規格。

在過去幾年中,圍繞超大規模空間中的啟動驅動器的問題進行了大量討論。 雖然超大規模用戶不想在它們上花太多錢,但他們需要一個基本的最低性能閾值以及其他必要的規格。

nvme 引導驅動器

還有一個問題是,誰會真正繼續生產小容量 M.2 NVMe 引導驅動器,因為企業級 SSD 製造商大多退出了這個領域。 Solidigm 的存儲產品組合中沒有現代 M.2 啟動驅動器,三星、鎧俠和美光提供的大多數現代選項由於容量大而存在成本問題。 然後是性能需求。 雖然不是很好,但引導驅動器仍然需要可靠地產生最低限度的結果。

正如您在下圖中所看到的,引導驅動器和數據驅動器的容量都在不斷增長,這意味著組織的支出會增加。

超大規模 NVMe 引導驅動器要求和障礙

在 OCP 峰會上,谷歌和 Meta 代表在演講中討論了這些問題,最重要的是,他們正在做些什麼來解決這些問題。

顯示了一個超大規模啟動 SSD 的示例,表示一天的活動,其中包括 I/O 讀取和寫入以及 TRIM 事務。 最引人注目的是 TRIM 的高吞吐量,它展示了短暫的數據(創建並在不久之後刪除)。 如果設計不當,TRIM 將導致延遲停頓並干擾讀寫流量。 大部分流量也是隨機讀寫。

Hyperscale NVMe Boot 面臨的一些障礙包括:

  • 歸根結底,超大規模工作負載對延遲很敏感,因此持續的性能對於帶來高效的用戶體驗非常重要。
  • 大規模調試也具有挑戰性,因此擁有詳細的監控指標對於預測和檢測故障至關重要。
  • 耐用性對於引導 SSD 非常重要。 在您完成系統(這可能需要一些時間)之後,具有高耐久性的引導驅動器將允許它們在整個產品生命週期中持續使用. 這也將有助於消除維修需求並防止過早磨損。
  • 最重要的是,超大規模客戶非常重視隱私和安全,有時很難滿足所有這些標準。

這是各種各樣的問題,因此如果處理不當,解決這些問題可能是一個複雜的過程。

解決引導驅動器面臨的問題

正如 OCP 背後的主要驅動力和目的一樣,解決這些問題的唯一方法是通過協作和開放規範。 因此,Meta 和 Google 聯手合併需求並創建 超大規模 NMEe 啟動 SSD 規範(1.0 版),標誌著啟動驅動器效率的一個重要里程碑。 它於今年年初提交,可通過 OCP 網站獲取。

這些規範有很多好處。 最終,它使市場能夠更好地了解超大規模企業需要和用於其引導設備的功能,並確保他們在採用 SSD 引導驅動器方面獲得行業一致。 此外,它還為組織提供了管理引導 SSD 的開源工具,從而促成​​了 3rd- 可以滿足所有要求的派對測試套件。

在會議期間,他們還表示有兩種方法可以創建超大規模啟動 SSD。 要么降級企業級 SSD,要么升級消費級 SSD,因為它的要求介於這兩個空間的中間。

啟動台

我們已經開始在我們的 SSD 評論中添加一個啟動台性能部分,這是 OCP 採用的工作負載配置文件,用於衡量專為服務器啟動任務設計的 SSD。 此引導工作負載執行一個相對密集的測試計劃,在測試讀取密集型工作負載序列之前,用寫入完全填充驅動器。

對於每個測試,它執行 32K 隨機讀取異步操作以及 15MiB/s 同步 128k 隨機寫入以及 5MiB/s 同步 128k 隨機寫入/修剪後台工作負載。 該腳本從 4 個作業級別的隨機讀取活動開始,並在其峰值時擴展到 256 個作業。 最終結果是在其高峰運行期間執行的讀取操作。

此基準測試的 OCP 目標是在 60K 讀取 IOPS 下通過/失敗。 我們測試的大多數驅動器都將遠遠超過最低要求,但無論如何結果都具有指導意義。 在我們的測試中最有趣的是,我們能夠使用面向性能的 NVMe SSD 模型遠遠超過 IOPS 閾值,但速度較慢的 SSD 卻不能。 許多較慢的 SSD 型號似乎很容易落入不及格類別,儘管我們確實獲得了 970 EVO Plus 2TB 型號報告較慢的不合格速度。

SSD 讀取IOPS
SK 海力士白金 P41 220,884 IOPS
西數SN850X 219,883 IOPS
Solidigm P44 Pro 211,999 IOPS
毒液8 190,573 IOPS
三星990 Pro 176,677 IOPS
Sabrent火箭4 Plus 162,230 IOPS
三星 970 EVO Plus 2TB 52,005 IOPS
海盜船 MP600 GS 地下城與勇士
Solidigma P41 Plus 地下城與勇士

超大規模工作負載用例示例

在會議期間,他們還比較了兩種不同的驅動器:一種更通用,另一種更符合 OCP 超大規模規範。 總的來說,他們發現後一種驅動器的整體延遲有了顯著改善,這對超大規模空間來說非常重要。

在現實世界中,這意味著在嘗試部署更符合規範的驅動器時,上市時間會明顯縮短。

向前邁進 OCP 超大規模 NVMe 引導 SSD 規格

雖然一些公司之前正在創建自己的超大規模引導驅動器以滿足他們自己的特定需求(以及來自客戶的特定要求),但這些規範並未在行業中共享。 這導致供應商不得不生產自己定制的硬件/固件以滿足客戶的需求。

從那時起我們已經走了很長一段路,正如 OCP 現在所做的那樣 他們的 Hyperscale NVMe Boot SSD 規範 1.0 版正式發布. 這使得系統製造商和 SSD 供應商能夠始終按照一組共同的要求進行調整,同時鼓勵進一步的合作。

OCP 呼籲所有 OEM(即係統製造商)和超大規模廠商加入這一事業,並承諾隨著存儲環境的變化不斷發展和改進規範。

對企業的影響

引導驅動器需求不限於超大規模用例。 M.2 是目前大多數服務器和存儲陣列事實上的引導驅動器標準。 雖然驅動器在大多數情況下不需要做很多事情,但它確實需要可靠、性能稍強並且不比絕對需要的更大(更貴)。 希望我們會看到存儲供應商通過特定於啟動的 SSD 響應這一舉措,以便基礎設施供應商能夠保持一定程度的標準化。

參與 StorageReview

電子報 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | 的TikTok | RSS訂閱