眾所周知,創意專業人士、數據科學家和其他使用數據密集型應用程序的人會在他們的工作站上進行大量投資。 並且有充分的理由,這些平台旨在快速執行任務,創造直接的商業價值。 所有這些工作都為存儲帶來了新問題。 要么工作站中沒有足夠快的閃存,要么硬件/軟件的複雜性使其難以為繼。 雖然有多種方法可以解決此問題,但這是解決問題的最簡單方法,使用 30.72TB 企業級閃存和單個 PCIe 插槽。
眾所周知,創意專業人士、數據科學家和其他使用數據密集型應用程序的人會在他們的工作站上進行大量投資。 並且有充分的理由,這些平台旨在快速執行任務,創造直接的商業價值。 所有這些工作都為存儲帶來了新問題。 要么工作站中沒有足夠快的閃存,要么硬件/軟件的複雜性使其難以為繼。 雖然有多種方法可以解決此問題,但這是解決問題的最簡單方法,使用 30.72TB 企業級閃存和單個 PCIe 插槽。
在評估存儲選項時,專業人士並不缺少選擇。 聯想、戴爾、惠普和其他公司的大多數高端產品都包含大量 M.2 插槽以及一些其他 HDD 和 SSD 選項。 不過,M.2 通常很小,在大多數工作站配置器中最高可達 4TB。 雖然您可以將幾個 M.2 放入一個系統中,但許多工作數據集會擴展到這些驅動器之外,這意味著軟件 RAID 解決方案需要發揮作用。
或者,用戶可以部署標準 RAID 卡,但即便如此,大多數工作站設備也沒有配置一堆 2.5 英寸 SSD 托架。 即使他們這樣做了,大多數 RAID 卡也會限制閃存的性能並給系統增加相當多的複雜性。 但是,如果數據彈性至關重要,他們仍然有一席之地。
工作站用戶還可以選擇網絡附加存儲,或者如果他們喜歡冒險並且有 IT 支持,他們可以放入光纖通道卡以獲得與陣列的低延遲連接。 NAS 顯然可以通過網絡提供“無限”存儲,但性能無法與本地 NVMe 相提並論。 將大量存儲從全閃存陣列專用於桌面用戶還有成本方面的問題。 雖然 FC 在某些情況下絕對可行,但仍存在物理佈線支持問題需要解決,而且許多桌面並不位於 FC 交換機通常所在的數據中心內或附近。
隨著我們最近看到的 AMD Threadripper 系統系列進入實驗室,我們決定探索替代選項,以了解本地企業 SSD 在現代高級工作站中的易用性和可靠性。
聯想 ThinkStation P620 + Solidigm P5316 30.72TB SSD
聯想ThinkStation P620 是首批 AMD Threadripper 平台之一,去年夏天進行了更新,支持 AMD Ryzen Threadripper PRO 5995WX 處理器。 這種芯片是專業人士的夢想,提供多達 64 個內核和 128 個線程。 P620 還支持多達兩個 NVIDIA A6000 GPU,這意味著它可以隨時投入工作。
即使擁有所有這些功能,P620 仍具有幾乎所有工作站中常見的驅動器支持的典型混雜,並且每個選項都帶有上文所述的某種程度的妥協。 我們選擇了一個非常簡單的解決方案 20 美元的 PCIe 適配卡 和 固力P5316 30.72TB 固態硬盤。 公平地說,這些驅動器的數量為 3000 美元左右。 也就是說,使用單個 A6000 構建的 Threadripper 往往徘徊在 15 美元左右,因此對某些人來說,合理的存儲投資可能是必要的。
遺憾的是,大部分高端工作站尚未找到採用企業級閃存的好方法。 升級到企業級 SSD 時的一個主要問題是冷卻,這是一個合理的問題。 企業 SSD 的功耗遠高於典型的客戶端驅動器,這意味著更多的熱量。 如果不處理熱量,驅動器將降低性能以保持在線狀態。 不過那是最好的情況; 如果不考慮適當的冷卻,我們會看到驅動器經常消失。
在我們見過的每個 Threadripper 系統中,冷卻都是系統設計中的核心租戶。 聯想提供了冷卻風扇速度的步進,用戶將希望在兩個 GPU 都在工作或長時間進行大量計算的情況下使用這些步進。 那時我們很好奇; 如果我們將企業級 SSD 放入 P620 並讓它在周末運行,會發生什麼?
500 億 Pi 以後
在此測試中,我們著重於 Pi 計算,因為它往往會對 CPU 和我們新添加的存儲產生很大的組合影響。 我們將 y-cruncher 設置為計算 Pi 的 500 億個位置,根據之前的運行,我們預計需要大約一天的不間斷工作。 我們認為這足以讓驅動器處於足夠的工作狀態,從而使 P620 冷卻或不冷卻它的能力變得明顯。
42 小時 8 分鐘後,我們完成了 Pi 計算。 順便說一句,時間是相當可觀的; 我們在雙處理器 AMD Genoa 機器上運行此計算的最快服務器不到 XNUMX 小時。 對於 AMD 芯片的單處理器 Threadripper 版本,大約一天是相當可觀的。
但重要的是,該驅動器從未接近熱節流。 在其峰值時,我們保持在 50C 以下,遠低於規格表上的 70C 限制。
最後的思考
除了 Pi 計算之外,還有一些關鍵要點值得注意。 首先,在整體系統構建方面,我們在工作站中添加了一個企業級 SSD,佔用一個插槽。 這為我們的系統中的 A6000 留出了空間,如果用例需要,還可以再加一個。 或者,如果需要大量容量,您可以插入多個 SSD。
其次,我們的解決方案簡單且廣泛兼容。 除了 PCIe sled 之外,不需要額外的硬件,Windows 或 Linux 會將其視為單個驅動器,這意味著不需要軟件 RAID 或其他組件。 這是一個重要的注意事項,我們正在處理對它們進行物質投資的工作站,並且系統需要在線並努力提供投資回報。
最後,單個 SSD 的本機性能將比網絡存儲選項更快。 對於以太網,您需要 100GbE 連接才能超過本地 NVMe Gen4 讀取性能的速度,而光纖通道則需要兩個以上的 32Gb 鏈路。 這些共享存儲選項還存在成本和距離問題,僅在基礎設施成本上可能會超過本地 QLC 閃存的成本。
我們在這裡沒有涵蓋大量新領域,工作站 PCIe 插槽長期以來一直是為系統提供更多存儲空間的方式。 也就是說,它通常與 M.2 SSD 搭配使用,後者在向系統提供存儲所需的容量、耐用性和復雜性方面有所妥協。 並非每個工作站都需要 30 TB 或更多的快速、簡單的存儲空間。 儘管如此,對於那些這樣做的人,我們對最新工作站(如 P620)處理冷卻要求以適當地保持這些 SSD 的能力印象深刻。
參與 StorageReview
電子通訊 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | 的TikTok | RSS訂閱