首頁 EnterpriseAI Quantum Myriad:適用於任何工作負載(尤其是人工智慧)的現代架構

Quantum Myriad:適用於任何工作負載(尤其是人工智慧)的現代架構

by 布賴恩·比勒

Quantum Myriad 是一個現代化、靈活的 SDS 平台,能夠處理各種工作負載,包括要求嚴格的 AI 任務。

2023 年,昆騰與 Myriad 推出了全新的現代軟體定義儲存。我們完成了一個 深入探索 Myriad 去年年底,其極其強大且具有彈性的架構給我留下了深刻的印象。 Myriad 的多樣化功能集和協定靈活性將其用例範圍擴展到企業文件共享需求之外。目前沒有比人工智慧更受需求的應用程式了。

量子無數節點緊

人工智慧正在從根本上改變企業格局,為決策帶來新的見解,實現複雜流程的自動化,並為公司與客戶互動和管理營運創造新的方式。以下是人工智慧產生影響的幾個關鍵領域:

自動化:人工智慧透過聊天機器人自動執行日常的、容易出錯的任務,例如資料輸入和客戶支持,甚至找到優化供應鏈管理等複雜流程的方法。這可以節省時間,讓人們專注於更具創造性或策略性的任務。

數據分析:它比人類更快地挖掘大量數據以找到模式和見解。這有助於企業做出更明智的決策、預測市場趨勢並更好地了解客戶。

個人化定制服務:公司利用人工智慧為個人客戶量身定制服務和行銷,例如推薦引擎可以了解用戶喜歡在 Netflix 或 Spotify 上看到的內容。

加強安全性:人工智慧是網路安全領域的重要參與者,有助於立即偵測和回應威脅。它始終保持警惕,掃描任何可疑的東西。

創新:人工智慧透過模擬產品設計、外觀和感覺以及維護的各個方面,幫助開發新產品和服務(從藥物到新材料)來推動創新。它甚至可以在藥物物理試驗之前預測結果。

可擴展性和靈活性的挑戰

傳統儲存系統通常無法有效擴展,而這對於產生和處理大量資料的人工智慧應用至關重要。傳統儲存可能需要大量停機時間或複雜的升級以及網路配置和分配才能增加容量。這在動態人工智慧環境中是不可行的,動態人工智慧環境需要快速可擴展性、零停機時間以及在不損失效能的情況下部署模型。

AI 工作負載也需要高吞吐量 同時低延遲。傳統系統通常配備機械驅動器和過時的網絡,無法滿足這些速度要求,從而導致阻礙人工智慧運作的瓶頸。現代人工智慧從 NVMe 和 GPU 加速等更快的技術中受益匪淺,而這些技術通常與舊系統不相容。

人工智慧應用程式需要來自不同來源的即時數據存取和分析。傳統儲存通常是孤立的,阻礙了資料整合和移動,限制了有效的資料分析和機器學習。遺留管理工具也難以應對人工智慧所需的複雜資料治理和自動分層。

對於人工智慧需求來說,傳統儲存維護和升級成本高昂且效率低下,包括電力、冷卻和空間的高昂營運成本。改造舊系統以支持新技術在經濟上是不可持續的。

人工智慧的蓬勃發展依賴於自動分層、即時分析等現代化儲存功能以及加密等強大的安全措施。遺留系統缺乏這些關鍵功能,而這些功能對於保護人工智慧資料和滿足監管標準至關重要。

現代化資料管理和儲存基礎設施對於利用人工智慧的變革潛力至關重要。針對人工智慧複雜性而設計的下一代儲存解決方案可顯著提高效能、可擴展性和成本效率,從而促進創新應用程式和業務模式。

認識量子無數

Quantum Myriad 是一款高效能、軟體定義的全快閃儲存解決方案,旨在滿足現代應用程式的需求,特別是那些需要高吞吐量和低延遲的應用程式。對於人工智慧、資料科學、視覺特效和動畫來說尤其如此。 Myriad 的雲端原生架構提供靈活性、易於部署以及對系統變更的自動回應,無論是在本地端還是在 AWS 等公有雲環境中。

Myriad 的設計致力於提供一致的低延遲和高頻寬。對於需要閃電般快速的資料處理和即時效能的應用程式來說,這些品質絕對是必備的。

Myriad 的架構高度靈活,可輕鬆適應小型和大型部署。從一個小系統開始,然後發展一個 Myriad 叢集是很容易的。當您添加更多節點時,它會線性擴展,同時仍然保持高效和平衡。

使用 Myriad 管理叢集非常簡單。它具有零點擊儲存擴充功能和用戶友好的管理入口網站等功能,有助於減少對持續管理關注的需求。 Myriad 透過分佈在其節點上的事務性鍵值儲存來保證資料完整性,並在所有可用儲存節點上管理錯誤修正。

Myriad 具有令人印象深刻的網路支援。透過融合乙太網路 (RoCE) 的 RDMA 支援以及透過 BGP 路由與現有網路部署的集成,資料可以輕鬆地流入和流出 Myriad 集群,同時利用先進的網路功能。

Myriad 設計為用戶友好型,只需最少的步驟即可設定和運行或添加額外的共享位置。這使得它非常適合需要快速適應不斷變化的儲存需求的企業,特別是因為該解決方案在標準的現成伺服器上運行。另外,如果您著眼於雲,Myriad 可以與 AWS 等平台很好地配合,這樣您就可以擴展到本地設定之外。

經測試的量子無數配置

測試的 Quantum Myriad 是五個節點的基本配置。每個節點都配備了 15 個 XNUMXTB SSD,整個叢集的快速存取儲存總量非常可觀。這種基本設定允許提供大量資料儲存容量,同時保持高 I/O 操作和快速資料擷取所需的速度——所有這些對於即時處理和人工智慧運算都是至關重要的。儲存節點由 SuperMicro 指定和配置,NVMe 驅動器可從三星輕鬆取得。

經過測試,我們使用了在 5 節點叢集中配置的 Myriad 平台,每個平台都有以下關鍵規格:

  • 配備單一 1010 核心 AMD EPYC CPU 的 Quantum Myriad N64 儲存節點
  • 10 個 15.36TB NVMe TLC
  • 2 個雙端口 100GbE 乙太網路端口

Myriad 的組成部分是負載平衡器節點,部署在所有儲存節點交叉連接的冗餘對中。這些對於管理進出儲存節點的資料流量至關重要。這對負載平衡器確保網路流量在儲存節點之間均勻分佈,防止任何單一節點成為瓶頸。在需要同時進行資料存取和處理的情況下,這在資料存取的速度和可靠性會顯著影響整體系統效能的環境中極為重要。

使用多個節點和負載平衡器可以提高效能並增強系統的可靠性和容錯能力。即使一個節點遇到問題,分配儲存和網路負載也可以使系統繼續有效率地運作。此設定對於維持正常運作時間和確保關鍵業務應用程式中的資料完整性至關重要。

基本配置設計靈活,可根據需要添加更多儲存節點來擴展。您可以透過合併更多節點、使用更密集的 NVMe 驅動器或同時使用這兩種方法來擴充儲存容量。例如,您可以將配備 30TB 硬碟的新儲存節點新增至目前使用 15TB 硬碟的系統,或者可以在現有佔用空間內升級到更密集的磁碟機模組。對於希望看到資料需求成長或經歷可變資料使用模式的企業來說,這種可擴展性至關重要。

Comino GPU Load Gen 伺服器

為了運用 Myriad 系統並產生基準,我們使用了一對 Comino Grando 系統。 Comino Grando 系統是高性能液冷裝置,專為最大限度地提高負載下的 GPU 效率和穩定性而設計。它們特別適合密集的運算任務,例如人工智慧、數據分析和圖形密集應用程式中遇到的任務。以下是我們為此測試配置的關鍵方面的摘要:

格蘭多伺服器 格蘭多工作站
中央處理器 Threadripper Pro W5995WX 線程撕裂者 Pro 3975WX
公羊 RAM 512GB RAM 512GB
GPU 2X NVIDIA A100 2X NVIDIA A100
NIC 4 個 NVIDIA ConnectX 6 200G EN/IB 4 個 NVIDIA ConnectX 6 200G EN/IB
電源供應器 4 個 1600w PSU 3x 1000 SFX-L 電源
儲存應用 2TB NVMe 2TB NVMe

Comino Grando 採用先進的處理器和 GPU 液體冷卻系統,其中包括防滴水連接和大型水分配塊,可有效管理冷卻液流量,即使在高負載下也能保持效能。此設定可提高效能並最大限度地減少噪音。

使用 nvidia-smi top -mp 命令顯示我們系統中的 GPU 和 NIC 映射以及資料必須採取的路徑。這是傳說:

X =系統 = 穿越 PCIe 的連接以及 NUMA 節點之間的 SMP 互連 (例如,QPI/UPI) 
節點 = 穿越 PCIe 的連接以及 NUMA 節點內 PCIe 主橋之間的互連 
PHB = 穿越 PCIe 以及 PCIe 主橋的連接 (通常是CPU) 
PXB = 穿越多個 PCIe 橋接器的連接 (無需遍歷 PCIe 主橋) 
PIX = 連接遍歷於  單一 PCIe 橋接器

從這裡,我們可以看出,我們不希望將 GPU1 與 NIC4 和 NIC5 一起使用以獲得最佳性能,儘管這在我們的綜合測試中發揮的作用有限。

量子千萬AI測試

我們進行了技術分析,以評估 Quantum Myriad 儲存叢集的效能及其對現實世界人工智慧工作負載的影響。我們的分析重點是叢集有效優化資源利用和規模的能力。在整個測試過程中,我們採用了配備 NVIDIA ConnectX-6 200GbE NIC 和雙 NVIDIA A100 GPU 的高階 Comino 機架工作站。這些至關重要,因為它們代表了類似於大型人工智慧專案中可能採用的強大測試環境。

我們利用一個簡單的 shell 腳本來幫助建立 GDS 測試腳本並解析輸出。風格點的 ASCII 藝術

這些測試的主要目的是評估 Quantum Myriad 叢集處理密集 IO 操作的能力,以及它如何適應高容量 GPU 的吞吐量,這對於 AI 運算至關重要。鑑於人工智慧工作負載嚴重依賴資料集的快速處理,儲存解決方案以與 GPU 處理能力相符的速度提供資料的能力直接影響整體系統效率和效能。

我們用於測試的主要工具是 NVIDIA 的 GPUDirect Storage I/O (GDSIO)。 GPUDirect 是一項關鍵技術,旨在提高儲存系統和 GPU 之間的資料傳輸效率,簡化高效能運算、人工智慧和大數據分析中至關重要的工作流程。

該技術可實現從儲存直接到 GPU 記憶體的直接記憶體存取 (DMA),實際上繞過了 CPU。這消除了不必要的資料副本,從而減少了延遲並提高了吞吐量。 GDSIO 是 GPUDirect 的綜合實現,特別適合需要快速處理大型資料集的應用程式。這包括機器學習模型訓練或即時數據分析。它還提供儲存和網路基礎設施的分析和調整回饋。

在儲存基準測試中,GDSIO 在準確評估大量使用 GPU 的環境中儲存解決方案的效能方面發揮著至關重要的作用。透過提供更直接的資料傳輸路徑,GDSIO 允許進行基準測試來衡量儲存系統在支援 GPU 加速應用程式方面的真正潛力。

AI共享配置

登入 Myriad 時,使用者會看到一個儀表板,其中顯示了叢集目前效能和規格的高級概述。使用者可以輕鬆查看遙測數據,例如 IOPS、吞吐量、延遲和使用情況。

將滑鼠懸停在任何圖表上都可以提供非常詳細的性能資訊。

查看檔案系統螢幕,可以直觀地查看目前配置的共享掛載點。

節點頁面很有趣,它顯示了叢集、控制器和負載平衡器的實體圖,以及連接埠活動和 NVMe 驅動器。

按一下任何磁碟機都會顯示主機報告的狀態。

前往“共享”,用戶可以根據需要輕鬆配置共享,並獲取在各種作業系統中安裝它們的說明。

我們與 Quantum 合作為我們的測試設定了專用的 NFS 共用。這些安裝在 /mnt/myriad/

這是透過用戶友好的 Myriad UI 實現的,它提供了簡單的點擊式配置設定。在測試期間,SMB 選項處於早期存取階段,而 NFS 仍然是我們基於 Linux 的工作負載機器的首選協定。

我們的 NFS 掛載點配置為 500TB 空間,但您可以透過擴充檔案系統來使用您需要的任何空間。您可以自由地超額配置儲存而不會受到任何處罰,並且大小沒有硬性限制。當您考慮 Myriad 的資料壓縮時,這變得非常有趣,它從本質上減少了 NVMe SSD 上的資料佔用空間。

每個主機都有一個掛載點,每個 GPU 都有自己的子資料夾,使用自己的 NIC 來避免 NFSv4 限制。

量子無數人工智慧結果與分析

首先,讓我們來看看其中一個 loadgen 運行的整體效能。這個 GPU 儲存視角的範例代表了我們在所有節點/GPU 上可以看到的效能。

IO 類型 IO 大小 (KiB) 吞吐量(GiB/秒) 平均延遲(微秒) 操作
蘭德寫入 1024 2.57 10,087.74 78,820
蘭德瑞德 1024 6.92 2,277.86 209,319
蘭德寫入 4096 3.44 18,193.14 56,616
蘭德瑞德 4096 3.64 6,481.70 73,715
蘭德寫入 4 0.03 2,307.57 237,512
蘭德瑞德 4 0.12 497.05 941,971
1024 2.79 5,609.64 94,017
1024 3.11 5,021.91 95,556
4096 2.77 22,551.26 31,716
4096 3.50 17,875.32 31,871
4 0.08 812.93 580,169
4 0.12 507.34 926,909

測試結果揭示了對 Myriad 在各種 IO 操作和規模上的性能的重要見解。我們的一些發現包括:

  • 小塊和大塊性能: 測試顯示,處理小塊(4 KiB)與大塊(1024 KiB 和 4096 KiB)時,吞吐量和延遲有顯著差異。例如,4096 KiB 的大塊 RANDREAD 操作表現出最高吞吐量,約 9.64 GiB/秒,平均延遲相對較低,為 6,481.70 微秒。這表明機器學習模型訓練中常見的大規模資料處理任務具有出色的效能,其中經常存取大型資料集。
  • GPU飽和能力: 在大塊測試期間實現的吞吐量,特別是 RANDREAD 操作,表明 Myriad 儲存叢集非常有能力在推理檢索類型工作負載中支援 NVIDIA A100 GPU,並在訓練工作負載期間將檢查點卸載到中央位置。鑑於 A100 可以處理用於深度學習的大量數據,高吞吐率對於確保這些 GPU 不會閒置等待數據至關重要,從而最大限度地提高計算效率。
  • 低區塊大小處理: 相反,當檢查 4 KiB 區塊的操作時,我們觀察到操作數量和延遲急劇增加,而吞吐量顯著下降。此場景對於了解發生多個小型文件事務的環境(例如處理大量小查詢的線上事務處理系統或資料庫)中的效能至關重要。

但是等等,還有更多!

重點關注 4K 測試,當我們為 Myriad 加載更多 GPU 時,事情發生了有趣的轉變。正如在發現階段的初始運行中所發現的那樣,由於安裝協議的限制,Myriad 的行為符合預期,但出現了令人驚訝的變化。當我們同時在所有 GPU 上載入 Myriad 時,得益於一些腳本技巧,結果令人印象深刻。 Myriad 同時向所有節點提供基本相同的效能。

4K 檔案大小

以下是 4 次同時運行的 XNUMXK 工作負載的總結:

節點 IO 類型 吞吐量(MiB/秒) 平均延遲(微秒) 操作
1 蘭德瑞德 125.73 497.05 941,971
2 蘭德瑞德 121.29 506.67 907,642
3 蘭德瑞德 128.37 474.73 906,847
4 蘭德瑞德 122.93 487.88 966,441
總隨機讀取 498.31 491.58 3,722,901
1 蘭德寫入 27.08 2,307.57 237,512
2 蘭德寫入 26.88 2,285.62 231,625
3 蘭德寫入 26.10 2,406.89 228,983
4 蘭德寫入 28.27 2,341.65 245,172
總隨機寫入 108.34 2,335.43 943,292
1 123.19 507.34 926,909
2 125.69 511.23 900,136
3 123.90 502.04 945,949
4 123.77 502.36 948,850
總閱讀量 496.54 505.74 3,721,844
1 76.87 812.93 580,169
2 80.17 839.88 551,311
3 78.62 783.24 556,060
4 73.40 811.62 597,226
總寫入量 309.06 811.92 2,284,766

4MB 文件大小

節點 IO 類型 吞吐量(GiB/秒) 平均延遲(微秒) 操作
1 蘭德瑞德 3.44 6,481.70 73,715
2 蘭德瑞德 3.97 6802.17 75,689
3 蘭德瑞德 3.83 6498.16 73,277
4 蘭德瑞德 3.50 6,589.43 70,443
總隨機讀取 14.75 6,593 293,124
1 蘭德寫入 3.44 18,193.14 56,616
2 蘭德寫入 3.4048 19090.38 54,725
3 蘭德寫入 3.4349 18125.25 56,277
4 蘭德寫入 3.5084 17018.30 54,397
總隨機寫入 13.78 18,107 222,015
1 3.50 17,875.32 31,871
2 3.4388 17110.93 31,119
3 3.5133 18124.53 31,096
4 3.3035 17755.53 31,257
總閱讀量 13.75 17,717 125,343
1 2.77 22,551.26 31,716
2 2.8845 23674.69 33,017
3 2.7008 22661.31 30,971
4 2.7719 22798.83 29,519
總寫入量 11.13 22,922 125,223

Quantum Myriad 獨特的儲存架構提供雙重可存取性,有助於 GPU 操作和同時使用者活動,而不會造成效能損失。這在需要同時存取和處理資料的高需求環境中特別有效,類似於人工智慧和機器學習伺服器以及最終用戶分析師訪問的用戶社群。透過支援 GPU 的大數據區塊存取以及其他使用者操作,Myriad 可確保高效的資源利用並防止瓶頸。這對於在即時分析和人工智慧模型訓練等應用中保持高運行速度和資料準確性至關重要。

這裡值得注意的是,Quantum Myriad 的派對技巧在於它能夠熟練地處理多個資料流,而這正是 NFSv4 的限制,而 NFSvXNUMX 在高 GPU 負載下很容易受到影響。該系統先進的資料管理功能可防止這些限制影響 Myriad 平台的整體效能,確保高要求的 GPU 任務不會減慢同一網路上的其他操作。此功能對於需要強大的資料處理能力而不犧牲並發任務效能的行業特別有利,支援所有使用者的無縫工作流程。

現實世界的影響與規模

Quantum Myriad 有潛力輕鬆處理現實世界的應用程式和擴展場景。它以高吞吐量和低延遲處理大塊的能力有利於人工智慧工作負載,包括訓練批量處理大型資料集的深度學習模型。高吞吐量可確保資料無延遲地輸入 GPU,這對於維持高利用率和高效學習至關重要。

另一個重要特徵是可擴展性。我們的測試中 Quantum Myriad 儲存叢集的效能表明它可以有效地支援更大的配置。隨著連接設備(例如,額外的 GPU 或其他高效能運算單元)數量的增加,儲存系統似乎能夠維持高水準的資料傳輸,而不會成為瓶頸。

在我們的測試中,Quantum Myriad 儲存叢集在大塊 RANDREAD 操作期間的效能尤其引人注目。在考慮現代人工智慧和機器學習框架的需求時,這種能力至關重要。

RANDREAD 測試以其龐大的吞吐量展示了 Myriad 快速有效地檢索大量資料的能力。這在推理工作負載的背景下變得尤為重要,其中資料存取的速度直接影響生產環境中人工智慧模型的效能。推理任務通常需要快速存取大型資料集以進行即時決策,因此 Myriad 叢集所展示的高速資料檢索功能極大地受益。例如,在即時影像辨識或驅動自動化系統的複雜決策引擎等應用中,以最小延遲提取大數據區塊的能力可確保推理引擎能夠以最高效率運行,而不會因資料而停滯。

在測試階段,Myriad 展示了在訓練工作負載期間處理檢查點資料的穩健性,這與寫入作業期間叢集的效能同樣重要。訓練現代人工智慧模型,尤其是深度學習網絡,涉及迭代過程,其中檢查點至關重要。這些檢查點代表特定迭代中模型的狀態,需要定期保存,以確保進度不會遺失,並且可以有效微調模型,而無需從頭開始重新訓練。 Myriad 有效地將大型寫入作業卸載到儲存集群,減少 I/O 時間並允許 GPU 專注於運算而不是資料處理。

Myriad 的架構可確保隨著資料需求的擴展,無論是由於資料集大小的增加還是更複雜的模型訓練要求,系統都可以相應地擴展,而不會產生瓶頸、停機或用戶連線遺失。在人工智慧和機器學習工作負載快速發展的時代,這種可擴展性至關重要,需要儲存解決方案能夠滿足當前需求,並能夠適應人工智慧研究和開發即將取得的進步。

結論

Quantum Myriad 儲存叢集在管理多樣化和高要求的 I/O 操作方面表現出卓越的效能。它是適用於傳統業務工作負載和尖端人工智慧應用的多功能解決方案。由於其高吞吐量和低延遲,Myriad 的功能超越了傳統的資料倉儲任務,這對於維持平穩操作和高效資料檢索至關重要。

除了這些常規用途之外,Myriad 強大的效能特徵使其成為滿足 AI 工作流程更密集需求的理想選擇。在這裡,叢集在需要快速資料存取和高速處理的場景中表現出色,這對於訓練複雜的機器學習模型和運行複雜的神經網路至關重要。快速讀寫大量共享資料的能力可以提高GPU利用率,並確保AI運算可以無延遲地進行。

對 Myriad 叢集的全面測試是了解其在將傳統 IT 和業務需求與人工智慧研究和開發的高要求相結合的環境中的可擴展性和效能的重要基準。結果凸顯了 Myriad 的技術實力及其促進高風險人工智慧應用和機器學習專案的潛力,強調了其在廣泛的運算任務中的適應性和效率。這些功能證實了 Myriad 作為支援企業滿足當前需求和未來技術前景的基礎技術的角色。

量子無數產品頁面

本報告由量子贊助。 本報告中所表達的所有觀點和意見均基於我們對所考慮產品的公正看法。

參與 StorageReview

電子報 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | 的TikTok | RSS訂閱