NVIDIA Spectrum-X 包含自適應路由,以阻止碰撞流並最佳化頻寬利用率。
人工智慧工廠需要的不僅是高效能的運算結構才能高效運作。雖然東西向網路在連接 GPU 方面發揮關鍵作用,但負責連接高速儲存陣列的儲存結構也同樣重要。儲存效能顯著影響多個 AI 生命週期階段,包括訓練檢查點和推理技術,例如檢索增強生成 (RAG)。為了滿足這些需求,NVIDIA 及其儲存生態系統擴展了 NVIDIA Spectrum-X 網路平台,以增強儲存結構效能,從而加快 AI 洞察的時間。
了解 AI 集群中的網路衝突
當多個資料包試圖同時穿越同一條網路路徑時,就會發生網路衝突,導致幹擾、延遲,有時甚至需要重新傳輸。在大規模 AI 叢集中,當 GPU 滿載或資料密集型操作流量龐大時,更容易發生此類碰撞。
由於 GPU 同時處理複雜的運算,網路資源可能會飽和,導致通訊瓶頸。 Spectrum-X 旨在透過自動和動態地重新路由流量和管理擁塞來解決這些問題,確保關鍵資料流不間斷,而無需實施 Meta 的增強型 ECMP(在 LLAMA 3 論文.
使用 Spectrum-X 優化儲存效能
NVIDIA Spectrum-X 引入了自適應路由功能,可緩解流衝突並優化頻寬利用率。與 AI 運算和儲存結構中廣泛使用的乙太網路協定 RoCE v2 相比,Spectrum-X 實現了卓越的儲存效能。測試表明,讀取頻寬提高了 48%,寫入頻寬提高了 41%。這些進步意味著可以更快地執行 AI 工作負載,減少訓練作業的完成時間,並最大限度地減少推理任務的令牌間延遲。
隨著人工智慧工作負載的複雜性不斷增加,儲存解決方案也必須隨之發展。領先的儲存供應商,包括 DDN、VAST Data 和 WEKA,已與 NVIDIA 合作,將 Spectrum-X 整合到他們的儲存解決方案中。此次合作使 AI 儲存結構能夠利用尖端的網路功能,提高效能和可擴充性。
Israel-1 超級電腦:驗證 Spectrum-X 的影響
NVIDIA 建構了 Israel-1 生成式 AI 超級電腦作為測試平台,以在現實場景中優化 Spectrum-X 的效能。 Israel-1 團隊進行了廣泛的基準測試,以評估 Spectrum-X 對儲存網路效能的影響。他們使用靈活 I/O 測試器 (FIO) 基準,對啟用了 Spectrum-X 自適應路由和擁塞控制的標準 RoCE v2 網路配置進行了比較。
測試涵蓋了從 40 到 800 個 GPU 的配置,始終如一地展示了 Spectrum-X 的卓越性能。讀取頻寬提高了 20% 到 48%,而寫入頻寬提高了 9% 到 41%。這些結果與合作夥伴生態系統解決方案中觀察到的效能增強非常一致,進一步驗證了該技術在 AI 儲存結構中的有效性。
儲存網路在 AI 效能中的作用
儲存網路效率對於AI營運至關重要。模型訓練通常需要幾天、幾週甚至幾個月的時間,因此需要定期 檢查點 以防止因係統故障而導致資料遺失。隨著大規模AI模型達到TB級檢查點狀態,高效的儲存網路管理可確保無縫的訓練連續性。
基於 RAG 的推理工作負載進一步強調了高效能儲存結構的重要性。透過將 LLM 與動態知識庫結合,RAG 可提高反應準確性,而無需重新訓練模型。這些知識庫通常儲存在大型向量資料庫中,需要低延遲儲存存取才能保持最佳推理效能,特別是在處理大量查詢的多租戶產生 AI 環境中。
將自適應路由、擁塞控制應用於存儲
Spectrum-X 引入了源自 InfiniBand 的關鍵乙太網路創新,以提高儲存結構效能:
- 自適應路由:Spectrum-X 動態平衡網路流量,以防止在檢查點和資料密集型操作期間發生大流衝突。 Spectrum-4 乙太網路交換器分析即時壅塞數據,為每個資料包選擇最多擁塞的路徑。與傳統乙太網路不同,無序資料包需要重新傳輸,而 Spectrum-X 利用 SuperNIC 和 DPU 在目的地重新排序資料包,確保無縫運行和更高的有效頻寬利用率。
- 擁塞控制: 檢查點 和其他 AI 儲存操作經常導致多對一擁堵,其中多個客戶端嘗試寫入單一儲存節點。 Spectrum-X 透過使用基於硬體的遙測來調節資料注入率來緩解這種情況,防止可能降低網路效能的擁塞熱點。
確保 AI 儲存結構的彈性
大型人工智慧工廠包含廣泛的交換器、電纜和收發器網絡,因此彈性是維持效能的關鍵因素。 Spectrum-X 採用全域自適應路由,在連結故障期間快速重新路由流量,最大限度地減少中斷並保持最佳儲存結構利用率。
與 NVIDIA AI Stack 無縫集成
除了Spectrum-X的硬體創新之外,NVIDIA還提供軟體解決方案來加速AI儲存工作流程。這些包括:
- 英偉達航空:一種基於雲端的模擬工具,用於建模交換器、SuperNIC 和存儲,簡化部署和操作。
- NVIDIA Cumulus Linux:具有內建自動化和 API 支援的網路作業系統,可實現大規模高效管理。
- NVIDIA DOCA:用於SuperNIC和DPU的SDK,提供增強的可程式性和儲存效能。
- NVIDIA NetQ:與交換器遙測整合的即時網路驗證工具,可增強可視性和診斷能力。
- NVIDIA GPU直存:一種直接資料傳輸技術,可優化儲存到 GPU 記憶體的路徑,以提高資料吞吐量。
透過將 Spectrum-X 整合到儲存網路中,NVIDIA 及其合作夥伴正在重新定義 AI 基礎架構的效能。自適應網路、擁塞控制和軟體優化的結合確保 AI 工廠能夠有效擴展,提供更快的洞察並提高營運效率。
參與 StorageReview
電子報 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | 的TikTok | RSS訂閱