檢查點對於 AI 模型訓練至關重要,可確保彈性、效率以及從保存的狀態恢復或微調訓練的能力。
檢查點對於 AI 模型訓練至關重要,可確保彈性、效率以及從保存的狀態恢復或微調訓練的能力。然而,現代人工智慧工作負載的需求,以及日益複雜的模型和廣泛的訓練資料集,將儲存推向了極限。
檢查點在人工智慧工作流程中的作用
人工智慧訓練中的檢查點是一個關鍵過程,涉及在訓練期間定期保存模型的完整狀態。此狀態包括模型權重和參數、最佳化器狀態、學習率計畫和訓練元資料。檢查點以特定時間間隔建立訓練過程的全面快照,從而在發生中斷時提供訓練連續性和恢復能力。
檢查點通常以基於迭代的間隔(例如,每千個訓練步驟)進行。現代法學碩士培訓可能持續數週或數月並消耗大量計算資源,在很大程度上依賴這些檢查點作為防止潛在故障的安全網。例如,訓練像 GPT-4 類別這樣的模型可以產生從數百 GB 到多個 TB 的檢查點,具體取決於模型大小和訓練配置。
檢查點的主要目的超越了單純的備份功能。它是訓練彈性的重要機制,能夠在系統故障、斷電或硬體問題時從上次保存的狀態恢復訓練,而不是從頭開始。此外,檢查點對於模型分析非常有價值,它允許研究人員檢查模型在不同訓練階段的演變,並在檢測到表現下降時可能回滾到先前的狀態。
從儲存的角度來看,檢查點期間的寫入模式特別有趣。當觸發檢查點時,系統必須以突發模式寫入大量資料。這創建了一個獨特的 I/O 配置文件,其特徵是在訓練計算期間存儲活動相對較低的時期,然後在檢查點期間進行密集的高頻寬寫入操作。這些寫入操作通常是順序的,並且可以從針對高頻寬順序寫入最佳化的儲存系統中顯著受益。
分散式訓練中的不同平行策略可以顯著影響檢查點行為。這些並行策略會影響訓練期間何時發生檢查點以及對模型的哪些部分進行檢查點。在現代分散式訓練設定中,多個 GPU 可以同時寫入同一層的不同部分,從而創建複雜的 I/O 模式。這種並行寫入功能對於效率至關重要,但需要仔細協調和強大的儲存系統,以處理並發寫入操作,同時保持資料一致性。儲存系統必須能夠有效管理這些同時寫入,因為此過程中的任何瓶頸都可能導致整體訓練延遲。
緩慢的檢查點可能會造成嚴重的訓練瓶頸,因為在將檢查點寫入儲存時整個訓練過程必須暫停。例如,在大規模訓練設定中,如果檢查點每隔幾個小時需要 30 分鐘,可能會導致整個訓練期間累積幾個小時的停機時間。這直接影響訓練效率並增加營運成本,尤其是在運算資源按時間計費的雲端環境中。
透過更快的檢查點,團隊還可以更頻繁地建立檢查點,從而減少發生故障時最大的潛在資料遺失。這使得更積極的訓練方法和更好的實驗迭代週期成為可能。此外,快速的檢查點載入時間有助於更快地試驗不同的訓練配置和模型架構,因為研究人員可以更輕鬆地從先前的狀態恢復以嘗試替代方法。
儲存系統有效處理這些檢查點操作的能力成為整個訓練基礎架構的關鍵因素。可以管理檢查點的突發寫入模式和訓練的持續讀取/寫入操作的高效能儲存解決方案可以顯著影響訓練大型語言模型的總時間和成本。因此,儲存子系統的效能特徵,特別是在處理大量順序寫入和保持一致的高頻寬方面,是設計 LLM 培訓基礎設施時的關鍵考慮因素。
在本報告中,我們希望評估 AI 檢查點的 SSD 效能,在檢查點速度至關重要時評估最新 Gen5 SSD 與市場上最大的 QLC SSD 的優勢,後者可以儲存大量檢查點,這應該會更有利對於正在訓練的模型。
檢查點性能 – 使用 DLIO 進行基準測試
為了評估 Solidigm SSD 在 AI 訓練環境中的實際效能,我們利用了 數據和學習輸入/輸出 (DLIO) 基準測試工具。 DLIO 由阿貢國家實驗室開發,專門用於測試深度學習工作負載中的 I/O 模式。它提供了有關儲存系統如何處理檢查點、資料攝取和模型訓練挑戰的見解。
我們與 DLIO 合作,旨在測量密集檢查點場景下驅動器的吞吐量、延遲和可靠性。雖然此測試是在 61.44TB D5-P5336 上進行的,但初始效能資料顯示 Solidigm D5-P5336 122TB 版本提供了類似的效能設定檔。我們還納入了基於 TLC 的 D7-PS1010 的結果,以展示 PCIe Gen5 在此測試中的優勢。我們選擇這兩個磁碟機來顯示檢查點的兩個角度,一個是最快的檢查點時間,另一個在單一 SSD 上儲存最多的檢查點。
本次工作選擇的平台是執行 Ubuntu 760 LTS 的 Dell PowerEdge R22.04.02。我們使用 2.0 年 13 月 2024 日發布的 DLIO 基準測試版本 XNUMX。我們的系統配置概述如下:
- 2 個英特爾至強金牌 6430(32 核,2.1GHz)
- 16 個 64GB DDR5-4400
- 480GB 戴爾 BOSS 固態硬碟
- 串行電纜 Gen5 JBOF
- 7.68TB Solidigm D7-PS1010
- 61.44TB Solidigm D5-P5336
為了確保我們的基準測試反映真實場景,我們基於 LLAMA 3.1 405B 模型架構進行測試,透過 torch.save() 實作檢查點以擷取模型參數、最佳化器狀態和層狀態。我們的設定模擬了 8 個 GPU 系統,實現了混合平行策略,其中 4 路張量並行和 2 路管道並行處理分佈在 1,636 個 GPU 上。此配置導致檢查點大小為 XNUMX GB,代表現代大型語言模型訓練需求。
我們對 DLIO 檢查點工作負載的測試過程包括將每個磁碟機填入類似的使用率等級。對於 61.44TB Solidigm D5-P5336,每次傳遞包括 33 個檢查點間隔,總計 54TB。較小的 7.68TB D7-PS1010 可以輕鬆容納三個檢查點間隔,總佔用空間為 4.9TB。 D7-PS1010 可以容納一個額外的檢查點,儘管它的利用率略高於我們的預期。
當我們將基於 Gen4 QLC 的 61.44TB D5-P5536 與基於 Gen5 TLC 的 7.68TB D7-PS1010 進行比較時,DLIO 檢查點工作負載產生了有趣的結果。在第一次測試中,隨著驅動器填滿,我們發現兩種 SSD 型號之間的效能差距越來越大。速度更快的 Gen5 PS1010 平均在 464 秒內完成每個檢查點,而 Gen623 P4 需要 5336 秒。在第二和第三遍中,PS579 的差距縮小到 587 秒和 1010 秒,P676 的差距縮小到 680 秒和 5336 秒。
對於希望檢查點間隔盡可能最小的企業來說,基於 TLC 的 Gen5 PS1010 具有最快完成時間的優勢。如果目標是經濟高效地保留許多檢查點,基於 QLC 的 Gen4 P5336 就可以做到這一點。我們測量到,在第二遍和第三遍期間,兩個驅動器之間的平均檢查點時間差異小於 17%。
GPU直接儲存頻寬
雖然 DLIO 在 AI 工作流程中顯示快閃記憶體效能,但工作負載完全基於寫入,直到恢復檢查點。為了更全面地了解 Solidigm D7-PS1010 和 D5-P5336 在 AI 工作負載中的情況,我們使用 GDSIO 進行了讀取頻寬測量。
GPU 直接儲存的工作原理
傳統上,當 GPU 處理儲存在 NVMe 磁碟機上的資料時,資料必須先經過 CPU 和系統內存,然後才能到達 GPU。此過程會引入瓶頸,因為 CPU 成為中間人,增加延遲並消耗寶貴的系統資源。 GPU 直接儲存使 GPU 能夠透過 PCIe 總線直接從儲存裝置存取數據,從而消除了這種低效率。這種直接路徑減少了與資料移動相關的開銷,從而實現更快、更有效率的資料傳輸。
人工智慧工作負載,尤其是涉及深度學習的工作負載,是高度資料密集的。訓練大型神經網路需要處理 TB 級的數據,資料傳輸中的任何延遲都可能導致 GPU 利用率不足和訓練時間更長。 GPU 直接儲存透過確保資料盡快傳輸到 GPU、最大限度地減少空閒時間並最大限度地提高運算效率來解決這一挑戰。
與 DLIO 測試一樣,目標是更好地理解和表徵高速 Gen5 SSD 和高容量 QLC 驅動器之間的差異。並非每個人工智慧工作負載都是相同的,每個驅動器根據需要提供獨特的優勢。
測試配置矩陣
我們在測試平台上使用 NVIDIA L4 系統地測試了以下參數的每種組合:
- 塊大小:1M、128K、64K、16K、8K
- 線程數:128、64、32、16、8、4、1
- 職位數量:16
- 批量大小:16
我們首先關注的是基於 QLC 的 D5-P5336,它在 4.2 IO 深度、使用 1M 傳輸大小時的最高速度為 128GiB/s。增加 IO 深度的優勢在 8 處開始逐漸減弱,此時工作負載開始趨於平穩。
接下來,我們來看看Gen5 PS-1010,它可以在6.2M 區塊大小和1 IO 深度下擴展到128GiB/s。的性能提升。一個顯著的改進在於 4K 區塊大小,在 5336 和 128 的 IO 深度下,PS64 提供的讀取頻寬是 P128 的兩倍。
值得注意的是,這兩款 SSD 均使用 NVIDIA L4 進行測試。雖然 Gen4 D5-P5336 處於或接近其高端,但 H100 等高端型號 NVIDIA GPU 在 D7-PS1010 上表現出了更高的性能。對於某些客戶來說,驅動器的速度是最終的決定因素,而其他客戶則優先考慮整體密度。 固晶 提供解決方案 兩者,以其 QLC 和 TLC SSD 產品。
結論
隨著人工智慧訓練的規模和複雜性不斷激增,底層儲存基礎設施不僅必須跟上步伐,還要確定節奏。我們對兩種截然不同的 SSD 進行的測試說明了將儲存解決方案與特定訓練優先順序保持一致的重要性,例如最小化檢查點延遲或最大化檢查點密度以實現經濟高效的可擴展性。
在我們的評估中,我們使用 DLIO 基準和廣泛的混合平行 LLM 檢查點工作流程在真實的 AI 訓練條件下測試了 Solidigm D5-P5336 (61.44TB) 和 D7-PS1010 (7.68TB)。我們捕獲了反映驅動器填滿時多次運行的檢查點寫入性能的指標,突出顯示了基於 Gen4 QLC 的 D5-P5336 和基於 Gen5 TLC 的 D7-PS1010 之間完成時間的差異。
雖然 D7-PS1010 提供了盡可能最快的檢查點寫入,但 D5-P5336 卻展示了令人信服的成本效益和容量優勢,且效能損失不大。我們透過 NVIDIA L4 GPU 進一步檢查了 GDSIO 的 GPU 直接儲存讀取頻寬。我們發現 Solidigm D5-P5336 在 4.2M 傳輸大小下提供高達 1GiB/s 的讀取頻寬,而 D7-PS1010 則大幅提升至 6.2GiB/s。透過利用更大的 GPU(例如 NVIDIA L40s 或 H100/H200),您會看到更強大的效能。
展望未來,Solidigm D5-P5336 122TB SSD 前所未有的容量將重塑人工智慧訓練和部署。隨著模型大小和檢查點要求不斷激增,這些巨大的驅動器為新的效率和靈活性水平打開了大門,從而實現了以前無法實現的培訓策略。 Solidigm 在大容量 SSD 解決方案方面的領先地位使組織能夠在更少的驅動器上儲存更多資料和檢查點,並幫助其基礎設施面向未來應對下一波 AI 複雜性。
本報告由 Solidigm 贊助。 本報告中表達的所有觀點和意見均基於我們對所考慮產品的公正看法。
參與 StorageReview
電子報 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | 的TikTok | RSS訂閱