首頁 企業AI 鎧俠 E1.S SSD 讓 AI 工作流程更有效率

鎧俠 E1.S SSD 讓 AI 工作流程更有效率

by 喬丹拉努斯

儘管圍繞 AI 的密集 GPU 伺服器進行了大量宣傳,但事實是大多數 AI 培訓專案都是從工作站開始的。 儘管我們現在可以將多達四個 NVIDIA A6000 Ada GPU 塞入單一工作站,但更具挑戰性的是在這些 AI 盒子中獲得強大的儲存。 我們思考了這個問題,並提出了一個計劃,最好為一些人工智慧工作站提供高速儲存。 我們與 Supermicro 和 KIOXIA 合作,在一台伺服器中安裝了 24 個 7.68TB XD7P SSD,打造了一款功能強大、具有推理技巧的 1U 儲存伺服器。

儘管圍繞 AI 的密集 GPU 伺服器進行了大量宣傳,但事實是大多數 AI 培訓專案都是從工作站開始的。 儘管我們現在可以將多達四個 NVIDIA A6000 Ada GPU 塞入單一工作站,但更具挑戰性的是在這些 AI 盒子中獲得強大的儲存。 我們思考了這個問題,並提出了一個計劃,最好為一些人工智慧工作站提供高速儲存。 我們與 Supermicro 和 KIOXIA 合作,在一台伺服器中安裝了 24 個 7.68TB XD7P 系列資料中心 NVMe SSD,打造了一款功能強大、具有推理技巧的 1U 儲存伺服器。

我們知道您在想什麼:您打算如何將裝有 E1.S SSD 的伺服器平台、訓練 AI 模型的工作站以及同一儲存伺服器上的推理之間的點連接起來? 允許稍微解釋一下。

人工智慧工作站不需要放在桌子下面

除了少數例外,配備昂貴 GPU 的高功率人工智慧工作站可能不應該分佈在邊緣,甚至不應該分佈在辦公大樓內。 問題有很多。 首先,這些端點面臨安全威脅和資料外洩的高風險,而且重要的是,它們的利用率不足。 由於 LAN 配置不足,大多數人工智慧專業人員無法存取訓練模型所需的大量資料。

另一方面,如果我們將這些強大的工作站放入資料中心,我們現在可以獲得多個好處。 首先,解決了實體安全問題,並且可以透過瘦客戶端或僅推送像素而不是透過線路傳輸資料的存取來緩解遠端存取問題。 在這種情況下,資料駐留在伺服器上而不是工作站上。 其次,資料中心中的這些系統的備份速度即使不是更容易,也更快。 第三,透過智慧配置,我們可以透過與分散式人工智慧員工分享這些系統來提高整個公司的使用率。 最後,在資料中心中,我們可以存取最寶貴的人工智慧資產:資料。

我們在實驗室中配置了三台聯想工作站來完成這項工作。 每個配置都略有不同,同時利用 AMD 和 NVIDIA GPU,提供靈活性,因為某些型號可能在不同的加速器上表現更好。 每個系統都安裝了 NVIDIA ConnectX-6 100GbE 卡,這是確保這些系統快速存取儲存的基礎。 然後,每個系統都連接到 Dell Z9100 100GbE 交換機,儲存服務也連接到該交換器。

部分 工作站 1 工作站 2 工作站 3
型號 聯想P620的 聯想P620的 聯想P5的
中央處理器 AMD 銳龍 Threadripper PRO 5995WX AMD 銳龍 Threadripper PRO 3995WX 英特爾至強 w7-2495X
記憶體應用 128GB DDR4 3200 32GB DDR4 3200 32GB DDR5 4800Mhz
GPU AMD Radeon PRO W7900 英偉達 RTX A6000 英偉達 RTX A4500

使用鎧俠 XD7P 系列 SSD 實現快速 AI 存儲

人工智慧工作站測試平台整理完畢後,我們轉向儲存伺服器。 在本例中,我們使用 美超微儲存 SuperServer SSG-121E-NES24R。 這款 1U 伺服器配備雙 Intel Xeon Platinum 8450H 處理器,具有 28 核心 56 線程,基礎頻率為 2.00 GHz。 8450H 處理器的最高睿頻頻率可達 3.50 GHz,同時具有 75MB 快取和 250W TDP。 512GB DDR5 RAM 的 RAM 佔用空間相對較小。 伺服器使用與工作站相同的 NVIDIA ConnectX-6 100GbE NIC 進行連線。 我們也安裝了 NVIDIA A2 GPU 用於推理。

談到存儲,KIOXIA 向我們發送了 24 個 XD7P 系列資料中心 NVMe SSD。 KIOXIA XD7P 系列 E1.S SSD 專為滿足現代資料中心超大規模應用的需求而設計,特別是開放運算專案 (OCP) 資料中心 NVMe SSD 規格中概述的效能、電源效率和散熱要求。

這些 SSD 有 9.5 毫米和 15 毫米厚度的 E1.S 版本,後者配備散熱器以增強散熱。 KIOXIA 的 XD7P 專有架構包括控制器、韌體和 5th-gen BiCS FLASH™,有助於提高整體效率、可靠性和效能。 新系列提供從 1.92 TB 到 7.68 TB 的容量,以滿足不同的儲存需求。

一些關鍵功能包括斷電保護 (PLP) 和端對端資料保護,這對於在意外斷電的情況下保持資料完整性至關重要。 此外,自加密磁碟機 (SED) 技術的可用性增加了額外的資料安全層。

在性能方面,鎧俠 XD7P 系列 SSD 在不同容量上提供了令人印象深刻的潛在數字。 這些 SSD 的持續連續讀取速度高達 7,200MB/s,連續寫入速度高達 4,800MB/s(對於更大容量),旨在高效處理資料密集型任務。 此外,高達 1,650K IOPS 和 200K IOPS 的持續隨機讀取和寫入速度分別使其適合需要高 I/O 操作的工作負載。

XD7P 利用 E1.S 外形尺寸在性能和密度之間取得獨特的平衡。 這使得新驅動器成為雲端和超大規模資料中心快閃記憶體儲存的前瞻性解決方案,滿足這些嚴苛環境不斷變化的需求。 XD7P 的標準化尺寸和內建散熱器提供了一種有效的方法來容納 24U SuperServer SSG-1E-NES121R 中的 24 個前置驅動器,從而顯著提高伺服器密度。 此外,E1.S 的熱插拔能力,加上其處理高性能工作負載且無需擔心散熱問題的能力,使其成為數據中心中M.2 連接器的實用替代品,並提高了數據中心等存儲解決方案的效率和效能。

XD7P 支援 PCIe Gen4 x4 通道。 此驅動器與 Gen4 或 Gen5 背板配合良好。

鎧俠 XD7P 系列快速規格

容量 GB 7,680 GB 3,840 GB 1,920 GB 7,680 GB 3,840 GB 1,920
基本規格
外形 E1.S 15mm E1.S 9.5mm
介面 PCIe 5.0、NVMe 2.0
閃存類型 BiCS 閃存 TLC
性能(最高)
持續 128 KiB 順序讀取 7,200MB /秒
持續 128 KiB 順序寫入 4,800MB /秒 3,100MB /秒 4,800MB /秒 3,100MB /秒
持續 4 KiB 隨機讀取 1,550K IOPS 1,650K IOPS 1,500K IOPS 1,550K IOPS 1,650K IOPS 1,500K IOPS
持續 4 KiB 隨機寫入 200K IOPS 180K IOPS 95K IOPS 200K IOPS 180K IOPS 95K IOPS
電源要求
電源電壓 12 V±10%
功耗(主動) 20 瓦典型值。 20 瓦典型值。 16 瓦典型值。 20 瓦典型值。 20 瓦典型值。 16 瓦典型值。
功耗(就緒) 5 瓦典型值。
可靠性
平均無故障時間 2,000,000小時內處理。
DWPD 1

KIOXIA XD7P 系列 SSD 的儲存伺服器效能

為了更了解這個組合的效能,我們首先透過內部效能測試對儲存伺服器進行了測試。 在查看儲存伺服器的效能時,我們將重點放在 Ubuntu Linux 中 JBOD 配置的完整原始效能,以表徵儲存的能力。

我們研究了 4K 隨機工作負載的峰值吞吐量,然後研究了 64k 順序工作負載的峰值頻寬。 這些測試是在 Ubuntu 22.04 環境中利用 VDbench 運行的。

工作量 更多內容
64K 順序、64 線程加載 158GB /秒 64.1GB /秒
4K 隨機、512 線程負載 4.09 萬 IOPS,16GB/秒 4.5 萬 IOPS,17.7GB/秒

在我們的實驗設定中,我們決定將 Windows 儲存空間與 SMB3 協定結合使用,以利用高速 KIOXIA 硬碟。 透過利用儲存空間建立彈性鏡像儲存池,我們能夠確保資料完整性並優化 I/O 效能。

SMB3 的增強功能(如多通道功能和持久句柄)允許以高吞吐量將大數據塊直接串流傳輸到多個GPU 工作站,從而繞過通常與速度較慢、受CPU 限制的記憶體相關的傳統瓶頸。 這種設定具有雙重優勢,既可以實現快速資料檢索,同時允許多個工作站同時存取由 KIOXIA 驅動的共用儲存並從中載入資料。

雖然我們先前的測試在沒有安裝檔案系統的情況下測量了 KIOXIA XD7P 系列 SSD 的原始效能,但我們再次檢視了 Windows Server 2022 環境中的效能。 在此設定中,鏡像虛擬磁碟位於大型儲存池上,我們使用 NTFS 檔案系統。

為了確認鏡像磁碟區內的強大效能,我們在伺服器上本地利用了 CrystalDiskMark。 該測試旨在測量 1MB 傳輸大小以及隨機 4K 傳輸速度的順序讀寫效能。 在這裡,對於 64GB 的檔案佔用空間,我們測得讀取速度為 87.4GB/s,寫入速度高達 18.4GB/s。

在本文中,我們正在研究整個人工智慧解決方案的整體功能,因此,雖然這種性能概況令人印象深刻,但鎧俠顯然為我們提供了超出我們需要的功能。 這是一件好事,因為這意味著我們可以輕鬆地擴大人工智慧工作站的數量或向儲存伺服器分配額外的任務,無論是清理和清理我們的資料還是其他任務。

為AI工作站提供充足的高速存儲

我們的 GPU 工作站位於實驗室機架中,透過 100GbE 與我們基於 KIOXIA 的全快閃 1U 檔案伺服器和共享設定聯網,我們開始在實踐中對此進行測試。 在我們的測試設定中,我們選擇從每個工作站到 Dell Z100 9100GbE 交換器的基本單一 100GbE 鏈路,然後使用另一個 100GbE 連結連接回儲存伺服器。

在這裡,我們能夠從 KIOXIA 儲存伺服器的 Windows 檔案共用中測量出令人印象深刻的 11.4GB/s 讀取速度和 11GB/s 寫入速度。

透過連接到人工智慧工作站的這種性能和密度水平將提供巨大的價值。 我們可以共享超過 100GbE 的高效能存儲,而不是嘗試用本地存儲填充 AI 工作站,而容量或多或少是無限的。

GenAI 實踐——LLM 培訓資料集

大型語言模式 (LLM) 是當今 IT 界最受歡迎的學科。 訓練和微調它們是一項艱鉅的任務,需要大量資料集和更大的 GPU 馬力來處理它們。 為了加載一些 GPU 工作站並進行一些真實世界的風格測試,我們轉儲了 2012 年至 2021 年的所有 Reddit 文本提交和評論,並進行了一些調整,以及 斯坦福羊駝訓練資料集,到了 拉瑪模型 用於多次微調嘗試。 目的是評估 LLaMa 模型在處理大規模真實資料集時的效率、準確性和可行性。

在 Windows Server 2022 平台中,24 個 KIOXIA XD7P 系列 SSD 被分組到一個 168TB 池中,然後分組到一個 83.7TB 映像磁碟區中。 然後,該磁碟區透過 100GbE 網路共享,並為三個工作站中的每一個工作站提供檔案共用。 所使用的 Supermicro Superserver 儲存伺服器可以處理填滿整個 84TB 磁碟區的資料大小,而不會影響效能。 目前使用的資料大小為 5.6TB,但該磁碟區可以處理較大的大小。

每個 GPU 工作站的配置略有不同,以提供多樣化的環境。 我們將每台機器視為單獨的開發人員,在共享資料集上使用不同的模型,並且不分發任何訓練。 在這種情況下選擇 Windows 是為了模擬早期的研究或開發場景。

對於我們正在處理的資料規模,我們用於此測試的資料集包括 16,372 個 LLM 訓練資料文件,佔用 3.7TB 磁碟空間,以及另外 8,501 個影像訓練資料文件,佔用 1.9TB。 我們總共處理了 24,873 個文件,總計 5.6TB。 值得注意的是,我們故意限制了資料集的大小,並且沒有利用這些實驗的全部儲存容量; 否則,該專案的培訓或微調過程將會非常耗時。 透過這種配置,所有工作站都能夠共享資料集並將檢查點和分片保存到伺服器以進行協作。

磁碟大小
法學碩士培訓數據 16,372 3.7TB
圖像訓練數據 8,501 1.9TB
總額 24,873 5.6TB

我們兩個實驗的軟體堆疊都是一個簡單的配置,我們依靠 蟒蛇 和適用於 Linux 的 Windows 子系統 (WSL)。 Anaconda 提供了一個強大的環境來管理我們基於 Python 的機器學習庫和依賴項,允許在我們的 GPU 工作站上進行模組化且易於複製的設定。 WSL 有助於彌合 Windows 和基於 Linux 的實用程式之間的差距,提供在我們的 Windows 工作站上無縫運行 Linux 特定資料操作和編排工具的靈活性。 我們可以執行 shell 腳本進行資料預處理,並在統一的工作流程中啟動基於 Python 的訓練作業。 我們選擇這條路線的部分原因不僅是易於配置,而且是為了與我們的混合 GPU 環境提供公平的競爭環境。

在訓練過程中,我們主要觀察到以下幾點:

  1. 資料多樣性:跨越近十年的 Reddit 提交和評論的合併,為模型提供了主題、字典和對話上下文的折衷組合。 這種豐富的多樣性為模型提供了一個全面的平台,以理解和適應隨著時間的推移的各種細微差別、情緒和文化轉變。
  2. 模型可擴展性:處理如此海量的資料是 LLaMa 模型可擴展性的試金石。 我們發現,隨著訓練次數的增加,模型預測和產生相關反應的能力顯著提高,凸顯了其大規模應用的潛力。 大約六次後,過度擬合是一個問題,但不一定是本次測試的問題,因為目標是載入我們的 GPU 和網路共享,而不是建立通用的 LLM 模型。
  3. 資源最佳化:考慮到所需的龐大 GPU 馬力,確保運算資源的高效利用至關重要。 採用動態負載平衡、定期檢查點和動態資料增強技術來確保最佳效能。
  4. 遷移學習效力:將史丹佛羊駝訓練資料集與 Reddit 資料結合使用有助於衡量模型的遷移學習能力。 Alpaca 資料集的固有結構和學術性質,與 Reddit 資料的非正式和多樣化性質並列,構成了令人興奮的挑戰。 結果表明,LLaMa 可以無縫整合不同來源的知識,使其具有多功能性和適應性。
  5. 道德考量:雖然龐大的 Reddit 資料集提供了資訊寶庫,但必須確保排除個人識別資訊,並以合乎道德和負責任的方式使用資料。 需要製定嚴格的資料清理和匿名化流程來發布模型,以維護用戶隱私。

這次演習凸顯了鎧俠高密度硬碟在提高我們的訓練效率方面所扮演的重要角色。 考慮到資料集的巨大規模和模型訓練的迭代性質,儲存速度和容量通常是此類實驗的瓶頸。 借助鎧俠的驅動器,我們可以儲存資料集的多個實例、中間模型權重和數十個微調檢查點。 它們的快速讀寫速度促進了快速資料檢索,使我們能夠並行處理使用不同超參數進行微調的多次迭代,如下所示。

這對於我們尋找最佳工作檢查點至關重要。 由於我們新建造的鎧俠支援的儲存伺服器,我們可以專注於完善模型、調整參數和評估結果,而不是受到儲存限制的限制。 因此,高密度驅動器不僅僅是儲存解決方案,而且是顯著加速我們實驗階段的關鍵資產。 這使得我們能夠更徹底、更有效地探索 LLaMa 模型的潛力,並使我們能夠開發自己的新型捲積神經網路 (CNN)。

對於沒有經驗的人卷積神經網路 (CNN) 是一種專門類型的深度學習架構,主要用於影像處理和電腦視覺任務。 其顯著特徵在於卷積層能夠自動、自適應地從輸入影像中學習特徵的空間層次結構。 與依賴全連接層的傳統神經網路不同,CNN 透過應用卷積濾波器來利用資料的空間結構,以小塊或感受野的形式處理輸入資料。 這使得網路可以透過從更簡單的模式建構來檢測複雜的模式,例如邊緣、紋理和更複雜的結構。 隨著資料深入網絡,這些模式變得更加抽象,使 CNN 能夠分層識別和分類多樣化且通常複雜的視覺實體。

透過多次微調嘗試,該模型展示了其有效處理大量資料集的能力,並強調了其產生相關、上下文感知和細緻的輸出的潛力。 隨著法學碩士不斷受到關注,此類實驗為其實際應用和局限性提供了寶貴的見解,為未來更複雜、以用戶為中心的人工智慧解決方案鋪平了道路。

伺服器推理能力

在同一資料集上執行推理操作提供了簡化的結構,簡化了資料管理的複雜性。 我們的伺服器不僅僅是一個儲存工具,它還可以處理與推理相關的活動,包括資料攝取和準備。

為了測試對更大數據集的推理,我們選擇了一組大約 1Mb 到 20Mb 的天文攝影圖像,並運行了我們正在針對它們開發的新型 CNN。 在我們的場景中,模型被載入到 GPU,然後載入一張圖像或一系列圖像以透過神經網路進行處理。

這是一個比您在標準化相機的電腦視覺物件分類中遇到的更廣泛的儲存佔用設定檔。 儘管如此,它還是說明了該平台效能的靈活性和一致性。 下圖中按大小排序,而不是按載入順序排序(少數異常值除外),讀取時間和寫回時間適當縮放。

請務必記住,該圖按從小到大排序,以說明磁碟機和伺服器的線性效能。 實際運行和資料集是隨機的,因此可能會讀取和寫入一個 1Mb 文件,然後立即讀取和寫入一個 20Mb 文件。 實際處理的類型沒有特定的順序。 讀取時間範圍從 10 毫秒到 25 毫秒,異常值達到 70 毫秒以上的範圍。

下圖說明了以較小偏差寫入類似的線性進程,並顯示了相同檔案的寫入範圍從 12 毫秒到 118 毫秒。


另一個需要記住的重要資訊是,該圖是追蹤三個 GPU 工作站同時運行對相同資料集的推理的聚合結果。 KIOXIA 驅動器能夠為三個 GPU 工作站提供服務並回寫令人印象深刻的 10.5GB,這些工作站針對 1000 個影像的隨機資料集運行推理,不包括模型使用的序列化處理。 整個過程只花了 59.62 秒,即 59 毫秒,讀取和寫回單一影像。

當此設計擴展到多個工作站或 GPU 伺服器時,有多個選項可以提高速度和延遲。 實施 NVIDIA 的 GPUDirect Storage 與 RDMA(遠端直接記憶體存取)協定結合,將有助於將資料從高密度共享儲存直接無縫移動到 GPU 記憶體。 這種方法將有效繞過 CPU 和系統記憶體瓶頸。 透過利用 NVMe over Fabrics 和 NVIDIA 網路設備,大量資料可以近乎即時地預先載入到 GPU 記憶體中。 考慮到法學碩士擁有龐大的數據集和計算需求,這在處理法學碩士時特別有用。 這種功能可以消除對資料快取的需求,並允許多個工作站同時從共用儲存池讀取和提取資料。

最後的思考

解決大型模型的 I/O 瓶頸對於機器學習的持續發展至關重要,尤其是在處理龐大的資料集時。 集中式高速網路共享比傳統本地儲存具有三重優勢。

  • 首先,它無需將大量資料集遷移到單一工作站進行培訓,從而簡化了操作。 這直接解決了可能削弱機器學習專案(尤其是涉及深度學習模型的專案)的 I/O 瓶頸。
  • 其次,透過選擇集中式方法,您可以避免過多甚至無法獲得的本地儲存量壓垮工作站寶貴的 PCIe 通道。 由於採用高速連接,這可以讓更多 GPU 更有效率地並行處理數據,從而使機器學習作業更加精簡、更加敏捷。
  • 第三,中心化儲存本質上帶來了更好的安全措施。 當資料儲存在安全的單一位置時,管理存取控制和實施安全協定變得更加容易,從而降低資料外洩、實體威脅或未經授權的存取的風險。

此外,集中資料可確保提高資料一致性和額外的資料冗餘層。 工作站從單一來源存取最新數據,最大限度地減少因過時或不一致的訓練或微調數據或模型檢查點而導致的結果差異。 這也簡化了資料管理並節省儲存空間。

隨著可擴展性、效率和安全性在人工智慧和機器學習的超音速發展領域變得越來越重要,向鎧俠E1.S 平台等技術提供的集中、密集、高速儲存的轉變提供了一個令人信服的案例。 這不僅對於提高效能至關重要,而且對於資料管理和模型訓練方式的根本轉變也至關重要。

鎧俠 XD7P 系列 E1.S NVMe 資料中心規格表

本報告由鎧俠美國公司贊助。本報告中表達的所有觀點和意見均基於我們對所考慮產品的公正看法。

參與 StorageReview

電子報 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | 的TikTok | RSS訂閱