Supermicro X13 SuperBlade 機殼和 GPU 刀鋒是適應性強、穩健的選擇,特別是對於中型 AI 任務。
Supermicro 是刀鋒伺服器技術的先驅,其 SuperBlade 系統證明了這一點。 Supermicro X13 SuperBlade 機箱和刀鋒的推出為支援 GPU 的刀鋒技術以及最新 Emerald Rapids CPU 和 NVIDIA H100 GPU 的整合開啟了新的篇章。這些進步帶來了卓越的處理能力和效率,使 X13 成為各種高端應用的理想選擇。
設計與規格
Supermicro X13 SuperBlade機殼保留了人們熟悉的8U機殼設計,以其高密度和靈活性而聞名。每個機箱支援多達 20 個刀片,最新產品透過整合 Emerald Rapids CPU 和 NVIDIA H100 GPU 顯著增強。這種強大的組合有望提供前所未有的運算能力。此外,該機殼還具有200G InfiniBand和25G乙太網路通信,確保高速資料傳輸和網路效率。
熱門用例:
- 數據分析:憑藉 Emerald Rapids CPU 的先進處理能力和 NVIDIA H100 GPU 的加速運算能力,X13 SuperBlade 非常適合要求嚴格的資料分析任務。這些任務包括即時資料處理和廣泛的資料探勘操作,這在當今資料驅動的世界中變得越來越重要。
- 人工智能與機器學習:X13 SuperBlades 為人工智慧和機器學習模型提供必要的動力,特別是需要大量運算資源的深度學習演算法。
- 高性能計算:科學模擬、醫學研究和工程中的高階運算任務將大大受益於 X13 的增強效能,使其成為高效能運算應用的首選。
- 雲計算:刀片式伺服器密度和效能的提高使其成為雲端服務供應商的理想選擇。它們可以處理許多基於雲端的應用程式和服務,包括那些需要密集虛擬化和容器化的應用程式和服務。
- 網路和通訊:X200 配備 25G InfiniBand 和 13G 乙太網路通信,在高頻寬、低延遲應用中表現出色,適合要求苛刻的網路和通訊任務。由於其外部網絡,SuperBlade 可以充當集線器,為同一機架或資料中心中的傳統非刀鋒伺服器提供 InfiniBand 和乙太網路通訊。
在 Supermicro 提供的測試設備中,我們總共有五個葉片。其中四台配備了單處理器並具有 PCIe 加速器的能力,在我們的例子中,是四台 NVIDIA H100 和一台雙處理器刀片。我們將繼續對計算刀片進行後續審查,這次審查的長度使其包含的內容有點太多。
元件 | 產品描述 |
---|---|
擴展模組 | 1x SBE-820H2-630 |
電源開關 | 6x PWS-3K01A-BR |
風扇 | 2x PWS-DF006-2F |
BBP | 1x AOC-MB-BBP01-P |
CMM | MBM-CMM-6 |
IB開關 | 1x SBM-IBS-H4020 |
EN 開關 | 2x SBM-25G-200 |
刀片配置 |
|
Supermicro X13 GPU SuperBlades
GPU 刀片乍看之下掩蓋了它們的功能,前面有一個進氣口,我們的雙處理器刀片有一些 2.5 英寸 NVMe 托架代替 GPU。
背面有大量令人眼花繚亂的引腳,用於將刀片連接到機箱,承載所有電源和數據。
從內部看,我們可以看到 GPU 刀片中的 m.2 啟動 SSD。
從上面,我們可以看到空氣阻擋導軌。請注意 GPU 刀片和雙 CPU 刀片之間的差異。 GPU 刀片主機板與雙 CPU 相同,但只有背面 I/O 一半。
在前面,我們可以開始看到不同的實作。 GPU刀片具有PCIe轉接卡,而CPU刀片具有U.2 PCIe轉接卡,並且可以在其PCIe插槽中容納各種組件。該機箱旨在透過首先將新鮮空氣吸入 GPU 來實現被動 GPU 的最佳冷卻。
繼續,從機箱背面開始,我們可以看到 PSU 和網路連接。頂部全寬交換器用於 200Gbit NVIDIA Quantum InfiniBand。下面兩個交換器中較大的一個是 25G 以太網,中間的小模組用於機箱管理模組。
Supermicro X13 SuperBlade 機箱管理與部署
將機箱管理模組 (CMM) 整合到美超微的 SuperBlade X13 機殼中可提供一系列優勢,這些優勢不僅限於單一刀片,還涵蓋整個機架,從而提高了資料中心營運的整體效率和可管理性。 CMM 作為集中控制點,簡化了 SuperBlade X13 系統的管理。
用於所有機箱功能的單一管理平台對於刀片機箱等整合平台至關重要。儘管對單個刀片進行電源循環的能力對某些人來說可能很重要,但許多其他功能在日常管理例程中發揮著重要作用。
Supermicro 的 CMM 提供了一個中央著陸點來監控機箱、查看已安裝的刀片以及管理安裝在機箱後部的整合式交換器。這種帶外管理也會引入裝置 IP 位址,因此從該中心位置,您可以輕鬆跳到每個連接的裝置。
每個已安裝刀鋒的管理與獨立 Supermicro 伺服器的管理類似。 BIOS 更新等活動是透過其 BMC 執行的,就像在 之前的實驗。這種集中式方法可以在所有刀片上實現快速部署和一致更新,確保每個組件都使用最新的韌體和設定運行。這種一致性對於維持系統穩定性和效能至關重要,特別是在密集運算環境中,配置差異可能導致效率顯著低。
CMM 在管理 SuperBlade X13 方面的作用擴展到監視和控制整個機架的運作狀況。它監控功耗、冷卻、網路和系統運作狀況,提供機架效能的整體視圖。這種監視對於在潛在問題升級之前識別和解決問題、最大限度地減少停機時間以及保持最佳營運效率至關重要。
CMM 除了管理伺服器刀鋒之外,還透過相同的單一介面處理網路管理。這使得用戶可以輕鬆存取和查看兩個連接交換器的交換器管理螢幕,並顯示其各自的 IP 位址。 CMM 還可以與相鄰系統通訊以進行更大規模的部署,從而提供全面的管理套件。
從本質上講,CMM 將 SuperBlade X13 的管理從一系列單獨的任務轉變為一個有凝聚力的簡化流程。它類似於擁有一個指揮中心,可以簡化每個刀片的管理並增強整個機架的整體性能和可靠性。這種刀片和機架管理方法對硬體管理團隊很有幫助,特別是在可擴展性、可靠性和有效利用時間至關重要的資料中心。
Supermicro SuperBlade SBI-411E-5G – NVIDIA H100 效能
在高效能運算領域,配備 NVIDIA H411 的 SuperBlade SBI-5E-100G 是一款用於分散式訓練和單刀片推理的多功能且強大的工具。當運算需求大幅波動時,例如在管理不同工作負載的資料中心中,這種彈性尤其明顯。
分散式訓練場景
SuperBlade H100 節點在分散式訓練方面表現出色,這對於複雜的 AI 模型至關重要。想像一個場景,在龐大的資料集上訓練大規模神經網路模型。該模型的訓練分佈在多個刀片上,每個刀片都利用 H100 先進 GPU 的強大功能。這種分佈加速了訓練過程,並允許在單一機器上處理更大的模型和不切實際的資料集。
200G InfiniBand 在這裡發揮關鍵作用。其高頻寬、低延遲通訊對於分散式訓練至關重要,而刀片之間快速且有效率的資料交換至關重要。這種連接確保資料和學習參數在所有刀片上一致且快速地同步,從而最大限度地減少大容量資料處理中經常遇到的瓶頸。
實驗室分散式培訓
分散式訓練徹底改變了我們處理大規模機器學習和深度學習任務的方式。資料為王,高效處理海量訓練資料的能力一直是瓶頸。這就是開源庫和強大的硬體(例如具有四個 PCIe GPU 的 Supermicro SuperBlade X13)成為遊戲規則改變者的地方,特別是在透過高速 200G InfiniBand 網路連接時。
TensorFlow 和 PyTorch 等開源程式庫已成為機器學習社群的主要內容,並得到了每個製造商的支援和驗證。它們為開發和擴展機器學習模型提供了強大、靈活且不斷發展的框架。在訓練複雜模型(例如自然語言處理或電腦視覺中使用的模型)時,計算要求可能會非常驚人。這就是 SuperBlade X13 發揮作用的地方。
SuperBlade X13 平台以其高密度運算能力而聞名,使其成為 HPC 環境的絕佳選擇。 SuperBlade X411 採用配備 H5 PCIe GPU 的雙寬半高 SBI-100E-13G 刀片,每個機箱支援多達 10 個風冷 GPU,以及多達 20 個液冷 GPU,可處理巨大的平行處理任務。重要的是,刀片實際上可以隨時重新配置,從而隨著企業人工智慧工作負載的變化而變得極其靈活。
將InfiniBand引入機箱,具有極低的延遲和高吞吐量,有助於資料和模型參數在節點之間不斷穿梭。這種高速網路顯著減少了資料傳輸時間,這通常是分散式系統的瓶頸,特別是在處理大規模資料集和複雜模型架構時。
在此設定上整合開源庫以進行分散式培訓涉及幾個關鍵步驟。首先,我們必須選擇最佳化的容器和函式庫以充分利用 GPU 功能。這包括使用這些函式庫的支援 CUDA 的版本,確保它們可以直接利用 GPU 的處理能力。其次,InfiniBand 必須與 NCCL(NVIDIA Collective Communications Library)結合使用,為集體多 GPU/多節點通訊提供最佳化的通訊例程。
實際上,在該平台上設定分散式訓練任務時,每個節點(在本例中為每個 SuperBlade)運行模型的一部分。由於 InfiniBand 網路的速度和低延遲,模型參數在節點之間即時同步。這種同步對於模型的收斂和準確性至關重要。
TensorRT 與法學碩士
NVIDIA 的 TensorRT 大語言模式 (LLM) 代表了人工智慧和機器學習領域的重大進步。 TensorRT LLM 專為提高效率和速度而設計,是刀鋒伺服器系統生態系統中的關鍵元件,以其在處理複雜人工智慧任務方面的卓越效能而聞名。其設計滿足技術專業人員和 IT 決策者的需求,提供強大的解決方案來處理現代資料中心嚴格的運算要求。
NVIDIA TensorRT LLM 的技術框架旨在充分發揮人工智慧和深度學習的潛力。它旨在優化神經網路推理,使其成為高效能運算環境的理想選擇。 TensorRT LLM 能夠將經過訓練的模型轉換為優化的運行時引擎,從而顯著減少延遲並提高吞吐量,從而實現了顯著的效率。此功能主要有利於刀鋒伺服器系統,其中快速資料處理和最短回應時間至關重要。此外,它與 NVIDIA 廣泛的 GPU 的兼容性增強了其多功能性,使其成為各種 IT 設定中的可擴展解決方案。
NVIDIA TensorRT LLM 的突出特點之一是其分散式訓練能力。在大規模機器學習模型成為常態的環境中,這一點尤其重要。分散式訓練允許 TensorRT LLM 利用多個系統,有效地分配計算負載。這可以顯著減少複雜模型的訓練時間,而不會影響準確性或表現。跨不同節點執行分散式訓練的能力使 TensorRT LLM 能夠高度適應大型組織和研究機構中常見的大型 IT 基礎架構。此外,這種分散式方法有助於處理大量資料集,這是高階人工智慧專案中的常見挑戰,從而實現更強大和更複雜的人工智慧模型開發。
TensorRT LLM 的最佳化和高效能推理功能非常適合刀鋒伺服器的密集、互連特性。透過利用 TensorRT LLM,Blade 系統可以更有效地執行複雜的 AI 模型,從而縮短處理時間並減少延遲。這在即時數據分析和決策至關重要的場景中尤其重要,例如財務建模或醫療診斷。
將 Supermicro SuperBlade 與 TensotRT LLM 跨多個系統的分散式培訓功能和適應性相結合,可以提高技術專業人員和 IT 決策者的資產價值。透過利用這種強大的組合,組織可以有效地處理大型人工智慧項目,確保更快的處理、減少延遲和可擴展的人工智慧部署。為了實現這一點,我們在機箱內使用 Quantum InfiniBand 網路。
使用 MLPerf 進行單刀片推理效能基準測試
GPU 刀片中每個節點 1 個 CPU 到 1 個 GPU 的架構為 AI 和資料分析工作負載提供了潛在的優勢,特別是對於單刀片推理任務。此設計提供均衡的處理能力比例,從而實現 GPU 功能的最佳利用。
為了測試單刀片推理效能,我們運行了 MLPerf 3.1 推理(離線和伺服器)。 BERT(來自 Transformers 的雙向編碼器表示)是一種基於 Transformer 的模型,主要用於自然語言處理任務,例如問答、語言理解和句子分類。 ResNet-50 是一種廣泛用於影像分類任務的捲積神經網路 (CNN) 模型。它是具有 50 層的 ResNet 模型的變體,以其深層架構和高效性能而聞名。
單節點推理 | |
---|---|
ResNet-50 – 離線: | 46,326.6 |
ResNet-50 – 伺服器: | 47,717.4 |
BERT K99 – 離線: | 3,702.4 |
BERT K99 – 伺服器: | 4,564.11 |
- 離線模式:此模式可測量所有資料可同時處理時的系統效能。它類似於批次處理,系統在單一批次中處理大型資料集。對於延遲不是主要問題但吞吐量和效率才是主要問題的場景,此模式至關重要。
- 伺服器模式:相反,伺服器模式在模擬真實世界伺服器環境的場景中評估系統的效能,其中請求一次傳入一個。此模式對延遲敏感,衡量系統回應每個請求的速度。這對於需要立即回應的即時應用程式至關重要,例如在 Web 伺服器或互動式應用程式中。
在推理任務中,GPU 主要負責繁重的運算工作。透過與專用 CPU 配對,系統可確保 GPU 能夠有效運行,而不會受到共享 CPU 或平台資源的瓶頸。這對於即時資料處理場景(例如即時視訊分析或即時語言翻譯)至關重要。
有趣的是,我們觀察到這種 1:1 的 CPU 與 GPU 比率可以提高效能的可預測性。每個節點獨立運行,確保一致的處理時間並減少推理任務的可變性。在反應時間至關重要的環境中,這種可預測性至關重要。
總體而言,SuperBlade H100 中的一對一 GPU 配置最大限度地提高了兩個組件的效率。這確保每個節點為推理任務提供最佳效能,每個節點運行獨立的模型和流程。此架構增強了系統高效可靠地處理即時資料處理需求的能力。
自適應工作負載管理
考慮到所有資訊後,很明顯 SuperBlade 系統具有很強的適應性。在高峰時段,當推理需求較高時,可以動態分配更多支援 GPU 的刀片來處理這些任務,確保高效處理即時請求。相反,在非尖峰時段,這些資源可以轉移到微調人工智慧模型或處理時間敏感度較低的任務。這種靈活性可以實現資源的最佳利用,確保 SuperBlade 系統在管理不同的運算負載時穩健且有效率。
200G的好處 NVIDIA 量子 這些場景中的 InfiniBand
SuperBlade H200 系統中包含 100G InfiniBand 透過提供高速資料傳輸的骨幹來增強這些場景。分散式訓練可以實現刀片間資料的更快同步,這對於保持訓練過程的一致性和速度至關重要。單刀片推理確保大型資料集可以快速移動到刀片進行處理,從而減少延遲並提高吞吐量。
量子 InfiniBand 有何進展?
InfiniBand 是高效能運算的基石,是一種高速互連技術,最初是為了滿足超級運算叢集內不斷增長的資料傳輸和通訊需求而開發的。這種高度專業化的網路解決方案經過多年的發展,提供極低的延遲和高頻寬,使其成為連接 HPC 環境中的伺服器、儲存系統和其他元件的理想選擇。
我們運送的 Supermicro X13 刀片配備了 200G InfiniBand 網路和 25G 乙太網路。這在處理分散式訓練和其他延遲和資料密集型任務時特別有用。經過上述幾個高度可變(且耗時)的訓練週期後,我們確定需要不同的指標來提供隱藏在刀片機殼無數引腳中的 InfiniBand 網路的真實測試指標。由於運行間微調的極端可變性,嘗試量化使用此類多節點系統執行這些任務的影響或缺乏影響是不負責任的。結果出人意料。
Enter NVIDIA 叢集套件。 NVIDIA ClusterKit 是一個工具包,旨在測試多節點 GPU 叢集的全部潛力,為 AI 和 HPC 從業者提供一套有趣的工具來衡量其工作負載的效能、效率和可擴展性。
我們專注於 ClusterKit 中的兩個關鍵工具:
- 頻寬測試:頻寬是 HPC 中的關鍵指標,反映了在給定時間內可以透過網路傳輸的資料量。我們利用 NVIDIA ClusterKit 來測量 Supermicro SuperBlade 設定中節點之間的雙向(雙工)頻寬。雙工測量至關重要,因為它們反映了數據在兩個方向同時流動的現實場景。
- 延遲測試:延遲或訊息從網路中的一個點傳輸到另一個點所需的時間是另一個關鍵的效能指標。低延遲對於緊密耦合的 HPC 應用程式非常重要。 NVIDIA ClusterKit 能夠準確測量雙工延遲,為了解 SuperBlades 上 InfiniBand 網路的回應能力提供了寶貴的見解。
使用 ClusterKit 的 SuperBlade InfiniBand 和 H100 GPU 基準測試結果
進入本節,了解每個節點都由唯一標籤(例如 smci-a7、smci-a1 等)標識非常重要。 -1、-3、-5和-7的表示是主機名,它反映了刀片在機箱中的物理位置。
第一個測試的重點是測量叢集中各個節點之間的雙向頻寬。測試涉及訊息大小8,388,608字節,迭代16次。
GPU 直接測試
首先,我們來看看 GPU Direct 測試。該報告報告了刀片平台的絕對最大吞吐量,利用了撰寫本文時可用的所有最新、最好的 SDK 和工具包。值得注意的是,測試報告的是雙工頻寬,這意味著頻寬是兩個方向的總頻寬。單一方向大約是一半。關鍵的一點是,頻寬的限制因素是 200G InfiniBand,但正如我們稍後將看到的,這並沒有什麼值得擔心的。
下面的矩陣顯示了使用 GPUDirect 的雙向頻寬。
頻寬矩陣 MB/s
等級/節點 | smci-a7 | smci-a1 | smci-a3 | smci-a5 |
---|---|---|---|---|
0 (smci-a7) | 0.0 | 49,221.6 | 49,193.6 | 49,223.6 |
1 (smci-a1) | 49,221.6 | 0.0 | 49,219.5 | 49,142.7 |
2 (smci-a3) | 49,193.6 | 49,219.5 | 0.0 | 49,219.7 |
3 (smci-a5) | 49,223.6 | 49,142.7 | 49,219.7 | 0.0 |
延遲 uSec
接下來是顯著的延遲測試結果,以微秒為單位。 GPU Direct 測試與主機本機有多個 GPU 一樣好。
秩 | smci-a7 | smci-a1 | smci-a3 | smci-a5 |
---|---|---|---|---|
0 (smci-a7) | 0.00 | 1.38 | 1.24 | 1.38 |
1 (smci-a1) | 1.38 | 0.00 | 1.25 | 1.36 |
2 (smci-a3) | 1.24 | 1.25 | 0.00 | 1.32 |
3 (smci-a5) | 1.38 | 1.36 | 1.32 | 0.00 |
GPU 鄰居測試
繼續進行 GPU 鄰居測試,同樣,頻寬以雙工形式報告,這意味著頻寬是兩個方向的總頻寬。單一方向大約是一半。下面的矩陣顯示了雙向頻寬 H100 卡之間 在四個節點中的每一個。這並沒有使用 GPUDirect 函式庫的加速。 1、3、5、7代表的是主機名,反映了刀片在機箱中的實體位置。
GPU 鄰居頻寬 (MB/s)
「GPU 相鄰頻寬」測試可測量相同系統或節點內相鄰 GPU 之間的資料傳輸速率。此指標對於需要在鄰近 GPU 之間頻繁交換資料的應用程式至關重要,例如多 GPU 平行處理任務。頻寬越高,資料傳輸速度越快,從而可能提高 GPU 密集型應用程式的效能。
GPU | 頻寬(MB/秒) |
---|---|
smci-a7 與 smci-a1 | 30,653.9 |
smci-a3 與 smci-a5 | 30,866.7 |
中等 | 30,760.3 |
GPU 顯存頻寬 (MB/s)
「GPU 記憶體頻寬」測試評估 GPU 本身從 GPU 記憶體讀取或儲存資料的速率。此頻寬是一個關鍵的效能方面,特別是對於涉及大型資料集或需要高吞吐量來執行影像處理、模擬或深度學習等任務的應用程式。更高的記憶體頻寬表明 GPU 更能有效地處理大量資料。這項測試向我們表明,X13 Blades 在支援 H100 GPU 方面沒有問題。
GPU | 頻寬 |
---|---|
smci-a7-GPU0 | 55,546.3 |
smci-a1-GPU0 | 55,544.9 |
smci-a3-GPU0 | 55,525.5 |
smci-a5-GPU0 | 55,549.8 |
中等 | 55,541.6 |
GPU 到 GPU 頻寬 (MB/s)
此測試測量不同 GPU 之間的雙向頻寬。這對於涉及分佈在多個 GPU 上的複雜運算的任務至關重要,其中 GPU 之間的資料傳輸速度會顯著影響整體處理時間。高 GPU 到 GPU 頻寬有利於加速多 GPU 工作流程和平行運算任務。
GPU | smci-a7 | smci-a1 | smci-a3 | smci-a5 |
---|---|---|---|---|
smci-a7-GPU0 | 0.0 | 30,719.8 | 30,817.7 | 30,823.8 |
smci-a1-GPU0 | 30,719.8 | 0.0 | 30,710.0 | 30,670.9 |
smci-a3-GPU0 | 30,817.7 | 30,710.0 | 0.0 | 30,835.1 |
smci-a5-GPU0 | 30,823.8 | 30,670.9 | 30,835.1 | 0.0 |
中等 | 30,762.9 |
GPU0 到遠端主機頻寬 (MB/s)
「GPU0 到遠端主機頻寬」測試量化了主 GPU (GPU0) 和遠端主機系統之間的資料傳輸速率。這在分散式運算環境中至關重要,因為資料需要在主 GPU 和網路系統的其他部分之間頻繁移動,從而影響分散式深度學習訓練或遠端伺服器上的資料分析等任務。
GPU | smci-a7 | smci-a1 | smci-a3 | smci-a5 |
---|---|---|---|---|
smci-a7 | 0.0 | 30,804.3 | 30,753.5 | 30,768.1 |
smci-a1 | 30,804.3 | 0.0 | 30,732.9 | 30,679.7 |
smci-a3 | 30,753.5 | 30,732.9 | 0.0 | 30,970.8 |
smci-a5 | 30,768.1 | 30,679.7 | 30,970.8 | 0.0 |
GPU 鄰居延遲(微秒)
「GPU 相鄰延遲」測試測量少量資料從一個 GPU 傳輸到相鄰 GPU 所需的時間。較低的延遲是可取的,特別是在需要即時資料處理或 GPU 之間高速通訊的應用程式中,例如即時渲染或複雜的科學模擬。
GPU | 潛伏 |
---|---|
smci-a7 與 smci-a1 | 11.03 |
smci-a3 與 smci-a5 | 11.01 |
GPU 到遠端主機的延遲(微秒)
「GPU0 到遠端主機延遲」測試測量主 GPU (GPU0) 和遠端主機系統之間的資料通訊延遲。這種延遲是分散式運算環境中的關鍵因素,影響依賴 GPU 和遠端系統之間互動的應用程式的回應能力和效率,例如基於雲端的遊戲或遠端資料處理。
GPU | smci-a7 | smci-a1 | smci-a3 | smci-a5 |
---|---|---|---|---|
smci-a7 | 0.00 | 3.35 | 3.36 | 3.33 |
smci-a1 | 3.35 | 0.00 | 3.41 | 3.37 |
smci-a3 | 3.36 | 3.41 | 0.00 | 3.37 |
smci-a5 | 3.33 | 3.37 | 3.37 | 0.00 |
中等 | 3.37 |
NVIDIA ClusterKit 測試揭示了 Supermicro SuperBlades 上 InfiniBand 網路令人印象深刻的效能指標。雙工頻寬測試顯示出較高的資料傳輸速率,顯示 InfiniBand 功能的有效利用。同樣,延遲測試顯示了最小的延遲,強調了網路適合要求苛刻的 HPC 任務。這意味著該平台的性能與獨立系統相當,並提供更高密度的計算和網絡,所有這些都在統一的解決方案中。
獨立GPU伺服器測試
接下來,我們將 4 個 NVIDIA H100 移到一個 Supermicro 4U AMD EPYC GPU 伺服器 可以同時支援全部 4 個,我們希望測試 GPU 之間的效能和延遲。重要的是要明白,我們只是想了解該伺服器中卡的效能概況,而不進行跨刀片通訊。雖然這款 4U 伺服器在支援的卡片方面非常靈活,但它不具備 Supermicro X13 SuperBlade 機箱提供的極端可組合性。當然,Supermicro 一如既往地為每個應用提供解決方案,包括液冷插槽 GPU。
首先,我們來看看一個平台中 4 個 GPU 的點對點頻寬。
寫入頻寬 (GB/s) – 單向
GPU | 圖形處理器0 | 圖形處理器1 | 圖形處理器2 | 圖形處理器3 |
---|---|---|---|---|
圖形處理器0 | 0.00 | 54.29 | 39.50 | 40.51 |
圖形處理器1 | 54.60 | 0.00 | 40.55 | 40.22 |
圖形處理器2 | 40.60 | 38.73 | 0.00 | 54.03 |
圖形處理器3 | 40.99 | 40.33 | 53.79 | 0.00 |
讀取頻寬 (GB/s) – 單向
GPU | 圖形處理器0 | 圖形處理器1 | 圖形處理器2 | 圖形處理器3 |
---|---|---|---|---|
圖形處理器0 | 0.00 | 53.17 | 39.23 | 35.69 |
圖形處理器1 | 53.70 | 0.00 | 36.96 | 41.02 |
圖形處理器2 | 36.28 | 39.88 | 0.00 | 53.32 |
圖形處理器3 | 40.40 | 37.08 | 53.68 | 0.00 |
這裡要注意的是,GPU0 和 GPU1 GPU 位於一個 NUMA 節點上,GPU2 和 GPU3 位於另一個 NUMA 節點上。您可以在這裡清楚地看到跨 NUMA 節點對效能的影響。
複製引擎 (CE) – 寫入延遲(us)
最後,測量 GPU 之間的延遲。
GPU | 圖形處理器0 | 圖形處理器1 | 圖形處理器2 | 圖形處理器3 |
---|---|---|---|---|
圖形處理器0 | 0.00 | 1.67 | 1.64 | 1.64 |
圖形處理器1 | 1.57 | 0.00 | 1.61 | 1.61 |
圖形處理器2 | 1.66 | 1.69 | 0.00 | 1.65 |
圖形處理器3 | 1.65 | 1.66 | 1.61 | 0.00 |
正如預期的那樣,將所有 GPU 移至單一平台後,我們的頻寬是 Blade 2G IB 連線的 200 倍。這裡的頻寬可能是應用程式的一個考慮因素,但是當談論延遲數字時,以微秒為單位,從平均 1.6us GPU 到 GPU(全部集成在一個機箱中)到僅當刀片伺服器必須遍歷PCIe 總線、 IB 切換並返回GPU 時,只需1.5us 的時間就非常了不起。但那就是 任何監管機構都不批准 完整的故事。
結論
Supermicro X13 SuperBlade 配備 Emerald Rapids CPU 和 NVIDIA H100 GPU,是刀片服務領域的受歡迎的演進。其功能涵蓋各種運算密集任務,使其成為從數據分析到人工智慧和雲端運算等行業的多功能且強大的解決方案。隨著對高效能運算的需求不斷增長,X13 已做好迎接這些挑戰的準備,體現了 Supermicro 對伺服器技術創新和卓越的承諾。
從測試中考慮的所有因素,我們對這個平台特別感興趣,因為它從整體角度來看具有獨特性和高度適應性。將平台的應用置於情境中非常重要。
想像研究部門的場景,您的機架中有 Supermicro X13 Blade 系統,可以發揮所有高運算能力。您可以使用平台內建的集中管理基礎設施來控製刀片和平臺本身,還可以作為控制、連網和管理其他裝置的集線器。將足夠強大的儲存伺服器嵌套連接到 SuperBlade 來為需要數據的 GPU 提供數據,您可以以線速將所有位元攝取到模型中。在這個虛構的場景中,我們可以讓不同的研究人員每天使用我們的所有 GPU,然後當時間到來時,透過 InfiniBand 連接所有刀片並讓它們一起工作。
CPU 與 GPU 一對一關係的頻寬測試還表明,在滿載的刀鋒機箱的情況下,刀鋒系統的效能可以優於附加卡 GPU 的單一伺服器。透過正確設計的分散式訓練工作流程,您可以看到效能本質上與在單一節點中使用所有GPU 一樣好,甚至更好,但現在您獲得的平台可以輕鬆承擔雙重任務,從而將前期GPU 成本減半。由於最新 CPU 的支持,一旦實施,我們期待從 HDR InfiniBand 遷移到 NDR,因為這將使 SuperBlade 的效能超越單一 GPU 伺服器平台所能獲得的效能。
對於那些不斷變化或經常變化的人工智慧需求的人來說,Supermicro X13 SuperBlade 機箱和 GPU 刀片是一個適應性強、穩健的選擇。透過長時間使用該平台,我們遇到了 DRAM、CPU 和 GPU 更改的需求,或者用人工智慧領域的說法,“改天”,所有這些都可以由該平台輕鬆處理。總的來說,該平台是可靠的,是人工智慧領域一個有趣且強大的設備,沒有太多其他要求。考慮到競爭系統的價格點,如果您可以利用刀片的靈活性,這幾乎是無與倫比的。
參與 StorageReview
電子通訊 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | 的TikTok | RSS訂閱