首頁 Enterprise 使用 SuperMicro 邊緣服務器進行邊緣推理

使用 SuperMicro 邊緣服務器進行邊緣推理

by 查爾斯·P·杰弗里斯

邊緣服務器通過提供遠離數據中心和雲的計算資源來促進實時決策。 在本文中,我們在 SuperMicro IoT SuperServer SYS-210SE-31A(一種多功能多節點邊緣服務器)上運行多個邊緣基準測試。 顯然,工程師在構思時就考慮到了邊緣推理,因為這個盒子是為推理而生的。

邊緣服務器通過提供遠離數據中心和雲的計算資源來促進實時決策。 在本文中,我們在 SuperMicro IoT SuperServer SYS-210SE-31A(一種多功能多節點邊緣服務器)上運行多個邊緣基準測試。 顯然,工程師們已經 邊緣推理 在構思過程中牢記這一點,因為這個盒子是為推理而生的。

SuperMicro IoT SuperServer SYS-210SE-31A 概述

我們的 全面檢討 SuperMicro IoT SuperServer SYS-210SE-31A 揭示了其在與 PCIe 存儲卡和高速 NIC 配合使用時不僅對 5G 和物聯網而且對零售甚至存儲的承諾。

美超微 IoT SuperServer SYS-210SE-31A

該服務器的多節點特性使其用途廣泛。 它適合三個 CPU 節點,每個節點具有以下內容:

  • 一個第三代英特爾至強可擴展處理器(“Ice Lake”),最高 32C/64T 和 205W,可選配特殊配置的 270W 芯片。
  • 四個風扇模塊。
  • 八個 DIMM 插槽; 內存上限為 2TB,使用 256GB 3DS DIMM。
  • 兩個 M.2 2280/22110 PCIe Gen4 插槽。
  • 4個PCIe Gen16 x4全高/半長和16個PCIe GenXNUMX xXNUMX半高/半長。
  • 一個用於 IMPI 2.0 的 GbE 和一個 KVM 軟件狗。

在這裡您可以看到拉出的節點,就像它們自己的迷你機架式服務器一樣。

Supermicro SuperEdge節點拉出側視圖

這是一個節點的內部。 請注意一切都緊密地結合在一起。

SuperMicro IoT SuperServer SYS-210SE-31A節點

該服務器的主要弱點是存儲,節點內存儲僅限於兩個 M.2 引導驅動器插槽,沒有原生 2.5 英寸或 3.5 英寸托架。 如前所述,您可以相當輕鬆地添加 PCIe 存儲。 網絡存儲也是一種選擇; 其超過 1GbE 的連接性取決於擴展卡。

突出此服務器的邊緣焦點是它能夠在高達 45 攝氏度的環境中運行,並在 55 攝氏度的環境中短暫停留,以及其可用的灰塵過濾器。

邊緣推理:邊緣服務器案例

我們的特色, 得益於新硬件,邊緣推理變得越來越重要,解釋了邊緣計算的狀態。 今天向邊緣的轉變在過去似乎是一種倒退,在過去,分層的“中心輻射”方法是將數據返回到中央位置。 實時決策推動當今向邊緣發展,提供更快的洞察力和響應時間,並減少對網絡連接的依賴。

邊緣推理可以在雲端完成,但通常只適用於非時間敏感、非關鍵的應用程序。 當然,缺乏網絡連接意味著雲是行不通的。

在 SuperMicro IoT SuperServer SYS-210SE-31A 上測試邊緣

現在,進入我們的測試。 GPU 處理數據的能力推動了邊緣推理,而邊緣服務器通常堅持使用單槽、低配置的卡,如 NVIDIA A2 和較舊但流行的 T4。 我們正在評估的 SuperMicro IoT SuperServer SYS-210SE-31A 具有 T4。 下面是兩張牌,右邊是T4,左邊是A2。 每個節點的硬件配置包括 Intel Xeon Gold 6330 CPU 和 128GB DDR4 RAM。

邊緣推理 nvidia a2 和 t4

這是安裝在其中一個 SuperMicro 節點中的 T4。

SuperMicro IoT SuperServer SYS-210SE-31A Nvidia T4

T4 的 70 瓦配置文件意味著它從 PCIe 插槽獲得所有電源。 其圖靈架構具有張量內核,可實現比 CPU 更出色的 FP32、FP16、INT8 和 INT4 精度性能。 NVIDIA A2 具有略低的 40W 至 60W 配置文件,但採用更新、更高效的架構。 查看我們的兩張卡之間的比較 邊緣推理文章 我們在其中對它們進行了測試 聯想 ThinkEdge SE450.

我們正在使用 MLPerf Inference: Edge 基準測試套件,它比較了各種現實世界邊緣場景中流行的 DL 模型的推理性能。 在我們的測試中,我們有 ResNet50 圖像分類模型和用於問答任務的 BERT-Large NLP 模型的數字。 兩者都在 Offline 和 SingleStream 配置中運行。

離線場景以“批處理模式”評估推理性能,此時所有測試數據都立即可用,並且不考慮延遲。 在這個任務中,推理腳本可以按任意順序處理測試數據,目標是最大化每秒的查詢數(QPS=吞吐量)。 QPS 數越高越好。

相比之下,單流配置一次處理一個測試樣本。 一旦對單個輸入執行了推理(在 ResNet50 的情況下,輸入是單個圖像),就會測量延遲,並使下一個樣本可供推理工具使用。 目標是最小化處理每個查詢的延遲; 延遲越低越好。 為簡潔起見,查詢流的第 90 個百分位延遲被捕獲為目標指標。

下圖來自一個 英偉達博客 發布有關 MLPerf 推理 0.5 的帖子,它可以很好地可視化場景。 你可以在原文中閱讀更多關於各種場景的信息 MLPerf 推理論文在這裡.

Nvidia MLPerf 場景

我們測試了在 SuperMicro IoT SuperServer SYS-210SE-31A 內部的兩個節點上運行的工作負載。 第三個節點被設置為備用節點。

基準 節點 1 (NVIDIA T4) 節點 3 (NVIDIA T4)
RestNet50 當前離線 5,587 個樣本/秒 5,492 個樣本/秒
BERT 單流 6.8 毫秒(90th 百分比) 7.0 毫秒(90th 百分比)
BERT 當前離線 397 個樣本/秒 396 個樣本/秒

NVIDIA T4 整體印象深刻。 節點 1 表現出略微更好的性能。 也就是說,T4 是一款較舊的卡,具有比較新的 A2 更高的功率配置文件。 我們看到在 ThinkEdge SE2 中測試 A450,它在某些地方的延遲也比 T4 低,同時使用更少的功率。 應用和功率考慮因素應決定兩者之間的選擇。 不過就目前而言,我們對 Supermicro 機箱可以為這些類型的工作負載提供的密度感到滿意。

最後的思考

邊緣競賽帶來了邊緣計算的快速進步。 沒有比 GPU 更明顯的了,特別是像 NVIDIA T4 和更新的 A2 這樣的低配置、低功耗選項。 我們在 SuperMicro IoT SuperServer SYS-4SE-210A(一種高度通用的三節點邊緣服務器)中測試了 T31。

T4 表現出卓越的性能,考慮到它的年齡,這更令人印象深刻。 不過,它確實比 A2 消耗更多的功率,因此請根據您的邊緣推理需求明智地選擇。 我們預計,隨著邊緣驅動型公司繼續優化 GPU 利用率,備受推崇的 GPU 仍有很長的路要走。

此外,Supermicro 物聯網服務器配備精良,可以處理這些卡,在邊緣提供非常密集的推理性能。

參與 StorageReview

電子通訊 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | Facebook | 的TikTok | RSS訂閱