技術按週期發展,目前沒有比強調邊緣 AI 更明顯的周期了。 特別是,我們發現了向邊緣推理的巨大轉變。 NVIDIA 是這一推動的重要組成部分,希望推動其 GPU 在數據中心之外的採用。 儘管如此,事實是企業需要更快地做出更多決策,因此 AI 基礎設施需要更接近數據。
技術按週期發展,目前沒有比強調邊緣 AI 更明顯的周期了。 特別是,我們發現了向邊緣推理的巨大轉變。 NVIDIA 是這一推動的重要組成部分,希望推動其 GPU 在數據中心之外的採用。 儘管如此,事實是企業需要更快地做出更多決策,因此 AI 基礎設施需要更接近數據。
還記得 Hub-and-Spoke 嗎?
在“過去”,我們討論了數據創建方面的邊緣,以及如何通過採用傳統的軸輻式方法快速有效地將數據返回數據中心。 該設計讓位於基於核心、訪問和分佈的分層設計,具有大量冗餘和硬件,其唯一目的是將數據返回到主數據中心。 所有在邊緣收集的數據只是為了傳輸回主數據中心進行處理,然後推回邊緣設備,事實證明效率低下、成本高且耗時。
因此,也許這種軸輻式設計畢竟還算不錯。 隨著人工智能在邊緣提供更多智能的推動以及雲計算的顛覆,設計似乎正在顯著影響網絡設計、邊緣部署和數據處理位置。 事實上,今年的 HPE發現 如果您只是將核心換成雲,那麼會議的標語在雲熱潮之前的任何一年都會非常熟悉,“邊緣到雲會議”。
躍上邊緣勢頭
HPE 並不是唯一一家意識到邊緣到雲計算對行業的重要性的供應商,Dell Technologies 在 Dell Technologies World 活動中也講述了類似的故事。 IBM、聯想、NetApp 和 Supermicro 也一直表示需要在邊緣做更多事情,同時更有效地利用雲資源。
是什麼推動了邊緣計算的激光聚焦? 客戶正在從傳感器、物聯網設備和自動駕駛汽車數據收集中收集邊緣生成大量數據。 接近源頭的數據將帶來商業利益,包括更快的洞察力和準確的預測以及更快的響應時間和更好的帶寬利用率。 邊緣 AI 推理(使用 AI 技術的可操作智能)可提高性能、縮短時間(推理時間)並減少對網絡連接的依賴,最終提高業務底線。
為什麼不在雲端進行邊緣推理?
為什麼邊緣推理不能在雲端完成? 它可以,並且對於時間不敏感且被視為非關鍵的應用程序,雲 AI 推理可能是解決方案。 然而,實時推理面臨許多技術挑戰,延遲是其中的主要挑戰。 此外,隨著需要在邊緣處理的物聯網設備和相關應用程序的持續增長,讓所有設備都可以使用高速雲連接可能是不可行的。
邊緣計算帶來了自身的挑戰,包括現場支持、物理和應用程序安全性以及導致存儲受限的有限空間。 今天的邊緣服務器為傳統的邊緣工作負載提供了足夠的計算能力,GPU 增加了更多的能力而不增加複雜性。
邊緣期權的增長
有趣的是,較小的系統供應商主要主導了邊緣基礎設施市場。 例如,Supermicro 多年來一直在談論 5G 和電線桿上的數據中心,而 Advantech 和許多其他專業服務器提供商也一直在做同樣的事情。 但隨著 GPU 的改進,更重要的是,隨著支持它們的軟件的改進,邊緣人工智能的整個概念變得更加真實。
我們最近在我們的實驗室中以幾種不同的方式看到了這種轉變。 首先,新的服務器設計採用了 NVIDIA 的單插槽、低功耗 GPU,例如 A2 和廣受歡迎的 T4。 最近聯想和超微都給我們送來了集成了這些GPU的服務器來評測,性能也很不錯。
美超微 IoT SuperServer SYS-210SE-31A 與 NVIDIA T4
其次,基礎設施提供商非常重視提供邊緣解決方案,這些解決方案的指標直接與低延遲和安全性等數據中心主要指標相關聯。 我們最近研究了其中一些用例 戴爾PowerVault ME5. 儘管 ME5 定位為 SMB 存儲解決方案,但由於其成本/性能比,MEXNUMX 引起了邊緣用例的極大興趣。
歸根結底,邊緣推理的故事非常簡單。 它歸結為 GPU 處理數據的能力,通常是動態處理。 我們一直在努力擴展我們的測試,以更好地了解這些新服務器和 GPU 如何發揮邊緣推理的作用。 具體來說,我們研究了流行的邊緣工作負載,例如圖像識別和自然語言處理模型。
測試背景
我們正在使用 MLPerf Inference: Edge 基準測試套件。 這套工具比較了各種現實世界邊緣場景中流行的 DL 模型的推理性能。 在我們的測試中,我們有 ResNet50 圖像分類模型和用於問答任務的 BERT-Large NLP 模型的數字。 兩者都在 Offline 和 SingleStream 配置中運行。
離線場景以“批處理模式”評估推理性能,此時所有測試數據都立即可用,並且不考慮延遲。 在這個任務中,推理腳本可以按任意順序處理測試數據,目標是最大化每秒的查詢數(QPS=吞吐量)。 QPS 數越高越好。
相比之下,單流配置一次處理一個測試樣本。 一旦對單個輸入執行了推理(在 ResNet50 的情況下,輸入是單個圖像),就會測量延遲,並使下一個樣本可供推理工具使用。 目標是最小化處理每個查詢的延遲; 延遲越低越好。 為簡潔起見,查詢流的第 90 個百分位延遲被捕獲為目標指標。
下圖來自一個 英偉達博客 發布有關 MLPerf 推理 0.5 的帖子,它可以很好地可視化場景。 你可以在原文中閱讀更多關於各種場景的信息 MLPerf 推理論文在這裡.
邊緣推理——聯想 ThinkEdge SE450
經過審查 ThinkEdge SE450,我們與聯想合作,在系統中的 NVIDIA A2 和 T4 上運行 MLPerf。 目標是了解 SE450 僅用一個 GPU 可以做什麼。 應該注意的是,該系統最多可以支持四個低功耗 NVIDIA GPU,並且根據這些數字推斷出所需卡的數量是合乎邏輯的。
對於此測試,我們直接與聯想合作,在我們的實驗室中使用 NVIDIA A2 和 T4 測試各種配置。 借助 MLPerf,供應商擁有針對其特定平台進行調整的特定測試工具。 我們使用聯想的測試工具進行邊緣推理基準測試,以了解這些流行 GPU 的出處。
我們實驗室對 SE2 中 A4 和 T450 的測試結果:
基準 | NVIDIA A2(40-60W TDP) | 英偉達 T4(70W TDP) |
---|---|---|
ResNet50 單流 | 0.714ms 延遲 | 0.867 延遲 |
ResNet50 當前離線 | 3,032.18 個樣本/秒 | 5,576.01 個樣本/秒 |
BERT 單流 | 8.986ms 延遲 | 8.527ms 延遲 |
BERT 當前離線 | 244.213 個樣本/秒 | 392.285 個樣本/秒 |
有趣的是,NVIDIA T4 自始至終都表現得非常好,這讓一些僅僅基於它的年齡的人感到驚訝。 T4 的性能配置文件是 T4 仍然廣受歡迎的一個非常明顯的原因。 也就是說,A2 在實時圖像推理方面比 T4 具有明顯的延遲優勢。
最終,GPU 的決定是針對手頭的特定任務進行調整的。 較舊的 NVIDIA T4 消耗更多功率 (70W) 並使用 PCIe Gen3 x16 插槽,而較新的 A2 設計為以較低功率 (40-60W) 運行並使用 PCIe Gen4 x8 插槽。 隨著組織更好地了解他們對邊緣基礎設施的要求,結果將更有意義,邊緣推理項目也更有可能成功。
最後的思考
供應商正在競相為邊緣市場開發更小、更快、更堅固的服務器。 從零售到工廠再到醫療保健的組織都在呼籲更快地了解從源頭收集的數據。 改進推理時間、減少延遲、提供提高性能的選項以及利用新興技術將迅速區分贏家和輸家。
邊緣市場並沒有停滯不前,因為組織正在尋找新的方法來利用從不斷增加的物聯網設備中收集的洞察力。 我們的團隊認為,對於那些能夠在各自行業中快速行動的人來說,這是一個重要的機會,可以在邊緣利用 AI,其中包括這個邊緣推理用例。
我們期待著名的 IT 基礎架構參與者在明年針對這一特定用例提供創新的解決方案。 此外,也許更重要的是,我們希望看到軟件方面的許多進步,以幫助在這些邊緣用例中普及 GPU 的使用。 要使這項技術具有變革性,它必須比現在更容易部署。 鑑於我們看到的工作不僅來自 NVIDIA,還來自軟件公司,例如 梵蒂克, 維索人工智能和許多其他人一樣,我們樂觀地認為更多的組織可以將這項技術付諸實踐。
參與 StorageReview
電子報 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | Facebook | RSS訂閱