首頁 EnterpriseAI NVIDIA TensorRT-LLM 加速 NVIDIA H100 GPU 上的大型語言模型推理

NVIDIA TensorRT-LLM 加速 NVIDIA H100 GPU 上的大型語言模型推理

by 喬丹拉努斯
NVIDIA TensorRT-LLM H100 GPU 模塊

大型語言模型提供了令人難以置信的新功能,擴展了人工智能的可能性前沿。 然而,它們的大尺寸和獨特的執行特性使得它們難以經濟高效地使用。 NVIDIA TensorRT-LLM 已開源,以加速 LLM 的開發。

大型語言模型提供了令人難以置信的新功能,擴展了人工智能的可能性前沿。 然而,它們的大尺寸和獨特的執行特性使得它們難以經濟高效地使用。 NVIDIA TensorRT-LLM 已開源,以加速 LLM 的開發。

什麼是 NVIDIA TensorRT-LLM?

NVIDIA 一直與領先公司密切合作,包括 Meta、AnyScale、Cohere、Deci、Grammarly、Mistral AI、MosaicML(現已成為 Databricks、OctoML、Tabnine 和 Together AI),以加速和優化 LLM 推理。

NVIDIA TensorRT-LLM - 改變行業的法學碩士

這些創新已被集成到開源中 NVIDIA TensorRT-法學碩士 軟件,預計將在未來幾週內發布。 TensorRT-LLM 由 TensorRT 深度學習編譯器組成,包括優化的內核、預處理和後處理步驟以及多 GPU/多節點通信原語,可在 NVIDIA GPU 上實現突破性的性能。 它使開發人員能夠試驗新的法學碩士,提供峰值性能和快速定制功能,而無需深厚的 C++ 或 NVIDIA CUDA 知識。

TensorRT-LLM 通過開源模塊化 Python API 提高了易用性和可擴展性,隨著 LLM 的發展,可以定義、優化和執行新的架構和增強功能,並且可以輕鬆定制。

例如,MosaicML 在 TensorRT-LLM 之上無縫添加了所需的特定功能,並將它們集成到現有的服務堆棧中。 Databricks 工程副總裁 Naveen Rao 指出,“這絕對是輕而易舉的事情。”

NVIDIA TensorRT-LLM 性能

總結文章只是其眾多應用之一 法學碩士。 以下基準測試顯示了 TensorRT-LLM 在最新 NVIDIA Hopper 架構上帶來的性能改進。

下圖反映了使用 NVIDIA A100 和 NVIDIA H100 以及 CNN/Daily Mail(用於評估摘要性能的著名數據集)進行的文章摘要。

僅 H100 就比 A4 快 100 倍。 添加 TensorRT-LLM 及其優勢(包括動態批處理)可將吞吐量提高 8 倍,從而提供最高的吞吐量。

在 Llama 2(Meta 最近發布的一種流行語言模型,並被尋求整合生成 AI 的組織廣泛使用)上,TensorRT-LLM 可以將推理性能比 A4.6 GPU 提高 100 倍。

LLM生態系統創新快速發展

大型語言模型 (LLM) 生態系統正在迅速發展,催生了具有擴展功能的多樣化模型架構。 一些最大、最先進的法學碩士(例如 Meta 的 70 億參數 Llama 2)需要多個 GPU 來提供實時響應。 以前,優化 LLM 推理以獲得最佳性能涉及復雜的任務,例如手動拆分 AI 模型和協調 GPU 執行。

TensorRT-LLM 通過採用張量並行性(一種跨設備分配權重矩陣的模型並行性形式)來簡化此過程。 這種方法允許跨通過 NVLink 互連的多個 GPU 和多個服務器進行高效的橫向擴展推理,而無需開發人員干預或模型修改。

隨著新的 LLM 和模型架構的出現,開發人員可以使用 TensorRT-LLM 中提供的最新 NVIDIA AI 內核來優化其模型,其中包括 FlashAttention 和屏蔽多頭注意力等尖端實現。

此外,TensorRT-LLM 包括廣泛使用的 LLM 的預優化版本,例如 Meta Llama 2、OpenAI GPT-2、GPT-3、Falcon、Mosaic MPT、BLOOM 等。 這些可以使用用戶友好的 TensorRT-LLM Python API 輕鬆實現,使開發人員能夠創建適合各個行業的定制 LLM。

為了解決 LLM 工作負載的動態特性,TensorRT-LLM 引入了動態批處理,優化了請求的調度。 該技術提高了 GPU 利用率,並使實際 LLM 請求的吞吐量幾乎翻倍,從而降低了總擁有成本 (TCO)。

戴爾 XE9680 GPU 模塊

戴爾 XE9680 GPU 模塊

此外,TensorRT-LLM 使用量化技術以較低精度表示模型權重和激活(例如 FP8)。 這減少了內存消耗,允許更大的模型在相同的硬件上高效運行,同時最大限度地減少執行期間與內存相關的開銷。

LLM 生態系統正在迅速發展,為各行業提供更強大的功能和應用。 TensorRT-LLM 簡化了 LLM 推理,提高了性能並降低了 TCO。 它使開發人員能夠輕鬆有效地優化模型。 要訪問 TensorRT-LLM,開發人員和研究人員可以通過 NVIDIA NeMo 框架或 GitHub 參與早期訪問計劃,前提是他們使用組織的電子郵件地址在 NVIDIA 開發人員計劃中註冊。

關閉的思考

我們很早就在實驗室中指出,軟件堆棧沒有充分利用可用的開銷,TensorRT-LLM 清楚地表明,重新關注優化而不僅僅是創新可能非常有價值。 隨著我們繼續在本地試驗各種框架和尖端技術,我們計劃獨立測試和驗證改進的庫和 SDK 版本所帶來的這些收益。

NVIDIA 顯然正在花費開發時間和資源來榨取硬件的每一滴性能,進一步鞏固其行業領導者的地位,並通過保持工具的開源性質繼續為社區和 AI 民主化做出貢獻。

參與 StorageReview

電子通訊 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | 的TikTok | RSS訂閱