大型语言模型提供了令人难以置信的新功能,扩展了人工智能的可能性前沿。 然而,它们的大尺寸和独特的执行特性使得它们难以经济有效地使用。 NVIDIA TensorRT-LLM 已开源,以加速 LLM 的开发。
大型语言模型提供了令人难以置信的新功能,扩展了人工智能的可能性前沿。 然而,它们的大尺寸和独特的执行特性使得它们难以经济有效地使用。 NVIDIA TensorRT-LLM 已开源,以加速 LLM 的开发。
什么是 NVIDIA TensorRT-LLM?
NVIDIA 一直与 Meta、AnyScale、Cohere、Deci、Grammarly、Mistral AI、MosaicML(现已成为 Databricks、OctoML、Tabnine 和 Together AI 的一部分)等领先公司密切合作,以加速和优化 LLM 推理。
这些创新已被集成到开源中 NVIDIA TensorRT-法学硕士 软件,预计将在未来几周内发布。 TensorRT-LLM 由 TensorRT 深度学习编译器组成,包括优化的内核、预处理和后处理步骤以及多 GPU/多节点通信原语,可在 NVIDIA GPU 上实现突破性的性能。 它使开发人员能够尝试新的法学硕士,提供峰值性能和快速定制功能,而无需深厚的 C++ 或 NVIDIA CUDA 知识。
TensorRT-LLM 通过开源模块化 Python API 提高了易用性和可扩展性,随着 LLM 的发展,可以定义、优化和执行新的架构和增强功能,并且可以轻松定制。
例如,MosaicML 在 TensorRT-LLM 之上无缝添加了所需的特定功能,并将它们集成到现有的服务堆栈中。 Databricks 工程副总裁 Naveen Rao 指出,“这绝对是轻而易举的事情。”
NVIDIA TensorRT-LLM 性能
总结文章只是其众多应用之一 法学硕士。 以下基准测试显示了 TensorRT-LLM 在最新 NVIDIA Hopper 架构上带来的性能改进。
下图反映了使用 NVIDIA A100 和 NVIDIA H100 以及 CNN/Daily Mail(用于评估摘要性能的著名数据集)进行的文章摘要。
仅 H100 就比 A4 快 100 倍。 添加 TensorRT-LLM 及其优势(包括动态批处理)可将吞吐量提高 8 倍,从而提供最高的吞吐量。
在 Llama 2(Meta 最近发布的一种流行语言模型,并被寻求整合生成 AI 的组织广泛使用)上,TensorRT-LLM 可以将推理性能比 A4.6 GPU 提高 100 倍。
LLM生态系统创新快速发展
大型语言模型 (LLM) 生态系统正在迅速发展,催生了具有扩展功能的多样化模型架构。 一些最大、最先进的法学硕士(例如 Meta 的 70 亿参数 Llama 2)需要多个 GPU 来提供实时响应。 以前,优化 LLM 推理以获得最佳性能涉及复杂的任务,例如手动拆分 AI 模型和协调 GPU 执行。
TensorRT-LLM 通过采用张量并行性(一种跨设备分配权重矩阵的模型并行性形式)来简化此过程。 这种方法允许跨通过 NVLink 互连的多个 GPU 和多个服务器进行高效的横向扩展推理,而无需开发人员干预或模型修改。
随着新的 LLM 和模型架构的出现,开发人员可以使用 TensorRT-LLM 中提供的最新 NVIDIA AI 内核来优化其模型,其中包括 FlashAttention 和屏蔽多头注意力等尖端实现。
此外,TensorRT-LLM 包括广泛使用的 LLM 的预优化版本,例如 Meta Llama 2、OpenAI GPT-2、GPT-3、Falcon、Mosaic MPT、BLOOM 等。 这些可以使用用户友好的 TensorRT-LLM Python API 轻松实现,使开发人员能够创建适合各个行业的定制 LLM。
为了解决 LLM 工作负载的动态特性,TensorRT-LLM 引入了动态批处理,优化了请求的调度。 该技术提高了 GPU 利用率,并使实际 LLM 请求的吞吐量几乎翻倍,从而降低了总拥有成本 (TCO)。
此外,TensorRT-LLM 使用量化技术以较低精度表示模型权重和激活(例如 FP8)。 这减少了内存消耗,允许更大的模型在相同的硬件上高效运行,同时最大限度地减少执行期间与内存相关的开销。
LLM 生态系统正在迅速发展,为各行业提供更强大的功能和应用。 TensorRT-LLM 简化了 LLM 推理,提高了性能并降低了 TCO。 它使开发人员能够轻松有效地优化模型。 要访问 TensorRT-LLM,开发人员和研究人员可以通过 NVIDIA NeMo 框架或 GitHub 参与早期访问计划,前提是他们使用组织的电子邮件地址在 NVIDIA 开发人员计划中注册。
关闭的思考
我们很早就在实验室中指出,软件堆栈没有充分利用可用的开销,TensorRT-LLM 清楚地表明,重新关注优化而不仅仅是创新可能非常有价值。 随着我们继续在本地试验各种框架和尖端技术,我们计划独立测试和验证改进的库和 SDK 版本所带来的这些收益。
NVIDIA 显然正在花费开发时间和资源来充分利用其硬件的性能,进一步巩固其行业领导者的地位,并通过保持工具的开源性质继续为社区和 AI 民主化做出贡献。
参与 StorageReview
电子报 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | TikTok | RSS订阅