홈페이지 EnterpriseAI NVIDIA TensorRT-LLM은 NVIDIA H100 GPU에서 대규모 언어 모델 추론을 가속화합니다.

NVIDIA TensorRT-LLM은 NVIDIA H100 GPU에서 대규모 언어 모델 추론을 가속화합니다.

by 조던 라누스
NVIDIA TensorRT-LLM H100 GPU 블록

대규모 언어 모델은 놀라운 새로운 기능을 제공하여 AI로 가능한 것의 한계를 확장합니다. 그러나 크기가 크고 고유한 실행 특성으로 인해 비용 효율적으로 사용하기가 어려울 수 있습니다. NVIDIA TensorRT-LLM은 LLM 개발을 가속화하기 위해 오픈 소스로 제공되었습니다.

대규모 언어 모델은 놀라운 새로운 기능을 제공하여 AI로 가능한 것의 한계를 확장합니다. 그러나 크기가 크고 고유한 실행 특성으로 인해 비용 효율적으로 사용하기가 어려울 수 있습니다. NVIDIA TensorRT-LLM은 LLM 개발을 가속화하기 위해 오픈 소스로 제공되었습니다.

NVIDIA TensorRT-LLM이란 무엇입니까?

NVIDIA는 LLM 추론을 가속화하고 최적화하기 위해 현재 Databricks, OctoML, Tabnine 및 Together AI의 일부가 된 Meta, AnyScale, Cohere, Deci, Grammarly, Mistral AI, mosaicML을 비롯한 주요 기업과 긴밀히 협력해 왔습니다.

NVIDIA TensorRT-LLM - 업계를 변화시키는 LLM

이러한 혁신은 오픈 소스에 통합되었습니다. 엔비디아 텐서RT-LLM 소프트웨어는 앞으로 몇 주 안에 출시될 예정입니다. TensorRT-LLM은 TensorRT 딥 러닝 컴파일러로 구성되며 NVIDIA GPU의 획기적인 성능을 위한 최적화된 커널, 사전 및 사후 처리 단계, 다중 GPU/다중 노드 통신 기본 요소를 포함합니다. 이를 통해 개발자는 깊은 C++ 또는 NVIDIA CUDA 지식 없이도 최고의 성능과 빠른 사용자 정의 기능을 제공하는 새로운 LLM을 실험할 수 있습니다.

TensorRT-LLM은 LLM이 발전하고 쉽게 사용자 정의할 수 있으므로 새로운 아키텍처와 개선 사항을 정의, 최적화, 실행하기 위한 오픈 소스 모듈식 Python API를 통해 사용 편의성과 확장성을 향상시킵니다.

예를 들어, mosaicML은 TensorRT-LLM 위에 필요한 특정 기능을 원활하게 추가하고 이를 기존 서비스 스택에 통합했습니다. Databricks의 엔지니어링 부사장인 Naveen Rao는 "정말 순조로운 일이었습니다"라고 말합니다.

NVIDIA TensorRT-LLM 성능

기사를 요약하는 것은 여러 가지 응용 프로그램 중 하나일 뿐입니다. LLM. 다음 벤치마크는 최신 NVIDIA Hopper 아키텍처에서 TensorRT-LLM이 가져온 성능 향상을 보여줍니다.

다음 그림은 요약 성능 평가를 위한 잘 알려진 데이터 세트인 CNN/Daily Mail과 함께 NVIDIA A100 및 NVIDIA H100을 사용한 기사 요약을 반영합니다.

H100만으로도 A4보다 100배 빠릅니다. TensorRT-LLM과 기내 일괄 처리를 포함한 그 이점을 추가하면 8배 증가하여 최고의 처리량을 제공할 수 있습니다.

Meta가 최근 출시하고 생성 AI를 통합하려는 조직에서 널리 사용되는 인기 있는 언어 모델인 Llama 2에서 TensorRT-LLM은 A4.6 GPU에 비해 ​​추론 성능을 100배 가속화할 수 있습니다.

LLM 생태계 혁신이 빠르게 발전하고 있습니다.

LLM(대형 언어 모델) 생태계는 빠르게 발전하고 있으며 확장된 기능을 갖춘 다양한 모델 아키텍처가 등장하고 있습니다. Meta의 70억 매개변수 Llama 2와 같은 가장 크고 가장 발전된 LLM 중 일부는 실시간 응답을 제공하기 위해 여러 개의 GPU가 필요합니다. 이전에는 최고 성능을 위해 LLM 추론을 최적화하려면 AI 모델을 수동으로 분할하고 GPU 실행을 조정하는 등 복잡한 작업이 필요했습니다.

TensorRT-LLM은 장치 전체에 가중치 매트릭스를 분산하는 모델 병렬 처리의 한 형태인 텐서 병렬 처리를 사용하여 이 프로세스를 단순화합니다. 이 접근 방식을 사용하면 개발자 개입이나 모델 수정 없이 NVLink를 통해 상호 연결된 여러 GPU와 여러 서버에서 효율적인 확장 추론이 가능합니다.

새로운 LLM 및 모델 아키텍처가 등장하면 개발자는 FlashAttention 및 Masked Multi-Head Attention과 같은 최첨단 구현을 포함하는 TensorRT-LLM에서 사용할 수 있는 최신 NVIDIA AI 커널을 사용하여 모델을 최적화할 수 있습니다.

또한 TensorRT-LLM에는 Meta Llama 2, OpenAI GPT-2, GPT-3, Falcon, mosaic MPT, BLOOM 등과 같이 널리 사용되는 LLM의 사전 최적화 버전이 포함되어 있습니다. 이는 사용자 친화적인 TensorRT-LLM Python API를 사용하여 쉽게 구현할 수 있으므로 개발자는 다양한 산업에 맞는 맞춤형 LLM을 만들 수 있습니다.

LLM 워크로드의 동적 특성을 해결하기 위해 TensorRT-LLM은 진행 중인 일괄 처리를 도입하여 요청 일정을 최적화합니다. 이 기술은 GPU 활용도를 향상시키고 실제 LLM 요청에 대한 처리량을 거의 두 배로 늘려 총 소유 비용(TCO)을 줄입니다.

Dell XE9680 GPU 블록

Dell XE9680 GPU 블록

또한 TensorRT-LLM은 양자화 기술을 사용하여 낮은 정밀도로 모델 가중치와 활성화를 나타냅니다(예: FP8). 이를 통해 메모리 소비가 줄어들어 더 큰 모델이 동일한 하드웨어에서 효율적으로 실행되는 동시에 실행 중 메모리 관련 오버헤드가 최소화됩니다.

LLM 생태계는 산업 전반에 걸쳐 더 뛰어난 기능과 ​​응용 프로그램을 제공하면서 빠르게 발전하고 있습니다. TensorRT-LLM은 LLM 추론을 간소화하여 성능과 TCO를 향상시킵니다. 이를 통해 개발자는 모델을 쉽고 효율적으로 최적화할 수 있습니다. TensorRT-LLM에 액세스하기 위해 개발자와 연구원은 조직의 이메일 주소로 NVIDIA 개발자 프로그램에 등록된 경우 NVIDIA NeMo 프레임워크 또는 GitHub를 통해 초기 액세스 프로그램에 참여할 수 있습니다.

생각을 폐쇄

우리는 The Lab에서 오랫동안 소프트웨어 스택에서 충분히 활용되지 않고 있는 사용 가능한 오버헤드가 있다는 점을 지적해 왔으며, TensorRT-LLM은 혁신뿐만 아니라 최적화에 다시 초점을 맞추는 것이 매우 가치 있을 수 있다는 점을 분명히 했습니다. 다양한 프레임워크와 최첨단 기술을 로컬에서 계속 실험하면서 개선된 라이브러리 및 SDK 릴리스를 통해 이러한 이점을 독립적으로 테스트하고 검증할 계획입니다.

NVIDIA는 하드웨어의 성능을 마지막 한 방울까지 짜내기 위해 개발 시간과 리소스를 확실히 투자하고 있으며, 업계 리더로서의 입지를 더욱 공고히 하고, 도구의 오픈 소스 특성을 유지함으로써 커뮤니티와 AI의 민주화에 대한 기여를 계속하고 있습니다. .

StorageReview에 참여

뉴스레터 | 유튜브 | 팟캐스트 iTunes/스포티 파이 | 인스타그램 | 트위터 | 틱톡 서비스 | RSS 피드