Amazon Web Services(AWS)는 AWS EC2 Trn1 인스턴스의 정식 출시를 발표했습니다. AWS에서 설계한 Trainium 칩으로 구동되는 Trn1 인스턴스는 기계 학습 모델(클라우드에서)의 고성능 훈련을 위해 특별히 설계되었으며 Amazon은 유사한 GPU와 비교할 때 "훈련 비용"이 50% 절감됨을 나타냅니다. 기반 인스턴스.
Amazon Web Services(AWS)는 AWS EC2 Trn1 인스턴스의 정식 출시를 발표했습니다. AWS에서 설계한 Trainium 칩으로 구동되는 Trn1 인스턴스는 기계 학습 모델(클라우드에서)의 고성능 훈련을 위해 특별히 설계되었으며 Amazon은 유사한 GPU와 비교할 때 "훈련 비용"이 50% 절감됨을 나타냅니다. 기반 인스턴스.
AWS EC2 Trn1 인스턴스는 AWS에서 널리 사용되는 기계 학습 모델을 훈련할 수 있는 가장 빠른 시간을 제공합니다. 이를 통해 고객은 교육 시간을 줄이고, 모델을 빠르게 반복하여 정확도를 높이고, 자연어 처리, 음성 및 이미지 인식, 시맨틱 검색, 추천 엔진, 사기 탐지 및 예측과 같은 워크로드의 전반적인 생산성을 향상할 수 있습니다.
Trn1 인스턴스는 최소 약정이나 선불 요금이 없기 때문에 가격 책정에 있어서도 매우 유연합니다. 또한 고객은 사용한 컴퓨팅 양에 대해서만 비용을 지불하면 됩니다.
AWS EC2 Trn1 인스턴스의 크기 및 사양
인스턴스 이름 | vCPU | AWS Trainium 칩 | 가속기 메모리 | 뉴런링크 | 인스턴스 메모리 | 인스턴스 네트워킹 | 로컬 인스턴스 스토리지 |
trn1.2xlarge | 8 | 1 | 32 GB | N/A | 32 GB | 최대 12.5Gbps | 1x 500GB NVMe |
trn1.32xlarge | 128 | 16 | 512 GB | 지원 | 512 GB | 800Gbps | 4x 2TB NVMe |
이전에는 조직이 사용 가능한 가장 빠른 가속 인스턴스를 활용하더라도 더 복잡한 기계 학습 모델을 교육하는 데 여전히 비용과 시간이 너무 많이 들었습니다. 새로운 AWS EC2 Trn1 인스턴스를 통해 Amazon은 AWS에서 최고의 가격 대비 성능과 가장 빠른 기계 학습 모델 교육을 자랑한다고 밝혔습니다.
기타 주목할만한 기능은 다음과 같습니다.
- 코드를 크게 변경하지 않고 시작하려는 사용자는 Trn1 인스턴스용 소프트웨어 개발 키트(SDK)인 AWS Neuron을 사용할 수 있습니다. 또한 PyTorch 및 TensorFlow와 같은 기계 학습을 위한 인기 있는 프레임워크에 통합됩니다.
- Trn1 인스턴스는 딥 러닝 모델 배포를 위해 특별히 설계된 최대 16개의 AWS Trainium 액셀러레이터를 제공합니다.
- 효율성을 개선하기 위해 Trn1은 2를 통해 네트워킹 대역폭에서 최대 800Gbps를 제공하는 최초의 Amazon EC2 인스턴스입니다.nd-gen AWS Elastic Fabric Adapter(EFA) 네트워크 인터페이스.
- 교육 속도를 높이기 위해 Trn1 인스턴스는 또한 인스턴스 내 고속 상호 연결인 NeuronLink를 사용합니다.
Amazon EC2 울트라클러스터
고객은 Amazon EC1 UltraCluster(수만 개의 Trainium 액셀러레이터로 구성됨)에 Trn2 인스턴스를 배포하여 가장 복잡한 딥 러닝 모델, 심지어 수조 개의 파라미터가 있는 모델도 신속하게 교육할 수 있습니다. EC2 UltraClusters를 사용하는 조직은 EFA 페타비트 규모의 네트워킹과 상호 연결된 최대 30,000개의 Trainium 액셀러레이터로 기계 학습 모델의 교육을 확장할 수 있습니다. Amazon은 따라서 이러한 조직이 슈퍼컴퓨팅급 성능에 대한 온디맨드 액세스를 갖게 되어 일반적으로 몇 달에서 며칠이 걸리던 교육 시간을 크게 단축할 수 있다고 밝혔습니다.
각 AWS EC2 Trn1 인스턴스는 최대 8TB의 빠른 로컬 NVMe SSD 스토리지를 지원하고 AWS Trainium은 다양한 데이터 유형(FP32, TF32, BF16, FP16 및 구성 가능한 FP8)을 지원합니다. 또한 확률 기반 방식인 Stochastic Rounding을 지원하여 높은 성능과 정확도를 제공합니다. 또한 AWS Trainium은 고객 교육 요구 사항에 따라 적응하도록 설계된 유연한 인프라를 촉진하는 동적 텐서 모양 및 사용자 지정 연산자를 지원합니다.
AWS Nitro 시스템
Trn1 인스턴스는 격리된 다중 테넌시, 프라이빗 네트워킹 및 빠른 로컬 스토리지 제공을 간소화하는 AWS 설계 하드웨어 및 소프트웨어 혁신 모음인 AWS Nitro 시스템을 기반으로 구축됩니다. 필요한 성능을 제공하기 위해 Nitro 시스템은 CPU 가상화, 스토리지 및 네트워킹 기능을 전용 하드웨어 및 소프트웨어로 오프로드합니다.
AWS EC2 Trn1 인스턴스 가용성
AWS Trn1 인스턴스는 이제 온디맨드 인스턴스(Savings Plans 포함), 예약 인스턴스 또는 스팟 인스턴스로 구매할 수 있습니다. 현재 미국 동부(버지니아 북부) 및 미국 서부(오레곤)에서 사용할 수 있으며 곧 다른 AWS 리전에서도 사용할 수 있습니다.
다음과 같은 다른 AWS 서비스를 통해서도 사용할 수 있습니다.
- 아마존 세이지 메이커
- Amazon Elastic Kubernetes 서비스(Amazon EKS)
- Amazon Elastic Container Service(Amazon ECS)
- AWS 배치
StorageReview에 참여
뉴스레터 | 유튜브 | 팟캐스트 iTunes/스포티 파이 | 인스타그램 | 트위터 | 틱톡 서비스 | RSS 피드