Amazon Web Services (AWS) 宣布全面推出 AWS EC2 Trn1 實例。 Trn1 實例由 AWS 設計的 Trainium 芯片提供支持,專為機器學習模型(在雲端)的高性能訓練而設計,亞馬遜表示與類似 GPU 相比,“訓練成本”節省了 50%基於實例。
Amazon Web Services (AWS) 宣布全面推出 AWS EC2 Trn1 實例。 Trn1 實例由 AWS 設計的 Trainium 芯片提供支持,專為機器學習模型(在雲端)的高性能訓練而設計,亞馬遜表示與類似 GPU 相比,“訓練成本”節省了 50%基於實例。
AWS EC2 Trn1 實例為在 AWS 上訓練流行的機器學習模型提供了最快的時間。 這使他們的客戶能夠減少培訓時間,快速迭代模型以提高準確性,並提高自然語言處理、語音和圖像識別、語義搜索、推薦引擎、欺詐檢測和預測等工作負載的整體生產力。
就定價而言,Trn1 實例也非常靈活,因為沒有最低承諾或預付費用。 客戶也只需為他們使用的計算量付費。
AWS EC2 Trn1 實例的大小和規格
實例名稱 | 虛擬CPU | AWS Trainium 芯片 | 加速器內存 | 神經元鏈接 | 實例內存 | 實例網絡 | 本地實例存儲 |
trn1.2xlarge | 8 | 1 | GB 32 | 不適用 | GB 32 | 最高12.5 Gbps | 1 個 500 GB NVMe |
trn1.32xlarge | 128 | 16 | GB 512 | 支持 | GB 512 | 800 Gbps | 4 個 2 TB NVMe |
以前,即使組織利用可用的最快加速實例,訓練更複雜的機器學習模型仍然既過於昂貴又耗時。 借助新的 AWS EC2 Trn1 實例,亞馬遜表示他們擁有 AWS 上最佳的性價比和最快的機器學習模型訓練。
其他值得注意的功能包括:
- 那些希望在不顯著更改代碼的情況下開始使用的人可以使用 AWS Neuron,這是用於 Trn1 實例的軟件開發工具包 (SDK)。 它還集成到 PyTorch 和 TensorFlow 等流行的機器學習框架中。
- Trn1 實例具有多達 16 個專為部署深度學習模型而設計的 AWS Trainium 加速器。
- 為了提高效率,Trn1 是第一個通過 2 提供高達 800Gbps 網絡帶寬的 Amazon EC2 實例nd-gen AWS Elastic Fabric Adapter (EFA) 網絡接口。
- 為了加快訓練速度,Trn1 實例還使用 NeuronLink——一種高速實例內互連。
亞馬遜 EC2 UltraClusters
客戶可以在 Amazon EC1 UltraClusters(由數万個 Trainium 加速器組成)中部署 Trn2 實例,以快速訓練最複雜的深度學習模型,即使是那些具有數万億參數的模型。 借助 EC2 UltraClusters,組織能夠使用多達 30,000 個與 EFA PB 級網絡互連的 Trainium 加速器來擴展機器學習模型的訓練。 亞馬遜表示,這些組織因此可以按需訪問超級計算級的性能,這可以顯著縮短通常需要數月到數天的培訓時間。
每個 AWS EC2 Trn1 實例支持高達 8TB 的快速本地 NVMe SSD 存儲,而 AWS Trainium 支持廣泛的數據類型(FP32、TF32、BF16、FP16 和可配置的 FP8)。 它還支持隨機舍入,一種基於概率的方法,以實現高性能和更高的準確性。 此外,AWS Trainium 支持動態張量形狀和自定義運算符,這促進了旨在根據客戶培訓需求進行調整的靈活基礎設施。
AWS Nitro系統
Trn1 實例基於 AWS Nitro 系統構建,該系統是 AWS 設計的硬件和軟件創新的集合,可簡化隔離多租戶、私有網絡和快速本地存儲的交付。 為了提供必要的性能,Nitro 系統將 CPU 虛擬化、存儲和網絡功能卸載到專用硬件和軟件。
AWS EC2 Trn1 實例可用性
AWS Trn1 實例現在可以作為按需實例(使用 Savings Plans)、預留實例或 Spot 實例購買。 目前,它們在美國東部(北弗吉尼亞)和美國西部(俄勒岡)可用,很快就會擴展到其他 AWS 區域。
它們還將通過以下其他 AWS 服務提供:
- 亞馬遜SageMaker
- 亞馬遜彈性 Kubernetes 服務 (Amazon EKS)
- Amazon Elastic Container Service(Amazon ECS)
- AWS批處理
參與 StorageReview
電子報 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | 的TikTok | RSS訂閱