Supermicro 推出了一套新的解决方案来推进生成式 AI 的部署,标志着大型语言模型 (LLM) 基础设施的发展迈出了重要一步。这些 SuperCluster 解决方案被设计为支持当前和未来人工智能需求的核心组件。
Supermicro 推出了一套新的解决方案来推进生成式 AI 的部署,标志着大型语言模型 (LLM) 基础设施的发展迈出了重要一步。这些 SuperCluster 解决方案被设计为支持当前和未来人工智能需求的核心组件。
这个新版本包括三种不同的 SuperCluster 配置,专为生成式 AI 任务而定制。选项包括 4U 液冷系统和 8U 风冷设置,专为强化 LLM 培训和高容量 LLM 推理而设计。此外,采用 Supermicro NVIDIA MGX 系统的 1U 风冷变体适用于云规模推理应用。这些系统旨在在 LLM 训练中提供无与伦比的性能,拥有大批量大小和用于 LLM 推理的大量处理能力等功能。
AI集群扩容
Supermicro 每月能够生产多达 5,000 个机架,能够快速供应完整的生成式 AI 集群,承诺为客户提供更快的交付速度。例如,64 节点集群可以包含 512 个 NVIDIA HGX H200 GPU,利用高速 NVIDIA Quantum-2 InfiniBand 和 Spectrum-X 以太网网络来实现强大的 AI 训练环境。与 NVIDIA AI Enterprise 软件结合使用,此配置是企业和云基础设施的理想解决方案,旨在训练具有数万亿参数的复杂法学硕士。
创新冷却和性能
与 4U 风冷替代方案相比,新型 Supermicro 100U NVIDIA HGX H200/H8 8-GPU 系统利用液体冷却将密度提高了一倍,从而降低了能耗并降低了数据中心的总拥有成本。这些系统支持基于 NVIDIA Blackwell 架构的下一代 GPU,采用高效冷却技术,可保持最佳温度以实现最佳性能。
超级集群规格
Supermicro SuperClusters 是可扩展的解决方案,用于训练大规模基础模型和创建云规模的 LLM 推理基础设施。凭借高度可扩展的网络架构,这些系统可以从 32 个节点扩展到数千个,确保无缝的可扩展性。集成先进的液体冷却和全面的测试流程可保证运营效率和有效性。
Supermicro 详细介绍了两种主要配置:配备 4U 液冷系统的 SuperCluster,能够在紧凑的占地面积内支持多达 512 个 GPU,以及配备 1U 风冷 NVIDIA MGX 系统的 SuperCluster,专为大容量、低延迟的推理任务而设计。两种配置都因其高网络性能而突出,这对于 LLM 训练和推理至关重要。
以下是其规格的简要概述:
SuperCluster 配备 4 个机架中的 5U 液冷系统或 8 个机架中的 9U 风冷系统
- 一个可扩展单元中包含 256 个 NVIDIA H100/H200 Tensor Core GPU
- 液体冷却支持 512 个 GPU、64 个节点,与风冷的 256 个 GPU、32 节点解决方案占用的空间相同
- 一个可扩展单元中包含 20TB HBM3(配备 NVIDIA H100)或 36TB HBM3e(配备 NVIDIA H200)
- 1:1 网络为每个 GPU 提供高达 400 Gbps 的速度,以启用 GPUDirect RDMA 和存储来训练具有多达数万亿个参数的大型语言模型
- 400G InfiniBand 或 400GbE 以太网交换机结构,具有高度可扩展的脊叶网络拓扑,包括 NVIDIA Quantum-2 InfiniBand 和 NVIDIA Spectrum-X 以太网平台。
- 可定制的 AI 数据管道存储结构,具有行业领先的并行文件系统选项
- NVIDIA AI Enterprise 5.0 软件,支持新的 NVIDIA NIM 推理微服务,可加速 AI 模型的大规模部署
SuperCluster 在 1 个机架中配备 9U 风冷 NVIDIA MGX 系统
- 一个可扩展单元中包含 256 个 GH200 Grace Hopper 超级芯片
- 高达 144GB HBM3e + 480GB LPDDR5X 统一内存,适用于云规模、大容量、低延迟和高批量大小的推理,能够在一个节点中拟合 70B+ 参数模型。
- 具有高度可扩展的脊叶网络拓扑的 400G InfiniBand 或 400G 以太网交换结构
- 每个节点最多 8 个内置 E1.S NVMe 存储设备
- 可定制的 AI 数据管道存储结构,配备 NVIDIA BlueField-3 DPU 和业界领先的并行文件系统选项,可为每个 GPU 提供高吞吐量和低延迟的存储访问
- NVIDIA AI Enterprise 5.0 软件
Supermicro 通过使用 NVIDIA Blackwell 架构的新系统和机架扩展 AI 产品组合
Supermicro 还宣布扩展其 AI 系统产品,包括 NVIDIA 旨在大规模生成 AI 的数据中心创新的最新成果。这些新技术包括 NVIDIA GB200 Grace Blackwell Superchip 以及 B200 和 B100 Tensor Core GPU。
为了适应这些进步,Supermicro 正在无缝升级其现有的 NVIDIA HGX H100/H200 8-GPU 系统集成 NVIDIA HGX B100 8-GPU 和 B200。此外,采用 NVIDIA GB200 的新型号将增强 NVIDIA HGX 产品线,其中包括配备 72 个 NVIDIA Blackwell GPU 的全面机架级解决方案。除了这些进步之外,美超微还推出了全新 4U NVIDIA HGX B200 8-GPU 液冷系统,利用直接芯片液冷技术来满足最新 GPU 日益增长的散热需求,并释放 NVIDIA 的全部性能能力。布莱克韦尔技术。
全新 Supermicro 的 GPU 优化系统即将推出,与 NVIDIA Blackwell B200 和 B100 Tensor Core GPU 完全兼容,并通过了最新 NVIDIA AI Enterprise 软件的认证。 Supermicro 系列包括多种配置,从 NVIDIA HGX B100 和 B200 8-GPU 系统到能够容纳多达 20 个 B100 GPU 的 SuperBlade,确保了各种人工智能应用的多功能性和高性能。这些系统包括率先上市的 NVIDIA HGX B200 和 B100 8-GPU 型号,采用先进的 NVIDIA NVLink 互连技术。 Supermicro 表示,他们准备为法学硕士提供培训成果(速度提高 3 倍),并支持可扩展的集群来满足要求严格的 AI 工作负载,这标志着 AI 计算效率和性能的重大飞跃。
参与 StorageReview
电子报 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | TikTok | RSS订阅