首页 企业版AI NVIDIA Spectrum-X 网络为 xAI 的 Colossus 超级计算机提供支持

NVIDIA Spectrum-X 网络为 xAI 的 Colossus 超级计算机提供支持

by 哈罗德弗里茨

NVIDIA 透露,xAI 的 Colossus 超级计算机现已在田纳西州孟菲斯全面投入运营,该计算机拥有 100,000 个 NVIDIA Hopper Tensor Core GPU。

NVIDIA 宣布,xAI 的 Colossus 超级计算机现已在田纳西州孟菲斯全面投入运行,该计算机拥有 100,000 个 NVIDIA Hopper Tensor Core GPU。这一成就得益于 NVIDIA 的 Spectrum-X™ 以太网网络平台,旨在为超大规模、多租户 AI 数据中心提供强大的性能。Spectrum-X 使用基于标准的以太网和 RDMA 网络来确保在这些大规模环境中实现高效通信和优化数据处理。

Colossus 超级计算机交换机

作为全球最大的 AI 超级计算机,Colossus 目前为 xAI 的 Grok 语言模型系列提供训练支持,其中包括为 X Premium 用户提供的聊天机器人功能。xAI 计划进一步将 Colossus 扩展到 200,000 个 NVIDIA Hopper GPU,巩固其作为一流 AI 计算资源的地位。xAI 和 NVIDIA 在创纪录的 122 天内建成了该设施和先进的计算基础设施,而类似项目通常需要数月甚至数年的时间。Colossus 在初始机架安装后的 19 天内就开始了训练操作。

得益于 Spectrum-X 的拥塞控制和流量处理,Colossus 在训练大型模型时实现了卓越的网络性能。这使得系统不会因流量冲突而出现延迟降低或数据包丢失,并且数据吞吐率保持为 95%,这比传统以太网有了显著的改进,传统以太网通常只有 60% 的数据吞吐量,并且经常发生流量冲突。

NVIDIA Spectrum-X 实施的进步之处在于其处理这种大规模 GPU 集群中的网络拥塞的方法。当数千个 GPU 同时通信时,传统以太网网络会面临“incast”问题,从而导致数据包丢失和性能显著下降。虽然 InfiniBand 传统上通过其内置优先级流量控制 (PFC) 和硬件级拥塞管理解决了这一问题,但 Spectrum-X 使用具有增强拥塞控制机制的 RoCE v2 实现了类似的结果。这使 xAI 能够保持类似 InfiniBand 的性能特征,同时利用标准以太网基础设施的成本优势和灵活性。

Spectrum-X 的自适应路由和直接数据放置功能可创建弹性网络结构,可处理分布式 AI 训练工作负载中常见的大量东西向流量模式。这样一来,即使所有 100,000 个 GPU 都积极参与集体操作,系统也能保持一致的低延迟和高吞吐量。

NVIDIA 网络高级副总裁 Gilad Shainer 强调,“AI 是关键任务”,需要兼具性能、安全性、可扩展性和成本效益。他重点介绍了 NVIDIA Spectrum-X 平台如何帮助 xAI 等公司加速 AI 工作负载的处理、分析和执行,从而加快 AI 解决方案的开发和部署。

xAI 发言人承认 NVIDIA 的 Hopper GPU 和 Spectrum-X 技术,并指出该系统的规模和性能对于实现基于以太网标准的优化 AI“工厂”至关重要。

Spectrum-X 的核心是 Spectrum SN5600 以太网交换机,它使用 Spectrum-800 交换机 ASIC 支持高达 4Gb/s 的速度。xAI 将此交换机与 NVIDIA 的 BlueField-3® SuperNIC 战略性地配对,实现了之前只有 InfiniBand 才有的性能水平。Spectrum-X 以太网网络引入了诸如具有直接数据放置的自适应路由、复杂的拥塞控制以及改进的 AI 结构可见性和性能隔离等功能,满足了多租户 AI 环境和企业级 AI 部署的苛刻要求。

参与 StorageReview

电子报 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | TikTok | RSS订阅