NVIDIA Spectrum-X 网络为 xAI 的 Colossus 超级计算机提供支持

by 哈罗德弗里茨 2024 年 10 月 29 日

写哈罗德弗里茨 2024 年 10 月 29 日

NVIDIA 透露，xAI 的 Colossus 超级计算机现已在田纳西州孟菲斯全面投入运营，该计算机拥有 100,000 个 NVIDIA Hopper Tensor Core GPU。

NVIDIA 宣布，xAI 的 Colossus 超级计算机现已在田纳西州孟菲斯全面投入运行，该计算机拥有 100,000 个 NVIDIA Hopper Tensor Core GPU。这一成就得益于 NVIDIA 的 Spectrum-X™ 以太网网络平台，旨在为超大规模、多租户 AI 数据中心提供强大的性能。Spectrum-X 使用基于标准的以太网和 RDMA 网络来确保在这些大规模环境中实现高效通信和优化数据处理。

Colossus 超级计算机交换机

作为全球最大的 AI 超级计算机，Colossus 目前为 xAI 的 Grok 语言模型系列提供训练支持，其中包括为 X Premium 用户提供的聊天机器人功能。xAI 计划进一步将 Colossus 扩展到 200,000 个 NVIDIA Hopper GPU，巩固其作为一流 AI 计算资源的地位。xAI 和 NVIDIA 在创纪录的 122 天内建成了该设施和先进的计算基础设施，而类似项目通常需要数月甚至数年的时间。Colossus 在初始机架安装后的 19 天内就开始了训练操作。

得益于 Spectrum-X 的拥塞控制和流量处理，Colossus 在训练大型模型时实现了卓越的网络性能。这使得系统不会因流量冲突而出现延迟降低或数据包丢失，并且数据吞吐率保持为 95%，这比传统以太网有了显著的改进，传统以太网通常只有 60% 的数据吞吐量，并且经常发生流量冲突。

NVIDIA Spectrum-X 实施的进步之处在于其处理这种大规模 GPU 集群中的网络拥塞的方法。当数千个 GPU 同时通信时，传统以太网网络会面临“incast”问题，从而导致数据包丢失和性能显著下降。虽然 InfiniBand 传统上通过其内置优先级流量控制 (PFC) 和硬件级拥塞管理解决了这一问题，但 Spectrum-X 使用具有增强拥塞控制机制的 RoCE v2 实现了类似的结果。这使 xAI 能够保持类似 InfiniBand 的性能特征，同时利用标准以太网基础设施的成本优势和灵活性。

Spectrum-X 的自适应路由和直接数据放置功能可创建弹性网络结构，可处理分布式 AI 训练工作负载中常见的大量东西向流量模式。这样一来，即使所有 100,000 个 GPU 都积极参与集体操作，系统也能保持一致的低延迟和高吞吐量。

NVIDIA 网络高级副总裁 Gilad Shainer 强调，“AI 是关键任务”，需要兼具性能、安全性、可扩展性和成本效益。他重点介绍了 NVIDIA Spectrum-X 平台如何帮助 xAI 等公司加速 AI 工作负载的处理、分析和执行，从而加快 AI 解决方案的开发和部署。

xAI 发言人承认 NVIDIA 的 Hopper GPU 和 Spectrum-X 技术，并指出该系统的规模和性能对于实现基于以太网标准的优化 AI“工厂”至关重要。

Spectrum-X 的核心是 Spectrum SN5600 以太网交换机，它使用 Spectrum-800 交换机 ASIC 支持高达 4Gb/s 的速度。xAI 将此交换机与 NVIDIA 的 BlueField-3® SuperNIC 战略性地配对，实现了之前只有 InfiniBand 才有的性能水平。Spectrum-X 以太网网络引入了诸如具有直接数据放置的自适应路由、复杂的拥塞控制以及改进的 AI 结构可见性和性能隔离等功能，满足了多租户 AI 环境和企业级 AI 部署的苛刻要求。

参与 StorageReview

哈罗德弗里茨

自 IBM 创建 Selectric 以来，我一直在科技行业工作。不过，我的背景是写作。因此，我决定退出售前业务，回归本源，从事一些写作工作，但仍从事技术工作。

以前的帖子

VergeIO 推出 ioOptimize，延长硬件使用寿命、提高可扩展性并降低 TCO

下一篇文章

NVIDIA Spectrum-X 网络为 xAI 的 Colossus 超级计算机提供支持

哈罗德弗里茨

VergeIO 推出 ioOptimize，延长硬件使用寿命、提高可扩展性并降低 TCO

NVIDIA 通过全新参考架构蓝图革新企业 AI 基础设施

值得信赖的供应商