首页 企业版 用于生成 AI 的 NVIDIA DGX GH200 AI 超级计算机发布

用于生成 AI 的 NVIDIA DGX GH200 AI 超级计算机发布

by 哈罗德弗里茨

NVIDIA 的 Jensen Huang 本周在台湾举行的 Computex 2023 上发表了主题演讲,发布了新产品,重点是支持开发用于生成 AI 应用程序、数据分析和推荐系统的下一代模型。 这 英伟达 DGX 由 NVIDIA GH200 Grace Hopper Superchips 和 NVIDIA NVLink 开关系统提供支持的超级计算机占据了中心舞台。

NVIDIA 的 Jensen Huang 本周在台湾举行的 Computex 2023 上发表了主题演讲,发布了新产品,重点是支持开发用于生成 AI 应用程序、数据分析和推荐系统的下一代模型。 这 英伟达 DGX 由 NVIDIA GH200 Grace Hopper Superchips 和 NVIDIA NVLink 开关系统提供支持的超级计算机占据了中心舞台。

- 英伟达 DGX GH200 使用 NVLink 互连技术和 NVLink 开关系统,将 256 个 GH200 超级芯片组合为单个 GPU,提供 1 exaflop 的性能和 144 TB 的共享内存。 这几乎是单个 NVIDIA DGX A500 系统内存的 100 倍!

NVLink 技术大规模扩展 AI

GH200 超级芯片结合了基于 Arm 的 NVIDIA Grace CPU 和 NVIDIA H100 Tensor Core GPU,使用 NVLink-C2C 芯片互连,无需传统的 CPU 到 GPU PCIe 连接。 与最新的 PCIe 技术相比,GPU 和 CPU 之间的带宽增加了 7 倍,互连功耗降低了 5 倍以上,并为 DGX GH600 超级计算机提供了 200GB Hopper 架构 GPU 构建块。

这是第一台将 Grace Hopper 超级芯片与 NVLink 开关系统配对的超级计算机。 这种新的互连使 DGX GH200 系统中的所有 GPU 能够作为一个 GPU 工作,而八个 GPU 限制与 NVLink 结合作为单个 GPU 而不会影响性能。 DGX GH200 架构提供比上一代多 10 倍的带宽,提供大型 AI 超级计算机的强大功能,同时只需对单个 GPU 进行编程即可。

人工智能先驱获得新的研究工具

预计最先访问新超级计算机的将是 Google Cloud、Meta 和 Microsoft,使他们能够探索其生成 AI 工作负载的能力。 NVIDIA 打算将 DGX GH200 设计作为蓝图提供给云服务提供商和其他超大规模提供商,以便他们可以根据自己的基础设施对其进行定制。

NVIDIA 研究人员和开发团队将可以使用配备四个 DGX GH200 系统的全新 NVIDIA Helios 超级计算机。 Helios 将包含 1,024 个 Grace Hopper 超级芯片,预计将于今年年底上线。 Helios 超级计算机中的每个系统都将与 NVIDIA Quantum-2 InfiniBand 网络互连,带宽数据吞吐量高达 400Gb/s,用于训练大型 AI 模型。

集成和专用

DGX GH200 超级计算机将包括 NVIDIA 软件,该软件提供交钥匙的全堆栈解决方案,支持最大的人工智能和数据分析工作负载。 NVIDIA 基本命令 软件提供人工智能工作流管理、企业级集群管理、加速计算、存储和网络基础设施的库,以及为运行人工智能工作负载而优化的系统软件。 NVIDIA 人工智能企业 软件将包括提供 100 多个框架、再训练模型和开发工具,以简化生产 AI 的开发和部署,包括生成 AI、计算机视觉、语音 AI 等。

可用性

NVIDIA DGX GH200 超级计算机预计将于今年年底上市。

参与 StorageReview

电子报 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | TikTok | RSS订阅