在快速发展、不断发展的人工智能 (AI) 领域,NVIDIA DGX GH200 成为创新的灯塔。 这个强大的系统在设计时考虑了最苛刻的人工智能工作负载,是一套完整的解决方案,旨在彻底改变企业处理生成式人工智能的方式。 NVIDIA 提供了新的详细信息,展示了 GH200 如何结合在一起,并通过这种最新一代 GPU 技术实现 AI 性能的巅峰。
在快速发展、不断发展的人工智能 (AI) 领域,NVIDIA DGX GH200 成为创新的灯塔。 这个强大的系统在设计时考虑了最苛刻的人工智能工作负载,是一套完整的解决方案,旨在彻底改变企业处理生成式人工智能的方式。 NVIDIA 提供了新的详细信息,展示了 GH200 如何结合在一起,并通过这种最新一代 GPU 技术实现 AI 性能的巅峰。
NVIDIA DGX GH200:完整的解决方案
DGX GH200 不仅仅是一款精美的机架硬件;它还是一款出色的机架硬件。 它是一个将高性能计算 (HPC) 与人工智能相结合的综合解决方案。 它旨在处理最复杂的人工智能工作负载,提供真正无与伦比的性能水平。
DGX GH200 将完整的硬件堆栈(包括 NVIDIA GH200 Grace Hopper Superchip、NVIDIA NVLink-C2C、NVIDIA NVLink 交换机系统和 NVIDIA Quantum-2 InfiniBand)整合到一个系统中。 NVIDIA 通过专门为加速模型开发而设计的优化软件堆栈来支持这一切。
规格 | 更多资讯 |
---|---|
GPU | 料斗 96 GB HBM3,4 TB/秒 |
中央处理器 | 72核臂Neoverse V2 |
CPU内存 | 高达 480 GB LPDDR5,速度高达 500 GB/s,能效比 DDR4 高 5 倍 |
CPU 到 GPU | NVLink-C2C 900 GB/s 双向相干链路,能效比 PCIe Gen5 高 5 倍 |
GPU 到 GPU | NVLink 900 GB/s 双向 |
高速输入输出 | 4 个 PCIe Gen5 x16,速度高达 512 GB/s |
TDP | 可配置为 450W 至 1000W |
扩展 GPU 内存
NVIDIA Grace Hopper Superchip 配备扩展 GPU 内存 (EGM) 功能,旨在处理具有大量内存占用的应用程序,这些内存占用大于其自己的 HBM3 和 LPDDR5X 内存子系统的容量。 此功能允许 GPU 从系统中的所有 CPU 和 GPU 访问高达 144TB 的内存,并可以以 LPDDR5X 速度进行数据加载、存储和原子操作。 EGM 可与标准 MAGNUM IO 库配合使用,并且可由 CPU 和其他 GPU 通过 NVIDIA NVLink 和 NVLink-C2C 连接进行访问。
NVIDIA 表示,NVIDIA Grace Hopper Superchip 上的扩展 GPU 内存 (EGM) 功能通过提供巨大的内存容量,显着增强了大型语言模型 (LLM) 的训练。 这是因为法学硕士通常需要大量内存来存储其参数、计算和管理训练数据集。
能够从系统中的所有 CPU 和 GPU 访问高达 144TB 的内存,可以更高效地训练模型。 大内存容量应该会带来更高的性能、更复杂的模型,以及处理更大、更详细的数据集的能力,从而有可能提高这些模型的准确性和实用性。
NVLink 开关系统
随着大型语言模型 (LLM) 的需求不断突破网络管理的界限,NVIDIA 的 NVLink 交换机系统仍然是一个强大的解决方案。 该系统利用第四代 NVLink 技术和第三代 NVSwitch 架构的强大功能,为 DGX GH256 系统中令人印象深刻的 200 个 NVIDIA Grace Hopper 超级芯片提供高带宽、低延迟连接。 结果是惊人的 25.6 Tbps 全双工带宽,标志着数据传输速度的大幅飞跃。
在 DGX GH200 系统中,每个 GPU 本质上都是一个爱管闲事的邻居,能够刺探 NVLink 网络上其他 GPU 的 HBM3 和 LPDDR5X 内存。 与 NVIDIA Magnum IO 加速库相结合,这个“爱管闲事的邻居”可以优化 GPU 通信,有效地扩展并加倍降低有效网络带宽。 因此,虽然你的法学硕士培训正在增压,沟通费用也在增加,但人工智能操作正在得到涡轮增压。
DGX GH200 中的 NVIDIA NVLink 开关系统能够通过促进大量 GPU 之间的高带宽、低延迟连接,显着增强 LLM 等模型的训练。 这使得 GPU 之间的数据共享更快、更高效,从而提高模型的训练速度和效率。 此外,每个 GPU 都能够从 NVLink 网络上的其他超级芯片访问对等内存,从而增加了可用内存,这对于大参数 LLM 至关重要。
虽然 Grace Hopper 超级芯片令人印象深刻的性能无疑是人工智能计算领域的游戏规则改变者,但该系统的真正魔力发生在 NVLink,其中跨多个 GPU 的高带宽、低延迟连接可实现数据共享和效率达到一个全新的水平。
DGX GH200系统架构
DGX GH200 超级计算机的架构虽然复杂,但设计却经过精心设计。 由 256 个 GH200 Grace Hopper 计算托盘和一个 NVLink 交换机系统组成,形成两层 NVLink 胖树。 每个计算托盘都装有 GH200 Grace Hopper Superchip、网络组件、管理系统/BMC 以及用于数据存储和操作系统执行的 SSD。
分类 | 更多资讯 |
---|---|
CPU / GPU | 1x NVIDIA Grace Hopper 超级芯片,带 NVLink-C2C |
图形处理器/图形处理器 | 18 个 NVLink 第四代端口 |
网络 | 1x NVIDIA ConnectX-7,带 OSFP: > NDR400 InfiniBand 计算网络 1x 双端口 NVIDIA BlueField-3,带 2x QSFP112 或 1x 双端口 NVIDIA ConnectX-7,带 2x QSFP112: > 200 GbE 带内以太网 > NDR200 IB存储网络 带外网络: > 1 GbE RJ45 |
数据驱动器:2x 4 TB(U.2 NVMe SSD)SW RAID 0 操作系统驱动器:2x 2 TB(M.2 NVMe SSD)SW RAID 1 |
在此设置中,八个计算托盘链接到三个一级 NVLink NVSwitch 托盘,以建立单个 8-GPU 机箱。 每个 NVLink 交换机托盘都拥有两个 NVSwitch ASIC,它们通过定制盲插电缆盒连接到计算托盘,并通过 LinkX 电缆连接到二级 NVLink 交换机。
由此产生的系统包含 36 个二级 NVLink 交换机,连接 32 个机箱,形成综合性 NVIDIA DGX GH200 超级计算机。 如需了解更多信息,请参阅表 2 了解带有 Grace Hopper Superchip 的计算托盘的规格,并参阅表 3 了解 NVLink 交换机规格。
DGX GH200的网络架构
NVIDIA DGX GH200 系统融合了四种复杂的网络架构,可提供尖端的计算和存储解决方案。 首先,由 NVIDIA ConnectX-7 和 Quantum-2 交换机构建的计算 InfiniBand 结构形成了轨道优化的全胖树 NDR400 InfiniBand 结构,可实现多个 DGX GH200 单元之间的无缝连接。
其次,存储结构由 NVIDIA BlueField-3 数据处理单元 (DPU) 驱动,通过 QSFP112 端口提供高性能存储。 这建立了一个专用的、可定制的存储网络,巧妙地防止流量拥塞。
带内管理结构作为第三架构,连接所有系统管理服务并促进对存储池、Slurm和Kubernetes等系统内服务以及NVIDIA GPU Cloud等外部服务的访问。
最后,以 1GbE 运行的带外管理结构通过底板管理控制器 (BMC) 监督 Grace Hopper 超级芯片、BlueField-3 DPU 和 NVLink 交换机的基本带外管理,优化操作并防止与其他服务冲突。
释放 AI 的力量 – NVIDIA DGX GH200 软件堆栈
DGX GH200 拥有开发人员所需的所有原始功率; 它不仅仅是一台奇特的超级计算机。 这是关于利用这种力量来推动人工智能向前发展。 毫无疑问,与 DGX GH200 捆绑的软件堆栈是其突出的功能之一。
这一全面的解决方案包含多个优化的 SDK、库和工具,旨在充分利用硬件的功能,确保高效的应用程序扩展和改进的性能。 然而,DGX GH200 软件堆栈的广度和深度值得一提,请务必查看 NVIDIA 的白皮书 深入了解软件堆栈的主题。
DGX GH200 的存储要求
为了充分利用 DGX GH200 系统的功能,将其与平衡的高性能存储系统配对至关重要。 每个 GH200 系统都能够通过 NDR25 接口以高达 200 GB/s 的速度读取或写入数据。 对于 256 个 Grace Hopper DGX GH200 配置,NVIDIA 建议采用 450GB/s 的聚合存储性能,以最大限度地提高读取吞吐量。
需要通过适当的存储来推动人工智能项目和底层 GPU 的发展,这是今年夏季最流行的贸易展会巡回讨论。 事实上,我们参加过的每场演出都有其主题演讲的某些部分专门讨论人工智能工作流程和存储。 然而,这些讨论中有多少只是重新定位现有的存储产品,以及有多少会带来人工智能存储的有意义的增强,还有待观察。 目前下结论还为时过早,但我们从存储供应商那里听到了许多传言,这些传言有可能为人工智能工作负载带来有意义的变化。
跨越了一个障碍,更多的障碍还在后面
虽然 DGX GH200 简化了人工智能开发的硬件设计,但重要的是要认识到在生成人工智能领域还存在其他相当大的挑战; 训练数据的生成。
生成式人工智能模型的开发需要大量的高质量数据。 但原始形式的数据并不能立即使用。 它需要大量的收集、清理和标记工作,以使其适合训练人工智能模型。
数据收集是第一步,涉及获取和积累大量相关信息,这通常既耗时又昂贵。 接下来是数据清理过程,需要一丝不苟地关注细节,以识别和纠正错误,处理丢失的条目,并消除任何不相关或冗余的数据。 最后,数据标记的任务是监督学习的一个重要阶段,涉及对每个数据点进行分类,以便人工智能能够理解并从中学习。
训练数据的质量至关重要。 肮脏、质量差或有偏见的数据可能会导致人工智能做出不准确的预测和有缺陷的决策。 仍然需要人类专业知识,并且需要付出巨大的努力来确保培训中使用的数据既充足又具有最高质量。
这些过程并不简单,需要大量的人力和资本资源,包括训练数据的专业知识,凸显了人工智能开发超越硬件的复杂性。 其中一些问题正在通过诸如 NeMo 护栏 旨在保持生成式人工智能的准确性和安全性。
关闭的思考
NVIDIA DGX GH200 是一个完整的解决方案,旨在重新定义人工智能领域。 凭借其无与伦比的性能和先进功能,它成为推动人工智能未来发展的游戏规则改变者。 无论您是希望突破可能性界限的 AI 研究人员,还是希望利用 AI 力量的企业,DGX GH200 都是一款可以帮助您实现目标的工具。 随着原始计算能力变得更加普遍,观察如何处理训练数据的生成将会很有趣。 在有关硬件版本的讨论中,这一方面经常被忽视。
考虑到所有因素,重要的是要承认 DGX GH200 系统的高成本。 DGX GH200 并不便宜,其高价标签使其完全属于最大的企业和资金最雄厚的人工智能公司(NVIDIA,打我,我想要一个)的领域,但对于那些有能力负担得起的实体DGX GH200 代表了一种范式转变的投资,有可能重新定义人工智能开发和应用的前沿。
随着越来越多的大型企业采用这项技术并开始创建和部署先进的人工智能解决方案,它可能会导致人工智能技术更广泛的民主化。 创新有望渗透到更具成本效益的解决方案中,使小型企业更容易使用人工智能。 基于云的 DGX GH200 计算能力访问变得越来越广泛,使小型企业能够按使用付费的方式利用其功能。 虽然前期成本可能很高,但 DGX GH200 的长期影响可能会波及整个行业,有助于为各种规模的企业创造公平的竞争环境。
参与 StorageReview
电子报 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | TikTok | RSS订阅