NVIDIA GTC 2024 来了;多年来第一次亲自回来。乔丹在活动现场带来了有关领先人工智能活动的所有最新新闻和分析。
NVIDIA 的 GPU 技术大会 (GTC) 多年以来一直以虚拟方式举办,如今再次以现场形式举行。对于创新者、研究人员、科学家和技术爱好者来说,这是一次精彩的活动,可以看到这家科技巨头的最新技术。今年的 NVIDIA GTC 2024 备受科技界期待,展示了人工智能、深度学习、自动驾驶汽车和全新 Blackwell 架构方面的最新突破。
以下是 NVIDIA 首席执行官黄仁勋周一主题演讲的要点。它围绕 NVIDIA 的新 Blackwell 架构、网络、量子计算进步和软件堆栈更新。
英伟达布莱克威尔
准备重新定义加速计算的六项突破性技术是 Blackwell 创新的核心。从增强数据处理到革新药物设计等,NVIDIA 正在制定新标准。亚马逊和微软等备受瞩目的采用者已经在排队等待 Blackwell 的变革潜力。
让我们深入了解 NVIDIA 所实现的工程奇迹。 Blackwell GPU 在两个芯片上封装了多达 208 亿个晶体管,这是通过利用两个掩模版极限 4NP TSMC 工艺实现的。这种方法挑战了半导体制造的界限,并引入了一种将芯片与超快的 10TB/s 接口连接的新颖方法。这种向小芯片设计的转变反映了 NVIDIA 突破传统界限的雄心。
规格 | H100 | B100 | B200 |
最大内存 | 80GB HBM3 | 192GB HBM3e | 192GB HBM3e |
内存带宽 | 3.35TB/秒 | 8TB/秒 | 8TB/秒 |
FP4 | – | 14 浮点数 | 18 PFlops |
FP6 | – | 7 浮点数 | 9 浮点数 |
FP8/INT8 | 3.958 PFLOPS/POPS | 7 PFLOPS/POPS | 9 PFLOPS/POPS |
FP16/BF16 | 1979 TFLOPS | 3.5 浮点数 | 4.5 浮点数 |
TF32 | 989 TFLOPS | 1.8 浮点数 | 2.2 浮点数 |
FP64 | 67 TFLOPS | 30 TFLOPS | 40 TFLOPS |
最大功耗 | 700W | 700W | 1000W |
注意:这里的所有数字都代表稀疏矩阵计算的性能。
这不仅仅是封装更多晶体管的问题。 FP4 和 FP6 计算能力的引入将高效模型训练提升到了一个新的水平,尽管模型性能略有牺牲。这种权衡是该平台的一个微妙的方面,反映了效率和精度之间复杂的平衡行为。
Blackwell 中的第二代 Transformer 引擎在使用 FP4 时实现了计算、带宽和模型大小功能的飞跃,带来了对人工智能未来发展至关重要的改进。此外,集成 PCIe Gen6 和新的 HBM3e 内存技术可大幅提升带宽,与第五代 NVLink 结合使用时,带宽将比上一代翻倍,达到惊人的 1.8TB/s。
更有趣的引入之一是 RAS 引擎,它增强了大规模 AI 部署的可靠性、可用性和可维护性。这项创新可以显着提高模型触发器利用率,解决扩展人工智能应用程序的关键挑战之一。
借助 Blackwell,NVIDIA 带来了新的机密计算功能,包括业界首款支持可信执行环境 (TEE)-I/O 的 GPU,将 TEE 从 CPU 扩展到 GPU。这确保了私人数据的安全和快速处理,这对于训练生成人工智能至关重要。这项创新对于处理隐私法规或专有信息的行业尤其重要。 NVIDIA Blackwell 的机密计算可在不影响性能的情况下提供无与伦比的安全性,并提供与未加密模式几乎相同的吞吐量。这一进步不仅可以保护大型人工智能模型的安全,还可以实现机密的人工智能训练和联邦学习,从而保护人工智能的知识产权。
NVIDIA Blackwell 中的解压缩引擎标志着数据分析和数据库工作流程的重大飞跃。该引擎能够以高达 800GB/s 的惊人速度解压缩数据,显着增强数据分析的性能并缩短获得洞察的时间。与 8TB/s HBM3e 内存和高速 NVLink-C2C 互连配合,可加速数据库查询,使 Blackwell 在查询基准测试中比 CPU 快 18 倍,比之前的 NVIDIA GPU 快 6 倍。该技术支持最新的压缩格式,使 NVIDIA Blackwell 成为数据分析和科学领域的强大力量,从而大幅加快端到端分析流程。
尽管取得了技术奇迹,但 NVIDIA 声称将 LLM 推理运营成本和能源降低高达 25 倍的说法还是令人惊讶,特别是考虑到缺乏详细的功耗数据。这一说法虽然值得注意,但可能会受益于进一步澄清以充分衡量其影响。
总而言之,NVIDIA 的 Blackwell 平台证明了该公司对突破人工智能和计算可能性界限的不懈追求。凭借其革命性的技术和雄心勃勃的目标,Blackwell 不仅是向前迈出了一步,而且是一个巨大的飞跃,有望推动各个行业的各种进步。随着我们深入研究这个加速计算和生成式 AI 的时代,NVIDIA 的创新可能会成为下一次工业革命的催化剂。
NVIDIA 布莱克韦尔 HGX
拥抱Blackwell架构,NVIDIA更新了HGX服务器和基板系列。与之前型号相比的这一重大演变带来了引人注目的变化,特别是降低了总拥有成本,同时显着提高了性能。这个比较是惊人的——当将 FP8 与 FP4 进行比较时,性能显着提高了 4.5 倍。即使将 FP8 与其前身匹配,性能也几乎翻倍。这不仅仅与原始速度有关;还与原始速度有关。这是内存效率的一次飞跃,聚合内存带宽激增了 8 倍。
规格 | HGX H100 | HGX H200 | HGX B100 | HGX B200 |
最大内存 | 640GB HBM3 | 1.1TB HBM3e | 1.5TB HBM3e | 1.5TB HBM3e |
内存带宽 | 7.2TB/秒 | 7.2TB/秒 | 8TB/秒 | 8 TB / s |
FP4 | – | – | 112 浮点数 | 144 浮点数 |
FP6 | – | – | 56 浮点数 | 72 浮点数 |
FP8/INT8 | 32 PFLOPS/POPS | 32 PFLOPS/POPS | 56 PFLOPS/POPS | 72 PFLOPS/POPS |
FP16/BF16 | 16 浮点数 | 16 浮点数 | 28 浮点数 | 36 浮点数 |
NVIDIA Grace-Blackwell 超级芯片
深入探讨 NVIDIA 最新发布的复杂内容,重点关注 Blackwell 平台武器库的基石 GB200。随着 NVIDIA 不断突破高性能计算的极限,GB200 代表了其 GPU 产品的重大发展,将尖端技术与连接性和可扩展性方面的战略进步融为一体。 GB200 配备两个 B200 GPU;该配置与上一代 GH200 不同,后者在 GPU 和 Grace CPU 之间采用一对一连接。这次,两个 B200 GPU 通过 900GB/s 芯片到芯片 (C2C) 链路连接到同一个 Grace CPU。
规格 | GH200 | GB200 |
最大内存 | 144GB HBM3e | 384GB HBM3e |
内存带宽 | 8TB/秒 | 16TB/秒(聚合) |
FP4 | – | 40 浮点数 |
FP6 | – | 20 浮点数 |
FP8/INT8 | 3.958 PFLOPS/POPS | 20 浮点数 |
FP16/BF16 | 1979 TFLOPS | 10 浮点数 |
TF32 | 989 TFLOPS | 5 浮点数 |
FP64 | 67 TFLOPS | 90 TFLOPS |
PCIe通道 | 4 个 PCIe 第 5 代 x16 | 2 个 PCIe 第 6 代 x16 |
最大功耗 | 1000W | 2700W |
# 注意:这里的所有数字都代表稀疏矩阵计算的性能。
乍一看,保留上一代 900GB/s C2C 链路的决定似乎是一种限制。然而,这种设计选择强调了一种经过深思熟虑的策略,可以利用现有技术,同时为新的可扩展性水平铺平道路。 GB200 的架构允许其以 576TB/s 的速度与多达 1.8 个 GPU 进行通信,这得益于第五代 NVLink。这种级别的互连对于构建训练和部署最大、最复杂的人工智能模型所需的大规模并行计算环境至关重要。
NVIDIA 网络堆栈更新
将 GB200 与 NVIDIA 最新网络技术、Quantum-X800 InfiniBand 和 Spectrum-X800 以太网平台集成 提出了有关连接和带宽的有趣问题。提及 800Gb/s 功能暗示 NVIDIA 正在探索 PCIe Gen6 可以带来的优势。
GB200 配置及其双 GPU 设置和高级网络选项代表了 NVIDIA 对 HPC 未来的愿景。这一愿景不仅涉及单个组件的原始功能,还涉及如何在连贯、可扩展的系统中协调这些组件。通过实现更高程度的互连性并保持计算能力和数据传输速率之间的平衡,NVIDIA 解决了人工智能研究和开发中的一些最关键的挑战,特别是在处理呈指数级增长的模型大小和计算需求方面。
NVIDIA 第五代 NVLink 和 NVLink 交换机
第五代 NVLink 标志着高性能计算和人工智能领域的一个重要里程碑。该技术增强了 GPU 之间的连接和通信能力,这是人工智能基础模型快速发展的需求的一个关键方面。
第五代NVLink将其GPU连接能力提升至576个GPU,较之前的256个GPU的限制大幅增加。与之前的版本相比,此次扩展带来了双倍的带宽,这对于日益复杂的基础人工智能模型的性能来说是一个关键的增强。
每个 Blackwell GPU 链路都拥有两个高速差分对,与 Hopper GPU 类似,但它在每个方向上实现了每个链路 50GB/秒的有效带宽。这些 GPU 配备 18 个第五代 NVLink 链路,提供惊人的 1.8 TB/s 总带宽。该吞吐量是当前 PCIe Gen 14 的 5 倍以上。
另一个显着的功能是 NVIDIA NVLink Switch,它在单个 130 GPU NVLink 域 (NVL72) 中支持 72TB/s GPU 带宽,这对于模型并行性至关重要。通过新的 NVIDIA 可扩展分层聚合和缩减协议 (SHARP) FP8 支持,该交换机还使带宽效率提高了四倍。
此外,NVIDIA统一结构管理器(UFM)通过为NVLink计算结构提供强大且经过验证的管理来补充NVLink交换机。
机架中的百亿亿次计算
DGX GB200 NVL32 建立在其前身 GraceHopper GH200 NVL72 奠定的强大基础之上,它不仅仅是升级版;这是扩展计算能力和效率的基石进步。 DGX GB200 NVL72 平台展示了全面的惊人进步。每个 DGX GB200 NVL72 系统包含 18 个 GB200 SuperChip 节点,每个节点包含 2 个 GB200。
该平台将 GPU 数量从 32 个增加到 72 个,CPU 数量从 32 个适度增加到 36 个。然而,内存的飞跃是引人注目的,从 19.5 TB 跃升至令人印象深刻的 30 TB。这种扩张不仅涉及更重要的数字,还涉及更多的数字。它是关于启用新的计算能力梯队,特别是在处理最复杂的人工智能模型和模拟方面。
最令人瞠目结舌的升级之一是计算性能的飞跃。与 FP127 性能进行比较时,该平台从 1.4 PetaFLOPS 跃升至 4 ExaFLOPS,大约提高了 11 倍。这一比较表明 NVIDIA 致力于突破精度和速度的界限,特别是在人工智能和机器学习领域。然而,即使将 FP8 与 FP8 进行比较,该平台也实现了 5.6 倍的增长,从 127PF 增加到 720PF,凸显了效率和计算能力的显着进步。
维持完全水冷系统的承诺与 NVIDIA 对可持续性和性能优化的关注相呼应。这种方法提高了系统的运行效率,并符合更广泛的行业趋势,即更环保的数据中心技术。
由 NVIDIA GB200 Grace Blackwell Superchips 提供支持的 NVIDIA DGX SuperPOD
NVIDIA 还发布了下一代 AI 超级计算机 DGX SuperPOD,配备 8 个 NVIDIA GB200 NVL72 Grace Blackwell 系统。这种强大的设置专为处理万亿参数模型而设计,在其液冷、机架级架构中拥有 FP11.5 精度的 4 exaflops 人工智能超级计算能力。每个 GB200 NVL72 系统都包含 36 个 NVIDIA GB200 超级芯片,在大型语言模型推理工作负载方面的性能比其 H30 前辈提高了 100 倍。
NVIDIA 首席执行官黄仁勋表示,DGX SuperPOD 的目标是成为“人工智能工业革命的工厂”。
量子模拟云
NVIDIA 还推出了量子模拟云服务,使研究人员能够探索各个科学领域的量子计算。该服务基于开源 CUDA-Q 平台,为构建和测试量子算法和应用程序提供了强大的工具和集成。与多伦多大学以及 Classiq 和 QC Ware 等公司的合作凸显了 NVIDIA 加速量子计算创新的努力。
NVIDIA NIM 软件堆栈
另一个重大公告是 NVIDIA NIM 软件堆栈的推出,提供数十种企业级生成式 AI 微服务。这些服务允许企业在其平台上创建和部署自定义应用程序,优化流行 AI 模型的推理,并利用 NVIDIA CUDA-X 微服务增强各种应用程序的开发。黄仁勋强调了这些微服务将跨行业的企业转变为人工智能驱动的实体的潜力。
OVX 计算系统
为了应对各行业生成式 AI 的快速增长,NVIDIA 推出了 OVX 计算系统,这是一种旨在简化复杂 AI 和图形密集型工作负载的解决方案。认识到高性能存储在 AI 部署中的关键作用,NVIDIA 与 DDN、 戴尔 PowerScale、NetApp、Pure Storage 和 WEKA。
新计划标准化了合作伙伴验证其存储设备的流程,确保企业人工智能工作负载的最佳性能和可扩展性。通过严格的 NVIDIA 测试,这些存储系统针对不同的参数进行了验证,反映了 AI 应用的挑战性要求。
此外,经过 NVIDIA 认证的 OVX 服务器由 NVIDIA L40S GPU 提供支持,并集成了全面的软件和网络解决方案,可提供灵活的架构来适应不同的数据中心环境。这种方法不仅可以加速数据所在的计算,还可以满足生成式人工智能的独特需求,确保效率和成本效益。 NVIDIA OVX 服务器配备了强大的 GPU,可提供增强的计算能力、高速存储访问和低延迟网络。这对于聊天机器人和搜索工具等需要大量数据处理的高要求应用程序尤其重要。
目前,经 NVIDIA 认证的 OVX 服务器已由技嘉、慧与、联想和 Supermicro 等全球供应商提供和发货,代表着处理复杂 AI 工作负载方面的重大飞跃,有望实现企业级性能、安全性和可扩展性。
关闭的思考
此外,汽车、机器人、医疗保健和生成人工智能领域也发布了公告。所有这些公告都展示了 NVIDIA 对创新的不懈追求,提供先进的工具和平台来推动跨多个领域的人工智能和计算的未来。所有这些都技术含量很高并且具有许多复杂性,特别是在量子计算和软件发布的情况下。随着我们获得有关每个新版本的更多信息,请继续关注对公告的分析。
参与 StorageReview
电子报 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | TikTok | RSS订阅