存储评论网

NVIDIA 在 CES 2026 上发布 Vera Rubin 架构:VR NVL72 机架

AI  ◇  DPU  ◇  企业版  ◇  社交  ◇  服务器  ◇  服务器机架

在 2026 年国际消费电子展 (CES) 上,NVIDIA 发布了 Rubin 平台,其核心产品是 Vera Rubin NVL72 机架式系统。这是 NVIDIA 的第三代机架式架构,将六款联合设计的芯片集成到一个统一的系统中。该平台将于 2026 年下半年通过合作伙伴渠道发售,所有六款芯片均已完成制造,目前正在进行实际工作负载验证。

Vera Rubin NVL72:六芯片,一个统一系统

Vera Rubin NVL72 采用了 NVIDIA 所谓的“极限协同设计”,其中六个不同的芯片被共同开发,以作为一个统一的系统运行。

Vera CPU:专为人工智能工厂设计的ARM芯片

NVIDIA 首次展示的芯片是 Vera CPU,NVIDIA 继续加大对用于 AI 工作负载的定制 ARM 芯片的投入。Vera CPU 基于 88 个定制的 Olympus ARM 内核,完全兼容 Armv9.2,专为满足现代 AI 工厂的数据传输和智能体处理需求而设计。它采用 NVLink-C2C 连接,可为 Rubin GPU 提供 1.8 TB/s 的带宽,C2C 带宽是上一代产品的两倍,运行速度是 PCIe Gen 6 的七倍。与上一代 Grace CPU 相比,Vera CPU 在数据处理、压缩和代码编译方面的性能提升了一倍。

代际对比:Blackwell Ultra 与 Vera Rubin NVL72

规格 GB300 NVL72(Blackwell Ultra) VR NVL72(维拉·鲁宾)
GPU 数量 72块Blackwell Ultra GPU 72 个 Rubin GPU
CPU数量 36 个 Grace CPU 36个Vera CPU
CPU内核 每个CPU配备72个ARM核心 每个CPU配备88个奥林巴斯ARM核心
FP4推理性能 1.44 百亿亿次浮点运算 3.6 百亿亿次浮点运算
每个 GPU 的 NVFP4(推理) 20 浮点数 50 浮点数
每个 GPU 的 NVFP4(训练) 10 浮点数 35 浮点数
GPU内存类型 HBM3e HBM4
GPU内存带宽 约 8 TB/秒 约 22 TB/秒
NVLink 一代 NVLink 5 NVLink 6
NVLink带宽(每个GPU) 1.8 TB / s 3.6 TB / s
机架级 NVLink 带宽 130 TB / s 260 TB / s
横向扩展网卡 ConnectX-8(800 Gb/s) ConnectX-9(1.6 TB/s)
CPU-GPU互连 NVLink-C2C(900 GB/s) NVLink-C2C(1.8 TB/s)

Rubin GPU:Transformer Engines、NVFP4 和 HBM4

接下来是本次发布会的明星产品——NVIDIA Rubin GPU。它搭载了第三代Transformer引擎,并配备了硬件加速的自适应压缩技术。这项技术能够动态调整Transformer各层的精度,在可以降低精度的地方提高吞吐量,同时在关键区域保持高精度。这款NVFP4实现的推理计算能力高达50 petaflops(是Blackwell的5倍),训练计算能力高达35 petaflops(是Blackwell的3.5倍)。Rubin GPU是首款集成HBM4显存的GPU,带宽高达22 TB/s,这一显著提升解决了大型MoE模型面临的内存带宽瓶颈问题。

NVLink 6:机架级全对全通信

NVIDIA NVLink 6 交换机将单 GPU 带宽提升至 3.6 TB/s,整套机架可提供 260 TB/s 的纵向扩展网络带宽——超过全球互联网横截面带宽的两倍。这种纵向扩展架构使每个 GPU 都能同时与其他所有 GPU 通信(这是 MoE 专家并行计算的必要条件),其中所有专家必须在集群内共享计算结果。内置的网络内计算能力可加速集体运算并减少网络拥塞,从而卸载原本会占用 GPU 计算周期的工作。

ConnectX-9 SuperNIC:重新定义横向扩展网络

NVIDIA ConnectX-9 超级网卡可处理横向扩展网络,每个 GPU 可提供 1.6 TB/s 的 RDMA 带宽,实现机架外部的通信。ConnectX-9 与 Vera CPU 联合设计,旨在最大限度地提高数据路径效率,并引入完全软件定义、可编程的加速数据路径,使 AI 实验室能够实现针对其特定模型架构优化的自定义数据传输算法。

BlueField-4 DPU 和 ASTRA 安全架构

BlueField-4 是 NVIDIA 的第四代数据处理单元 (DPU),它从根本上重新定义了 AI 工作负载的存储和网络架构。与 BlueField-3 的 16 个 ARM Cortex-A78 核心相比,这款全新的 DPU 配备了 64 核 NVIDIA 级 CPU,计算性能提升了 6 倍。它集成了 ConnectX-9 SuperNIC(而非 BlueField-3 的 ConnectX-7),网络带宽翻倍至 800 Gb/s。GPU 对数据存储的访问速度也比上一代产品快了 2 倍。除了规格上的提升,BlueField-4 的意义在于它所实现的:一种全新的 AI 原生存储基础设施,NVIDIA 将其定位为大规模智能 AI 的关键所在。

BlueField-4 将网络、存储和安全处理任务卸载到 CPU 上,使 Rubin GPU 和 Vera CPU 能够专注于模型执行。它已完全集成到 NVIDIA 企业级 AI 工厂的验证设计中,并获得 Red Hat、Palo Alto Networks、Fortinet 等公司的生态系统支持。

BlueField-4 还引入了 ASTRA(高级安全可信资源架构)。这种系统级信任架构提供了一个统一的控制点,用于安全地配置、隔离和运行大规模 AI 环境,同时不会影响性能。

整个机架上的机密计算

Vera Rubin NVL72 是首款在整个系统范围内提供 NVIDIA 机密计算的机架级平台。第三代机密计算可在 CPU、GPU 和整个 NVLink 域中维护数据安全,所有总线在传输过程中均经过加密。这解决了企业和 AI 实验室在共享基础设施上运行专有模型时日益关注的问题:即使部署在第三方系统上,也能确保模型、训练数据和推理工作负载的安全。

NVIDIA Spectrum-6 以太网交换机为 NVIDIA 的横向扩展网络提供强大支持。它基于 200G SerDes 技术,采用共封装光模块 (CPO),交换容量高达 102 TB/s,可为 VR NVL72 机架提供东西向流量支持。采用 CPO 技术意义重大。NVIDIA 声称,通过将光模块直接集成到交换机芯片中,与传统的可插拔光模块相比,可靠性提高了 10 倍,正常运行时间延长了 5 倍,电源效率提高了 5 倍。

降低教育部模型成本和提高效率

NVIDIA 表示,VR NVL72 在与 Blackwell 相同的延迟下,进行大型混合专家模型推理时,代币成本仅为 Blackwell 的七分之一。它只需四分之一的 GPU 即可在相同时间内训练相同的大型 MoE 模型。该平台每瓦的推理计算能力是 Blackwell 的 8 倍。

这些改进满足了 MoE 模型的需求,这类模型针对任何给定的令牌仅激活其专家子集。例如,Kimi K2 Thinking 模型使用了 384 位专家,但每次只激活 8 位,这需要大量的 GPU 间通信。VR NVL72 的 260 TB/s 可扩展网络能够处理这种通信模式。

专为大规模应用而设计的无缆机架

VR NVL72 采用模块化、无电缆、无风扇、无软管的托架设计,仅使用 PCB 和连接器,无需内部布线。计算托架插入机架时通过盲插连接器连接,无需手动布线。唯一的外部连接是连接到液冷模块的两根液体进出水软管。

之前的系统,例如 GB300 NVL72,组装一个计算托架大约需要 100 分钟。每根线缆连接都是潜在的故障点,在数十万个 GPU 的规模下,这个问题尤为严重。线缆布线限制了散热路径并占用空间,而风扇则增加了机械复杂性和噪音。

全新设计将组装和维护时间缩短了 18 倍。该平台还配备了第二代 RAS(可靠性、可用性、可维护性)引擎,涵盖 GPU、CPU 和 NVLink,提供实时健康检查、容错和主动维护功能。NVLink 交换机托架现在支持零停机维护,即使移除或部分安装交换机托架,机架也能保持运行。在数十万 GPU 的规模下,这些可维护性的改进将直接转化为集群的正常运行时间和吞吐量。

这种架构为未来更高密度的配置奠定了基础。这也是关键所在。 允许之前预告过的 我们在人工智能基础设施峰会上介绍了 Vera Rubin CPX 机架设计。此外,还增加了上下文处理 GPU。 在原本就十分紧凑的设计中,仍然使用相同的计算模块。

推理上下文记忆存储平台

NVIDIA 在 CES 2026 上发布了推理上下文内存存储平台,这是一种专为键值缓存 (KV 缓存) 构建的全新 AI 原生存储基础设施。该平台采用 BlueField-4 和 Spectrum-X 以太网技术,与用于推理上下文的传统网络存储相比,其每秒令牌处理能力提升高达 5 倍,每美元总拥有成本 (TCO) 性能提升高达 5 倍,能效提升高达 5 倍,并且首次令牌处理时间缩短了 20 倍。BlueField-4 的硬件加速 KV 缓存放置功能消除了元数据开销并减少了数据移动,而 Spectrum-X 以太网则为基于 RDMA 的访问提供了高带宽、低延迟的架构。

该平台旨在解决LLM推理中日益严重的瓶颈:键值缓存管理。Transformer模型使用注意力机制,其中每个生成的token都必须关注所有先前的token。如果没有缓存,则需要为每个token重新计算键值向量,导致复杂度为O(n²)。键值缓存将这些预先计算好的矩阵存储在内存中以供重用,从而将复杂度降低到O(n)。问题在于,键值缓存的大小与序列长度和批处理大小呈线性增长。一次长上下文对话可能会消耗数GB的内存。在多租户环境中,处理跨越数百万token的上下文窗口的数千个并发请求,GPU HBM将不堪重负。运维人员必须要么减小批处理大小,要么缩短上下文窗口,要么购买更多GPU。

传统网络存储并非为键值缓存访问模式而设计,这种模式需要对分布在多个并发会话中、可能高达TB级的瞬态数据进行低延迟随机访问。推理上下文内存存储平台提供了一个专用的存储层,专门针对这种工作负载进行了优化,位于GPU HBM和传统存储之间。这使得AI工厂能够独立于GPU计算扩展上下文容量。我们之前介绍过如何使用Pliops的键值缓存加速器在NVIDIA Dynamo中实现键值缓存卸载。NVIDIA通过NVIDIA推理上下文内存存储平台进一步扩展了这一功能,并将其集成到其开源的Dynamo项目中。这提供了一个软件框架,将这个新平台的解耦预填充/解码阶段、智能路由和分层存储卸载整合在一起。

包括 VAST Data、NetApp、DDN、戴尔科技、HPE、日立 Vantara、IBM、Nutanix、Pure Storage 和 WEKA 在内的存储合作伙伴正在构建基于 BlueField-4 的平台。这些平台将于 2026 年下半年上市。

Alpamayo:基于推理的自动驾驶车辆物理人工智能

NVIDIA 发布了 Alpamayo 系列开源 AI 模型、仿真工具和数据集,旨在加速安全、基于推理的自动驾驶汽车 (AV) 开发。Alpamayo 系列引入了基于思维链和推理的视觉-语言-动作模型,使自动驾驶汽车的决策过程能够模拟人类的思维方式。NVIDIA Halo 安全系统为这些系统提供了支持。

传统的自动驾驶架构将感知和规划分离,这会在出现新的或异常情况时限制其可扩展性。罕见且复杂的场景“长尾效应”仍然是自动驾驶系统安全应对的最大挑战之一。Alpamayo 通过使模型能够推理因果关系,逐步思考新的场景,从而提高驾驶能力和可解释性,解决了这一问题。

Alpamayo 模型并非直接在车辆中运行,而是作为大规模的教学模型,开发者可以对其进行微调,并将其提炼成完整自动驾驶技术栈的核心。开发者可以将 Alpamayo 适配成更小的运行时模型用于车辆开发,或者将其用作自动驾驶开发工具(例如基于推理的评估器和自动标注系统)的基础。

Alpamayo 模型、仿真和开放数据集

Alpamayo 1 是业界首款面向自动驾驶研究领域的链式推理 VLA 模型,现已在 Hugging Face 平台上线。Alpamayo 1 采用 10 亿参数架构,利用视频输入生成轨迹和推理过程,展现每个决策背后的逻辑。Alpamayo 1 提供开源的模型权重和推理脚本。该系列未来的模型将拥有更高的参数数量、更精细的推理能力、更灵活的输入输出以及更多商业应用选项。

AlpaSim 是一个完全开源的端到端仿真框架,用于高保真自动驾驶汽车开发,可在 GitHub 上获取。它提供逼真的传感器建模、可配置的交通动态和可扩展的闭环测试环境,从而实现快速验证和策略改进。

物理人工智能开放数据集包含超过 1,700 小时的驾驶数据,涵盖了最广泛的地理区域和路况,囊括了罕见且复杂的现实世界边缘案例,对于推进推理架构至关重要。这些数据集可在 Hugging Face 上获取。

开发人员可以根据专有的舰队数据微调 Alpamayo 模型版本,将其集成到使用 NVIDIA DRIVE AGX Thor 加速计算构建的 NVIDIA DRIVE Hyperion 架构中,并在商业部署之前通过模拟验证性能。

NVIDIA DRIVE、冗余AV堆栈和梅赛德斯-奔驰CLA

英伟达已投入数千人的团队,在自动驾驶汽车领域深耕八年。该公司构建了完整的技术栈:芯片(双路Orin处理器、下一代双路Thor处理器)、基础设施(Omniverse和Cosmos)、模型(Alpamayo)以及应用层。五年前,梅赛德斯-奔驰与英伟达合作部署了这套技术栈。

首款采用NVIDIA全栈式自动驾驶技术的梅赛德斯-奔驰CLA将于2026年第一季度在美国上市,第二季度在欧洲上市,第三/四季度在亚洲上市。欧洲新车安全评鉴协会(Euro NCAP)给予CLA最高主动安全评分,该评分是2025年所有参赛车辆中最高的。系统中的每一行代码和每一个芯片都经过了安全认证。

该系统并行运行两套完整的自动驾驶(AV)协议栈。Alpamayo 协议栈采用链式推理,能够处理复杂的驾驶场景。其底层是一套完整的传统自动驾驶协议栈,具有完全可追溯性,耗时六到七年才开发完成。策略和安全评估人员会根据置信度决定使用哪套协议栈。如果 Alpamayo 遇到置信度不足的场景,系统将回退到传统协议栈。这种软件的多样性和冗余性,与安全关键型系统处理硬件冗余的方式相呼应。

NVIDIA 将继续使用新版本的 Alpamayo 更新系统。包括捷豹路虎、Lucid、Uber 和伯克利 DeepDrive 在内的移动出行合作伙伴正在使用 Alpamayo 开发基于推理的 L4 级自动驾驶技术。

新型物理人工智能模型和机器人技术公告

除了基础设施和系统方面的发布,NVIDIA 还利用 CES 2026 推进其物理人工智能战略,发布了新的开放模型、框架和边缘平台,以加速机器人技术的发展。该公司推出了用于机器人学习的 Cosmos 世界模型和 GR00T 推理模型的更新版本,以及用于大规模机器人评估的全新开源工具(包括 Isaac Lab-Arena)。OSMO 是一个边缘到云的编排框架,旨在简化跨异构计算环境的训练工作流程。

NVIDIA重点介绍了其机器人技术栈在业界的广泛应用,包括Boston Dynamics、Caterpillar、LG Electronics和NEURA Robotics在内的合作伙伴展示了基于NVIDIA技术构建的下一代自主机器人。该公司还宣布与Hugging Face加强合作,将NVIDIA Isaac和GR00T模型集成到开源的LeRobot框架中,进一步扩大全球机器人开发者社区的访问权限。

在边缘计算领域,NVIDIA 确认了搭载 Blackwell 处理器的 Jetson T4000 模块的上市,该模块可显著提升自主机器和工业机器人的 AI 计算能力和能效。这些公告共同强化了 NVIDIA 将其全栈 AI 平台扩展到数据中心之外的战略,该平台涵盖仿真、模型、边缘计算以及在机器人和自主系统中的实际部署。

参与 StorageReview

资讯订阅 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter(现为X) | TikTok | RSS订阅

迪维扬什·贾恩

机器学习工程师、家庭实验室爱好者和技术发烧友。在 Storage Review,我负责人工智能和新兴工作负载测试,旨在提供实用见解和性能分析。