存储评论网

英特尔 Arc Pro B60 Battlematrix 预览版:192GB 显存,适用于本地部署人工智能

电子消费品  ◇  打标工作站

英特尔的 Battlematrix 项目为易于使用的 AI 基础设施提供了极具吸引力的解决方案,它通过多 GPU 设计,将大容量 GPU 内存带入工作站机箱。该平台以代号为 Battlemage Arc Pro B60 的专业 GPU 为核心,旨在帮助企业在本地部署大型语言模型,而无需承担云订阅费用或数据隐私方面的担忧。Battlematrix 在单个系统中集成了八块 GPU,最高可提供 192GB 的显存,使其成为 AI 推理工作负载中比其他专业 GPU 生态系统更具成本效益的选择。

 

在Instagram上查看此帖子

 

StorageReview (@storagereview) 分享的帖子

Battlematrix 与传统工作站配置的区别在于英特尔的双 GPU 卡设计,它将两块完整的 B60 GPU 集成在一块 PCB 板上,需要 PCIe 通道分叉支持。这种高密度优化方案使得原本需要服务器主板才能实现的配置成为可能,而 Arc Pro B60 每块 GPU 配备 24GB GDDR6 显存,使其尤其适合内存密集型变形金刚模型。早期测试显示出其巨大的潜力,但软件优化仍落后于硬件性能。

有关声明

测试使用了早期软件和驱动程序版本,包括英特尔 LLM Scaler 的开发分支。此外,我们的测试平台采用的是 AMD EPYC 处理器,而非英特尔的 Xeon 平台。英特尔将 Battlematrix 定位为基于 Xeon 6 处理器的全英特尔解决方案,因此采用英特尔 CPU 的生产系统性能可能高于我们的测试结果。读者应将这些结果视为初步结果,并理解软件成熟度和平台优化将在 2026 年内不断提升。 

规范和架构

规格 Detail
产品集合 英特尔® Arc™ Pro B 系列显卡
代号名称 战斗法师
GPU架构 Xe2(台积电 N5)
xe-颜色 20
渲染切片 5
光线追踪单元 20
XMX发动机 160
Xe矢量引擎 160
图形时钟 2400 MHz
图形时钟(LP 模式) 2000 MHz
GPU FP32 性能 12.28 TFLOPS
GPU峰值TOPS(INT8) 197
主板总功耗 (TBP) 200W 瓦
内存 24 GB GDDR6
存储器接口 192 bit
内存带宽 456 GB /秒
记忆体速度 19 Gbps
PCIe 接口 PCIe 5.0 x8
支持的显示器 4
图形输出 HDMI 2.1 | HDMI 2.1 DP2.1(UHBR 13.5)| DP2.1(UHBR 10)
最大分辨率(HDMI) 7680 x 4320 @ 120Hz
最大分辨率(DP) 7680 x 4320 @ 60Hz
HDMI可变刷新率
VESA自适应同步
H.264 / H.265 / AV1 编码/解码
光线追踪支持
一个API支持
OpenVINO 支持
英特尔 IPEX 支持
Intel XeSS 支持


这个 英特尔 Arc Pro B60 它与专注于游戏的芯片共享相同的硅芯片基础。 英特尔Arc B580两者均采用台积电5nm工艺制造的相同芯片。这款272平方毫米的芯片包含19.6亿个晶体管,集成20个Xe2核心,官方宣称每个GPU可提供12.28 TFLOPS的FP32计算性能和197 TOPS的INT8 AI性能。关键区别在于内存配置:B580配备12GB GDDR6内存,而B60的内存容量翻倍至24GB。

每颗 B60 GPU 的运行频率为 2,400MHz,采用 192 位内存接口,每颗 GPU 可提供 456GB/s 的带宽。该架构每颗 GPU 配备 160 个 XMX(Xe 矩阵扩展)AI 引擎,专为加速 AI 推理中的矩阵运算而设计。

双GPU设计和PCIe分叉

这个 Maxsun Arc Pro B60 Dual 48G Turbo 这体现了英特尔的高密度策略:两颗完整的GPU安装在一张双槽显卡上,并通过PCIe 5.0 x8接口独立连接。与传统的双GPU设计(通过桥接芯片使其作为一个GPU运行)不同,B60的每个GPU都作为独立设备对系统运行,因此需要主板支持PCIe x8/x8通道分割。一个x16插槽在电气上被分割成两个x8接口,每个GPU都获得独立的带宽。

PCIe 5.0 x8 为每张 GPU 提供 128GB/s 的双向带宽,与 PCIe 4.0 x16 相当。双卡配置长度为 300mm,占用两个插槽,采用涡轮式散热,功耗为…… 400W 通过单个 12V-2×6 连接器提供 600W 的总电路板功率。

每张双卡提供四个显示输出接口:两个 DisplayPort 2.1 UHBR20 接口和两个 HDMI 2.1a 接口,每个 GPU 配备一组接口,从而为虚拟桌面环境或多用户系统提供独立的视频输出配置。需要注意的是,每个 GPU 在同一时间只能使用两个显示输出接口中的一个。

 

在Instagram上查看此帖子

 

StorageReview (@storagereview) 分享的帖子

八GPU战斗矩阵配置

英特尔的参考 Battlematrix 规范支持 最多可配备八个 Arc Pro B60 GPU 在工作站机箱内,通过使用四张双GPU显卡实现。此配置可提供:

  • 系统总显存容量为 192GB (8 × 24GB)
  • 1,280 台 XMX AI 引擎
  • 1,576 INT8 顶级 聚合计算
  • 3.6TB/秒 组合内存带宽

该平台需要配备四个支持 PCIe 5.0 x16 插槽的主板,并且 Battlematrix 规格还将包括一个 Xeon 6 处理器;然而,目前尚无关于 Battlematrix 配置的其他信息。

用例和价值主张

目标受众

英特尔的“战斗矩阵计划”(Project Battlematrix)面向三大市场领域:需要本地部署基础设施的人工智能开发团队、使用敏感代码库实施人工智能辅助工作流程的软件工程组织,以及寻求经济高效的云端推理服务替代方案的组织。该平台的核心价值在于数据主权和总体拥有成本优势,优于多年期云订阅服务。

私有人工智能和代理开发

Battlematrix 平台的主要优势在于支持大型语言模型的开发工作流程,这些模型需要广泛的上下文窗口和大量的参数。

构建智能体的开发团队尤其受益于充足的内存空间。RAG 智能体实现通常同时在 GPU 内存中维护多个组件:基础语言模型、用于向量搜索的嵌入模型和重排序模型。此外,智能体工作流执行多步骤推理、工具使用和自我纠错,并通过迭代生成大量的上下文窗口。一个分析大型代码库的编码智能体在其运行生命周期内可能会积累超过 100 万个标记。

未来VDI和虚拟化游戏

英特尔的路线图包括在 Arc Pro B60 GPU 上启用 SR-IOV(单根 I/O 虚拟化)支持,从而将该硬件转变为多用户图形平台。SR-IOV 允许将物理 GPU 细分为多个虚拟 GPU,每个虚拟 GPU 都可以分配给独立的虚拟机,并拥有直接的硬件访问权限和隔离的内存空间。

这项功能解锁了无需授权许可的虚拟桌面基础架构 (VDI) 方案,其中单个配备八 GPU 的 Battlematrix 系统即可支持数十个并发用户,并为 CAD 应用、视频编辑或中等规模的游戏提供专用 GPU 加速。传统的 VDI 解决方案除了硬件成本外,还需要支付昂贵的授权费用,这通常意味着需要更昂贵的专业级或数据中心级 GPU。英特尔致力于提供无需授权许可的虚拟化技术,从而消除了这笔运营成本。

定价和价值主张

英特尔宣布 Arc Pro B60 的单卡售价约为 600 美元。对于初期测试和开发,单卡或双卡配置(售价 600 至 1,200 美元)提供了较为亲民的入门选择。一张配备 48GB 显存的双 GPU 显卡足以满足量化模型的需求,并能覆盖大部分流行的开源 LLM 应用。

我们测试的这款 Maxsun Dual Arc Pro B60 双 48G Turbo 配置,直接从 Maxsun 购买售价为 1,200 美元,与英特尔最初的报价一致。不过,近期内存价格的波动可能会影响最终售价。

入门级价格,超值之选

单卡和双卡配置为小型团队、独立开发者和家庭实验室用户提供了极具吸引力的经济方案。24GB GPU 显存版本售价 600 美元,48GB 版本售价 1,200 美元,该平台的价格远低于通常至少贵一倍的专业级 GPU 产品。

对于那些正在探索人工智能集成但又不想投入企业预算的组织来说,这种价值主张尤其具有吸引力。

vLLM 在线服务基准性能

vLLM 是目前最流行的 LLM 高吞吐量推理和服务引擎。vLLM 在线服务基准测试是一个性能评估工具,用于衡量并发请求下的实际服务性能。它通过向运行中的 vLLM 服务器发送请求来模拟生产环境中的工作负载,并可配置请求速率、输入/输出长度和并发客户端数量等参数。该基准测试测量关键指标,包括吞吐量(每秒令牌数)、首令牌时间 (TTFT) 和每个输出令牌的时间 (TPOT),帮助用户了解 vLLM 在不同负载条件下的性能。

测试平台:

量化支持与局限性

这些GPU在低精度推理方面应该表现出色,针对INT4量化可以获得最佳性能。然而,由于我们测试的是英特尔LLM Scaler的早期开发版本,只有最初使用MXFP4微缩放格式训练的GPT OSS模型能够正常工作。其他量化格式,包括标准的INT4、FP8和AWQ,都无法启动。这一限制极大地限制了我们对这些GPU的全面测试,但我们预计随着软件栈的成熟,对量化的支持范围会更广。

我们使用两种配置测试了大多数模型:完整的八GPU Battlematrix 配置和将模型加载到内存所需的最小GPU数量。这种对比揭示了一些有趣的扩展特性,尤其是在较低批处理大小下通信开销方面。

微扩展数据类型

微尺度量化是一种先进的量化方法,它对小块权重应用精细的缩放因子,而不是对大块参数进行均匀量化。MXFP4 格式使用分块浮点表示来实现这项技术,其中每个微尺度块共享一个公共指数作为缩放因子,从而在保持数值精度的同时达到 4 位精度。MXFP4 数据类型的一个关键优势在于,将模型量化为 INT4 不会像从 BF16 等更高精度格式量化那样严重降低响应质量。由于 B60 本身不支持 MXFP4,因此 GPT OSS 模型在 B60 上运行时使用 INT4 量化。

OpenAI GPT-OSS 20B

20B 参数模型清晰地展示了通信开销现象。在批处理大小为 1 时,单个 GPU 的吞吐量为每用户 49.22 tok/s,而分布在所有八个 GPU 上时仅为 22.83 tok/s。单 GPU 配置的性能比八 GPU 配置高出两倍以上。然而,八 GPU 配置在高并发情况下表现出色,在批处理大小为 16 时实现了 511.99 tok/s 的总吞吐量。

实际上,在批处理大小为 16 时,最低 GPU 配置的总吞吐量反而更高:TP=4 时为 626.84 tok/s,而 TP=8 时为 511.99 tok/s。这一反直觉的结果表明,对于能够在较少 GPU 上轻松运行的模型和上下文长度,增加硬件会增加通信开销,而不会带来相应的性能提升。

OpenAI GPT-OSS 120B

更大的 120B 型号至少需要 4 个 GPU,因此无法进行单 GPU 对比。四 GPU 和八 GPU 配置的性能更为接近,在批处理大小为 1 时,每个用户的吞吐量几乎相同(均为 16.28 tok/s)。八 GPU 配置通过数据并行化,在大批处理大小下提供了适度的性能提升。

专家组合:Qwen3 程序员 30B-A3B

稀疏 MoE 架构在推理过程中仅激活部分参数,同时保持大量的参数数量。Qwen3 Coder 30B-A3B 从其完整的 3 亿参数池中为每个 token 激活约 30 亿个参数,因此常用于本地编码辅助部署。


在 BF16 精度下进行测试,四 GPU 配置再次展现了在较小批处理大小下的优势。批处理大小为 1 时,TP=4 时单用户吞吐量达到 15.34 tok/s,而 TP=8 时为 14.15 tok/s。

密集模型

密集模型遵循传统的 LLM 架构,在推理过程中使用所有参数和激活值,因此与稀疏模型相比,计算量更大。 在我们的测试期间,由于 INT4 量化功能无法正常工作,这些模型以 BF16 精度运行。

骆驼 3.1 8B 指导

紧凑型 8B 模型可轻松安装在单个 GPU 上,但我们测试了多种配置以表征其扩展性能。结果证实了这一规律:在批处理大小为 8 时,四个 GPU 的总吞吐量为 240.48 tok/s,而八个 GPU 的总吞吐量为 227.90 tok/s。批处理大小为 1 时,每个用户的吞吐量几乎相同(分别为 22.37 tok/s 和 22.83 tok/s)。

Mistral Small 3.1 24B 指令

24B 参数的 Mistral 模型代表了更苛刻的工作负载。在 BF16 精度下,该模型在高批处理大小下实现了强大的吞吐量扩展性,在所有八个 GPU 上,批处理大小为 256 时吞吐量达到了 574.16 tok/s。


发现

所有测试模型都呈现出一致的模式: 在低批次大小下,使用我们 256 个输入/输出令牌的配置,采用拟合模型所需的最少 GPU 数量,比将任务分配到所有八个 GPU 上,能提供更好的单用户性能。即使 PCIe 速度达到 5.0,通过 PCIe 进行的 GPU 间通信开销也会引入延迟,这超过了单用户或低并发场景下的并行化优势。

这一发现对部署规划具有实际意义。运行单用户编码助手或低并发代理工作流程的组织可以使用较小的 GPU 配置,即可获得可接受的性能。完整的八 GPU Battlematrix 配置最适用于批量推理工作负载、合成数据生成或高并发服务场景,在这些场景中,总吞吐量比单次请求延迟更为重要,尤其是在使用需要更多内存的大型模型时。

使用 Arc Pro B60s 的经验

在我们进行的有限测试中,整个过程非常顺利。显卡的启动和运行都很简单,而设置支持 Battlemage 的 vLLM 开发分支 LLM-Scaler 也同样简单。然而,该软件仍处于早期开发阶段。测试开始时,我们无法获取任何 GPU 统计数据,而且除了张量并行之外,我们尝试了其他并行策略,例如专家并行或流水线并行,但都无法实现跨多个系统的扩展。不过,考虑到该软件栈仍处于预发布阶段,这些限制也在意料之中。

冷却技术在我们的应用之后引发了广泛的讨论。 YouTube 短片许多评论者担心这些显卡在我们的开放式测试平台上可能会过热。由于缺乏温度监测设备,我们最终将显卡移至服务器机箱中,以确保足够的空气流通。我们计划在完整的评测中测试工作站配置下的散热性能,因为正如英特尔上方宣传图所示,最终的 Battlematrix 版本是将这些显卡紧密堆叠在工作站机箱中的。 

就外形尺寸而言,这些显卡比标准工作站显卡略长,这可能会造成机箱兼容性问题。不过,它们可以轻松安装在服务器机箱中,因为大多数服务器机箱在显卡前端都预留了额外的空间用于安装支撑支架。

未来测试计划

我们计划在B60s正式发布并全面上市后,重新审视英特尔Battlematrix并进行更全面的评测。我们将通过在各种模型和部署配置下进行额外的vLLM测试来评估LLM推理性能。虽然本次预览中未展示,但我们观察到,这些GPU在当前的软件状态下,预填充操作的性能优于解码操作。完整的评测将深入研究预填充密集型和解码密集型推理工作负载,以详细描述这种性能表现。

家庭实验室社区表示有兴趣将这些 GPU 用于最流行的家庭实验室工作负载之一:媒体服务器。我们计划与社区成员一起,使用 Plex 和 Jellyfin 对这些 GPU 进行测试。 Discord 专属社区. 专业工作负载也在我们的关注范围内,包括用于 CAD 性能测试的 SolidWorks 和 Autodesk 软件。我们还计划研究 SR-IOV 与 Proxmox 的结合,为 Discord 成员部署多用户 VDI 服务器,以评估并发桌面密度和云游戏性能。

结语

英特尔 Arc Pro B60 Battlematrix 是一款令人振奋的平台,它以工作站的价格提供了高容量 GPU 内存。双 GPU 卡设计解决了密度限制问题,每个 GPU 分配 24GB 内存以满足 LLM 推理工作负载的需求,而其定价结构则使其成为现有专业 GPU 生态系统的有力替代方案。对于那些优先考虑数据主权和成本效益而非极致性能的企业而言,该平台值得考虑。

软件成熟度仍然是主要制约因素。英特尔通过LLM Scaler对框架优化进行投入,并持续改进驱动程序,表明其致力于保持Arc系列GPU的卓越价值。 

目前尚不清楚八GPU战斗矩阵配置与之前提供的惊人性能相比会有多受欢迎。 NVIDIA DGX Spark真正的故事可能在于单卡和双卡配置,600-1,200 美元的入门价格大幅降低了探索私有 AI 基础设施的门槛。

随着驱动程序更新和软件框架的日趋成熟,我们将继续扩大测试范围。如果您想亲自体验这些功能,欢迎加入我们的测试团队。 Discord服务器我们有一个社区服务器,但 B60 访问权限有限。

参与 StorageReview

订阅消息 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | TikTok | RSS订阅

迪维扬什·贾恩

我是一名机器学习工程师,同时也是一名家庭实验室爱好者和技术发烧友。在 Storage Review,我负责人工智能和新兴工作负载测试,旨在提供实用的见解和性能分析。