我们通常会等到文章结束时才勾勒出全貌并完成评论。 然而,戴尔 PowerEdge XE9680 提供了如此令人兴奋的硬件,我们迫不及待地想通过这篇积极的评论来分享我们的兴奋之情。 戴尔的设计以人工智能的需求为中心,以 6U 的外形尺寸提供强大的计算能力。 由于戴尔与英特尔和 NVIDIA 在 XE9680 上的合作,他们推出了一款不仅功能强大而且高效的产品。
我们通常会等到文章结束时才勾勒出全貌并完成评论。 然而,戴尔 PowerEdge XE9680 提供了如此令人兴奋的硬件,我们迫不及待地想通过这篇积极的评论来分享我们的兴奋之情。 戴尔的设计以人工智能的需求为中心,以 6U 的外形尺寸提供强大的计算能力。 由于戴尔与英特尔和 NVIDIA 在 XE9680 上的合作,他们推出了一款不仅功能强大而且高效的产品。
戴尔 PowerEdge XE9680
它的规格令人印象深刻。 两个第四代英特尔至强可扩展处理器(每个 4 个内核)和 56TB DDR2 内存为 AI 加速器提供 CPU 主干。 然后添加八个 NVIDIA HGX H5 或 A100 GPU,通过 SXM 连接并通过 NVLink 连接在一起,该服务器能够处理最大的模型和数据工作负载。
PowerEdge XE9680 的大 RAM 容量(高达 4TB)在处理 AI 工作负载方面具有显着的竞争优势。 如此大的内存占用可以训练更复杂的模型,从而获得更高的性能和更准确的结果。
我们的配置包括前面的 8 个 U.2 NVMe SSD 托架。 但正如我们所看到的 R660,戴尔还打算提供带有 3 个 E16.S SSD 的 E3.S 背板。 该服务器还支持服务器后部的 NVMe BOSS-N1 引导驱动器装备。
这不仅仅是力量
PowerEdge XE9680 不仅仅关乎电源;它还关乎电源。 它还优先考虑安全性和可管理性。 凭借加密签名固件、静态数据加密和安全启动等功能,该服务器可确保您的数据始终受到保护。 嵌入式 iDRAC9 系统提供易于使用的管理界面,提供各种工具和集成,使服务器管理变得简单、轻松。
当我们想要切换服务器上的操作系统安装(稍后会详细介绍)时,我们对此系统进行了测试,并且使用 iDRAC 的加密擦除功能更简单,只需单击几下即可启动干净的系统跟...共事。
之前我们看了戴尔的白皮书 根据 Lambda 设置的映像生成延迟基准进行评估时,XE9680 上的性能以及 Dell PowerEdge XE9680 服务器的性能。 该服务器提供了大约两倍的吞吐量,这证明了 PowerEdge XE9680 的功能和效率。
MLPerf 分数 被广泛认为是此类系统性能的良好排名定位,因此为了利用我们亲身体验 XE9680 A100 和 H100 服务器的时间,我们决定对以下各项进行正面比较:使用这两个系统调整 Meta 的 LLaMa。 为此,我们遵循斯坦福大学的羊驼训练步骤,他们使用 4x A100 系统完成了这一步骤。
XE9680 上的羊驼训练
我们要感谢 NVIDIA 和戴尔团队对此项目的协助。 从硬件和软件的角度来看,这是一项非常尖端的技术,如果没有两家公司行业专家的指导,这将是一个更加漫长、密集的过程。
在 A100 系统上,使用斯坦福 Alpaca Git Hub 上概述的流程,我们可以重现创建 Alpaca 检查点的步骤,完成三个 epoch 的训练,平均大约 90 分钟。
转向 H100 系统后,我们看到了改进,每次运行大约需要 70 分钟即可完成。 由于这些系统的高需求和有限的性质,我们没有机会调整代码本身来探索可能的性能改进,很明显,通过细化和专门用于开发的时间,企业团队可以实现快速转变时间进行微调。
官方非官方
在 A100 风格的 XE9680 上,我们有机会进行一些开箱即用且非常非正统的测试。 我们在系统上安装了Windows Server 2022! 这涉及到一些 iDRAC 驱动器擦除以删除 Linux 安装、使用 iDRAC .iso 文件和虚拟介质的一些技巧来旁加载英特尔网络驱动程序,然后就开始了比赛。 使用来自类似 Dell PowerEdge 系统的芯片组驱动器以及官方 NVIDIA A100 驱动程序。
系统运行稳定,没有出现任何问题。 然而,这是一个非常不寻常的用例,戴尔并未正式支持。 凭借我们全新的 Windows 安装和市场上最好的 XNUMX 个 GPU,我们做到了 我们最擅长什么,基准Pi!
八块 NVIDIA A100 卡无需任何调整即可轻松打破 GPU-Pi 世界纪录,Xeon Platinum CPU 在 y-cruncher 和 Cinebench 上都取得了不错的成绩。 我们尝试了一些其他标准 CPU/GPU 基准测试,但它们工作的希望不大,正如预期的那样,我们遇到了阻止成功运行的软件/编码器问题。 例如,Procyon 甚至不知道它有可用于进行测试的 Tensor GPU。
我们需要再次重申,这只是对不受支持的配置的测试,事实上,我们的一切正常工作令人印象深刻,这证明了戴尔跨平台生产一致硬件的能力。 在任何生产环境中的此类系统上使用 Windows Server 都是不明智的。
测试 | 结果 |
Cinebench 多 | 90,710 |
单人影院 | 174 |
CB MP 口粮 | 77.24 |
Geekbench 6 显卡 | 197,669 |
Geekbench 6 单 | 1,678 |
Geekbench6 多 | 16,425 |
怪物: |
每分钟 855.080461 个样本
|
旧货店: |
每分钟 546.636998 个样本
|
课堂: |
每分钟 394.441850 个样本
|
GPU Pi 3.2 1 亿 | 0.394秒 |
GPU Pi 3.3 1 亿 | 0.317秒 |
值得注意的是,如此令人印象深刻的性能不仅会转化为速度,还会影响人工智能的实际应用。 凭借更快的再培训和微调能力,企业可以显着提高敏捷性,从而能够快速响应市场变化、客户需求和内部要求。 例如,设计团队可以实时评估和完善概念,从而显着缩短上市时间,或者合规团队可以使用助理型法学硕士的最新政策和程序不断培训和微调更新的模型。
使用生成式人工智能转变运营
Dell PowerEdge XE9680 可以促进生成式 AI 改变多个行业运营。 想象一下零售场景,人工智能可以根据客户偏好快速生成各种产品配置或颜色选项的真实图像,或者建筑企业创建新建筑的可视化以进行规划和销售演示。 可能性是令人着迷的。
Dell PowerEdge XE9680 完美融合了功能、效率和多功能性。 它是一款高性能服务器,可以轻松处理要求苛刻的人工智能工作负载。 虽然它是专门为满足人工智能工作负载而设计的,但其功能使其有可能对其他应用程序有用。
再加上戴尔致力于帮助组织通过以下方式执行人工智能项目: 螺旋计划,PowerEdge XE9680 是一个令人兴奋的主张,也是我们全年看到的最好的硬件创新之一。 凭借其提供原始功率、精细技术和企业级生命周期管理的能力,戴尔 PowerEdge XE9680 迅速成为企业服务器的热门产品也就不足为奇了。
参与 StorageReview
电子报 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | TikTok | RSS订阅