联想在为高性能计算 (HPC) 市场提供解决方案方面一直处于领先地位。 联想的主流产品为最终用户和数据中心管理员所熟知,但联想的 HPC 实力也许是他们保守得最好的秘密。 好吧,秘密就在于成为全球最大的超级计算机供应商(根据维护的数据,其中 32% 前500名).
联想在为高性能计算 (HPC) 市场提供解决方案方面一直处于领先地位。 联想的主流产品为最终用户和数据中心管理员所熟知,但联想的 HPC 实力也许是他们保守得最好的秘密。 好吧,秘密就在于成为全球最大的超级计算机供应商(根据维护的数据,其中 32% 前500名).
从根本上说,联想对 HPC 领域的深刻理解以及抓住机会满足客户需求的意愿推动了这些巨大的 HPC 胜利。 这种冒险精神究竟是如何转化的? 嗯,大约十年前,联想 交付液冷超级计算机 到德国慕尼黑的莱布尼茨超级计算中心。 这一事件帮助改变了超级计算的经济状况,尤其是在欧洲这样的地方,机架空间、冷却和电力都非常宝贵。
联想ThinkSystem SR670 V2
尽管从那时起超级计算领域发生了很大变化,但联想仍在不断创新。 2018年夏天,联想正式推出 海王星,展示了其通过液体冷却实现更高效数据中心的愿景。 通过将 ThinkSystem SD650 推向市场,联想向 HPC 客户展示了对 1U 托盘中的组件进行液体冷却是多么容易,每个托盘支持 2 个 DWX(Neptune 直接水冷)节点。 NeXtScale n1200 机箱 (6U) 最多支持六个托盘。 两年后,联想推出了 SD650-N V2、液冷、Ice Lake CPU、插槽式 GPU、DRAM、存储和 I/O 模块。 在 ThinkSystem SR2 V670 中实施液空 (L2A) 热交换器是联想正向工程的一个示例。
联想 ThinkSystem SD650 V2 配备 Neptune™ 液冷技术
谁需要 HPC 系统?
凭借处理能力、存储创新和内存方面的纯粹性能改进,谁还需要所有这些功能?
各种规模的企业都在寻找更有效的方法来收集和分析数据,以从网络中的多个不同资源中提取情报。 特别是专注于分子生物学、金融、全球气候变化跟踪、快速基因分析和地震成像等计算密集型项目的企业。 HPC 也得到了更广泛领域组织的关注,例如那些寻求市场优势并愿意投资影响生产力和增长的技术的公司。 HPC 和 AI 作为前面提到的应用程序的基础,正变得越来越紧密,为组织利用这些数据提供了新途径。
立即访问聚合数据的需求继续推动对这些 HPC 系统的需求。 在竞争中保持领先一步对于组织的成功和长盛不衰至关重要。 HPC 对于解决商业、科学和工程的复杂问题至关重要,并已成为科学、研究、零售、AV 等领域创新的基础,并推动影响社会的技术进步。
从人工智能和机器学习、物联网、研究和直播服务等技术收集的数据呈爆炸式增长,这需要实时处理,这超出了典型服务器的处理能力。
HPC 需求增长背后的另一个推动力是系统可以部署在边缘、云端或本地。 关键是在创建数据的地方处理数据,而不必将其传输到另一个远程位置进行处理。
带有 L670A 热交换器的 Lenovo ThinkSystem SR2 v2
选择 HPC 平台时的一个关键考虑因素是横向扩展的能力。 当涉及到海量计算资源时,越多越好。 这些系统的横向扩展能力至关重要,创建大型 HPC 集群的能力可能意味着成功或失败,具体取决于扩展能力。 利用高速、低延迟互连和更新的存储技术(如 NVMe)将加速计算结果。 集群可以构建在数据中心、云或混合模型中,提供灵活且可扩展的部署。 Lenovo ThinkSystem SR670 V2就是这样一个系统。
满足 HPC 要求的 GPU 丰富的服务器
Lenovo ThinkSystem SR670 V2 是一款富含 GPU 的 3U 机架服务器,支持八个双宽 GPU,包括 NVIDIA A100 和 A40 Tensor Core GPU,以及配备 NVIDIA HGX A100 4-GPU 的型号,提供 NVLink 和 Lenovo Neptune hybrid liquid-空气冷却。 该服务器基于新的第三代 Intel Xeon 可扩展处理器家族(以前称为“Ice Lake”)和最新的 Intel Optane Persistent Memory 200 系列。
SR670 V2 为各个行业的人工智能 (AI)、高性能计算 (HPC) 和图形工作负载提供最佳性能。 零售、制造、金融服务和医疗保健行业可以利用 SR670 V2 中 GPU 的处理能力来提取更重要的见解并利用机器学习 (ML) 和深度学习 (DL) 推动创新。
传统的空气冷却方法正在达到临界极限。 组件功率的增加,尤其是 CPU 和 GPU 的功率增加,导致了更高的能源和基础设施成本、嘈杂的系统和高碳足迹。 SR670 V2 型号采用 Lenovo Neptune 液空 (L2A) 混合冷却技术来应对这些挑战并快速散热。 NVIDIA HGX A100 GPU 的热量通过独特的闭环液-气热交换器排出,该热交换器提供液体冷却的优势,例如更高的密度、更低的功耗、安静的运行和更高的性能,而无需添加管道。
行业正在利用 GPU 技术
SR670 V2 基于两个第三代英特尔至强可扩展处理器构建,旨在支持 NVIDIA Ampere 数据中心产品组合中的最新 GPU。 SR3 V670 提供针对工作负载优化的性能,无论是利用可视化、渲染还是计算密集型 HPC 和 AI。
零售、制造、金融服务和医疗保健行业正在利用 GPU 提取更重要的见解,并利用机器学习 (ML) 和深度学习 (DL) 推动创新。 以下是加速计算在不同组织中利用 GPU 的几种方式:
- 在家工作团队的远程可视化
- 用于逼真的图形的光线追踪渲染
- 强大的视频编解码
- 生命科学中的电子计算机试验和免疫学
- 呼叫中心的自然语言处理 (NLP)
- 用于质量控制的自动光学检测 (AOI)
- 用于零售客户体验的计算机视觉
随着越来越多的工作负载利用加速器的功能,对 GPU 的需求也在增加。 ThinkSystem SR670 V2 提供优化的企业级解决方案,用于在生产中部署加速的 HPC 和 AI 工作负载,最大限度地提高系统性能。
灵活的配置选项
模块化设计为 SR670 V2 提供了极致的灵活性。 配置选项包括:
- 多达八个带 NVLink Bridge 的双宽度 GPU
- NVIDIA HGX™ A100 4-GPU,配备 NVLink 和 Lenovo Neptune™ 混合液体冷却
- 前置或后置高速联网选择
- 可选择本地高速 2.5″、3.5″ 和 NVMe 存储
ThinkSystem SR670 V2 性能针对您的工作负载、可视化、渲染或计算密集型 HPC 和 AI 进行了优化。
NVIDIA A100 Tensor Core GPU 可在各种规模上提供前所未有的加速,为全球性能最高的人工智能、数据分析和 HPC 应用弹性数据中心提供动力。 A100 可以有效地扩展或划分为七个独立的 GPU 实例。 多实例 GPU (MIG) 提供了一个统一平台,使弹性数据中心能够动态调整以适应不断变化的工作负载需求。 一个由 13 个 ThinkSystem SR670 V2 组成的机架可以产生高达 XNUMX PFLOPS 的计算能力。
ThinkSystem SR100 V4 基于最新的 Intel® Xeon® Scalable 系列 CPU 构建,旨在支持高端 GPU,包括 NVIDIA Tesla V670 和 T2,为 AI 和 HPC 工作负载提供优化的加速性能。
可扩展的解决方案
无论是刚开始使用 AI 还是进入生产,解决方案都必须根据组织的需求进行扩展。 ThinkSystem SR670 V2 可在使用高速结构的集群环境中使用,以随着工作负载需求的增加而横向扩展。
借助 Lenovo 智能计算编排 (LiCO),它增加了对多个用户的支持,并将在单个集群环境中进行扩展。 LiCO 是一个强大的平台,可为 HPC 和 AI 应用程序管理集群资源。
LiCO 提供 AI 和 HPC 工作流,并支持多种 AI 框架,包括 TensorFlow、Caffe、Neon 和 MXNet,利用单个集群满足不同的工作负载需求。
整个 HPC 产品组合的创新进展同样迅速。 对于还没有准备好采用全液体冷却的组织,ThinkSystem SR670 V2 提供了令人印象深刻的灵活性。
Lenovo ThinkSystem SR670 V2 可配置性和规格
可配置性是 ThinkSystem SR670 V2 吸引力的核心。 它的灵活性侧重于 GPU 密集计算,其大部分物理体积专用于模块化 GPU,无论是单宽还是双宽或 NVIDIA SXM。 三种基本配置如下。
配置1 | 配置2 | 配置3 | |
GPU 数量 | 4 个 SXM | 4x 双宽或 8x 单宽 | 8x 双宽 |
驱动器支持 | 8x 2.5 英寸 | 8x 2.5 英寸或 4x 3.5 英寸 | 6x E1.S |
配置说明:
下表显示了完整的 SR670 V2 规格。
旅行箱配件 | 规格 |
机器类型 | 7Z22 – 1 年保修 7Z23 – 3 年保修 |
外形尺寸 | 3U机架 |
处理器 | 两个第三代英特尔至强可扩展处理器(以前代号为“Ice Lake”)。 支持多达 40 个内核的处理器、高达 3.6 GHz 的内核速度和高达 270W 的 TDP 额定值。 |
芯片组 | Intel C621A“Lewisburg”芯片组,代号为“Whitley”的平台的一部分。 |
内存 | 32 个 DIMM 插槽,带有两个处理器(每个处理器 16 个 DIMM 插槽)。 每个处理器有 8 个内存通道,每个通道有 2 个 DIMM (DPC)。 支持 Lenovo TruDDR4 RDIMM 和 3DS RDIMM。 DIMM 插槽在标准系统内存和持久内存之间共享。 DIMM 在 3200 DPC 时以高达 2 MHz 的频率运行。 |
持久的记忆 | 支持在 DIMM 插槽中安装多达 16 个 Intel Optane Persistent Memory 200 系列模块(每个处理器 8 个)。 持久内存 (Pmem) 与系统内存 DIMM 一起安装。 |
内存最大 | 使用 RDIMM:使用 4 个 32GB 128DS RDIMM 最高可达 3TB 使用持久内存:使用 4 个 16GB 128DS RDIMM 和 3 个 16GB Pmem 模块(每个处理器 128TB)高达 1.5TB |
内存保护 | ECC、SDDC(用于基于 x4 的内存 DIMM)、ADDDC(用于基于 x4 的内存 DIMM,需要 Platinum 或 Gold 处理器)和内存镜像。 |
磁盘驱动器托架 | 2.5 英寸、3.5 英寸或 EDSFF 驱动器,具体取决于配置:
该服务器还支持最多支持两个 M.2 驱动器的内部 M.2 适配器。 |
最大内部存储空间 |
|
存储控制器 |
|
光驱托架 | 没有内置光驱。 |
磁带机托架 | 没有内部备份驱动器。 |
网络接口 | OCP 3.0 SFF 插槽,具有灵活的 PCIe 4.0 x8 或 x16 主机接口,可根据服务器配置提供:
OCP 插槽支持各种具有 2GbE、4GbE 和 1GbE 网络连接的 10 端口和 25 端口适配器。 一个端口可以选择与 XClarity 控制器 (XCC) 管理处理器共享,以支持局域网唤醒和 NC-SI。 |
PCI 扩展槽 | 最多 4 个 PCIe 4.0 插槽,具体取决于所选的 GPU 和驱动器托架配置。 插槽选择来自:
|
GPU支持 | 最多支持 8 个双宽 PCIe GPU 或 4 个 SXM GPU,具体取决于配置:
注意:通过特殊投标请求可以配置单宽 GPU,例如 NVIDIA A10。 |
端口 | 接待:
背面:
内部:
|
散热器 | 5 个双转子易插拔 80 毫米风扇,取决于配置。 风扇是 N+1 转子冗余,可容忍单转子故障。 每个电源都集成了一个风扇。 |
电源 | 多达四个通过 80 PLUS 白金认证的热插拔冗余交流电源。 1800 W 或 2400 W AC 选项,支持 220 V AC。 仅在中国,电源还支持 240 V DC。
|
视频 | G200 图形具有 16 MB 内存和 2D 硬件加速器,集成到 XClarity 控制器中。 1920Hz 时的最大分辨率为 1200×32 60bpp。 |
热插拔部件 | 驱动器和电源。 |
系统管理 | 带状态 LED 的操作面板。 在 SXM 和 4-DW GPU 型号上,带 LCD 显示屏的外部诊断听筒(不适用于 8-DW GPU 型号)。 XClarity Controller (XCC) 嵌入式管理、XClarity Administrator 集中式基础架构交付、XClarity Integrator 插件和 XClarity Energy Manager 集中式服务器电源管理。 可选 XClarity Controller Advanced 和 Enterprise 以启用远程控制功能。 |
安全特性 | 机箱防盗开关、开机密码、管理员密码、可信平台模块(TPM),支持TPM 2.0。 仅限中国,可选 Nationz TPM 2.0。 |
支持的操作系统 | Microsoft Windows Server、Red Hat Enterprise Linux、SUSE Linux Enterprise Server、VMware ESXi。 |
有限保修 | 三年或一年(取决于型号)客户可更换单元和现场有限保修,下一工作日 9×5 (NBD)。 |
服务与支持 | 可选服务升级可通过联想服务获得:4 小时或 2 小时响应时间、6 小时修复时间、1 年或 2 年保修延期、联想硬件的软件支持以及一些第三方应用程序。 |
尺寸 | 宽度:448 毫米(17.6 英寸),高度:131 毫米(5.2 英寸),深度:892 毫米(35.1 英寸)。 |
重量 | 大约重量,取决于所选配置:
|
GPU 提供重要的配置性能选项
GPU 支持是配置之间最重要的变量。 单宽 GPU 使用 PCIe x8 通道并扩展到 NVIDIA A10,而双宽 GPU 使用 PCIe x16 并扩展到 NVIDIA A100。 旗舰 SXM 配置使用 NVIDIA HGX A100,它使用 NVIDIA NVLink 桥(直接 GPU 到 GPU 通信)连接其四个板载 GPU。 双宽GPU配置支持NVLink,SR670 V2还支持双宽AMD Instinct MI210。
HGX A100 平台是没有 NVSwitch 的“红石”变体,在一块板上有四个 SXM A100 GPU。 提供 40GB、400 瓦和 80GB、500 瓦两种版本。 值得注意的是,SR670 V2 在该平台上采用联想的 Neptune 液空 (L2A) 混合冷却技术,可实现更安静、更高效的冷却和更低的功耗。 每个 GPU 上都安装了一个冷板,四个冗余低压泵通过该冷板循环液体。 一个大的单个散热器散发热量。 其他 GPU 配置仅为风冷。
作为 Neptune 品牌部分的一部分,每个 GPU 上方的独立冷却剂泵在冷却板上可见。 这些都通过单个散热器回流,即使在峰值负载下也能控制温度。
虽然液体冷却在保持较低温度方面具有明显优势,但许多人没有意识到 GPU 时钟速度会对性能产生多大影响。 当 GPU 在空气冷却下承受高负载时,它们可能会达到热设计峰值点,然后它们必须节流性能并降低时钟速度以控制温度。 液体冷却不存在这个问题,它可以让 GPU 运行得更强劲、更快,同时在整个工作负载过程中保持一致的热分布。
下图显示了满载时风冷和液冷 GPU 之间的区别。 当风冷型号开始达到峰值温度时,GPU 频率降低,而液冷 CPU 在此期间保持峰值时钟速度。
对于插槽,基本 SR670 V2 配置有 2 个前置 PCIe 4.0 x16 I/O 插槽,但前置的其余部分可针对上述驱动器选项进行配置。 都支持热插拔。
- SXM 模型 – 选择:
- 4 个 2.5 英寸热插拔 NVMe 驱动器托架
- 8 个 2.5 英寸热插拔 NVMe 驱动器托架
- 4-DW GPU 模型 – 选择:
- 8 个 2.5 英寸热插拔 AnyBay 驱动器托架,支持 SAS、SATA 或 NVMe 驱动器
- 4 个 3.5 英寸热插拔驱动器托架,支持 SATA HDD 或 SSD 驱动器(仅通过特价支持 NVMe)
- 8-DW GPU模型:
- 6 个 EDSFF E1.S 热插拔 NVMe 驱动器托架
SR670 V2 还支持一个或两个 M.2 格式的 SATA 或 NVMe 启动或存储驱动器。 RAID 支持通过板载硬件控制器提供。
同时,背板是固定的,有4.0个PCIe 16 x3.0插槽和670个OCP 2。 从背面也可以看到 SR1800 V2400 的四个冗余热插拔电源。 它们提供 80W 或 XNUMXW 选项,并具有 XNUMX Plus Platinum 评级。
配备 SXM 配置的 SR670 V2 型号包含一个不同的电源链路,它为前置 GPU 部分提供专用电源链路。 这些模型与插槽负载 GPU 模型形成鲜明对比,后者不包括来自机箱后部的大量电源连接。
SR670 V2 的其余硬件同样令人印象深刻,并延续了其灵活性主题。 它最多支持两个 40 核/80 线程英特尔“Ice Lake”第三代至强可扩展处理器,TDP 高达 270 瓦。 每个CPU有16个DDR4-3200 RDIMM插槽; 使用 128GB RDIMM,内存上限为 4TB。 根据 CPU 的不同,SR670 V2 还支持多达 16 个 英特尔持久内存 200 系列, 安装有常规系统内存。 凭借 ThinkSystem SR670 V2 必须提供的所有硬件,联想在散热布局上发挥了最大的作用,以发挥系统的最大性能。 并非所有系统都允许所有组件在没有节流的情况下以 100% 的利用率运行,而 SR670 V2 旨在实现这一点。
总结
联想致力于液体冷却,并利用该专业知识开发了 L2A 热交换器等产品。 随着服务器内部功率密度的不断增加,供应商需要想出创造性的方法来消除组件的热负荷并将其传递到系统之外。 并非所有客户都需要或想要完整的液体冷却解决方案。 然而,联想可以通过其产品组合中的风冷、部分水冷和全水冷服务器提供解决方案来满足客户的冷却需求。
第一代 Neptune™ 仅向 CPU 和内存提供液体冷却。 除了 CPU 和内存,联想的 Neptune 液体冷却系统还扩展到包括电压调节、存储、PCIe,现在还包括 GPU。 联想甚至推出了取消风扇的液冷电源。 展望未来,联想认为液体冷却是处理下一代 CPU 和 GPU 产生的热量的关键,也是保持企业客户已经习惯的密度和占用空间的方式。
本报告由联想赞助 本报告中表达的所有观点和意见均基于我们对所考虑产品的公正看法。
参与 StorageReview
电子报 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | Facebook | TikTok | RSS订阅