今天,在重新安排的 GTC(由 NVIDIA 组织的 GPU 技术大会)上,NVIDIA 透露他们已经开始向家电制造商出货他们的第一款 7nm GPU。 就像 AMD 在两年前的 7 年发布了 2018nm GPU 一样,NVIDIA 选择专注于他们的第一个 7nm GPU 的数据中心用例。 NVIDIA一直强调人工智能和其他高性能计算的发展。 公司甚至 最近买断了 梅拉诺克斯。 本月早些时候,NVIDIA 宣布他们希望 获得积云 以及。
今天,在重新安排的 GTC(由 NVIDIA 组织的 GPU 技术大会)上,NVIDIA 透露他们已经开始向家电制造商出货他们的第一款 7nm GPU。 就像 AMD 在两年前的 7 年发布了 2018nm GPU 一样,NVIDIA 选择专注于他们的第一个 7nm GPU 的数据中心用例。 NVIDIA一直强调人工智能和其他高性能计算的发展。 公司甚至 最近买断了 梅拉诺克斯。 本月早些时候,NVIDIA 宣布他们希望 获得积云 以及。
NVIDIA 的首款 7nm GPU 是 NVIDIA A100。 A100 基于 NVIDIA 的 Ampere 架构,包含 54 亿个晶体管。 与之前的 NVIDIA 数据中心 GPU 一样,A100 包含 Tensor Core。 Tensor 核心是 GPU 的专用部分,专门设计用于快速执行推理中常用的一种矩阵乘法和加法计算。新的更强大的 GPU 带来了新的、更强大的 Tensor 核心。 以前,NVIDIA 的 Tensor Cores 最多只能支持 100 位浮点数。 AXNUMX 支持 XNUMX 位浮点运算,精度更高。
A100 的另一个新功能是多实例 GPU 功能。 每个 A100 GPU 都能够分成多达七个独立实例,以同时处理大量任务。
NVIDIA A100 规格
晶体管计数 |
54十亿 |
模具尺寸 |
826 mm2 |
FP64 CUDA内核 |
3,456 |
FP32 CUDA内核 |
6,912 |
张量核心 |
432 |
流式多处理器 |
108 |
FP64 |
9.7 兆次浮点数 |
FP64 张量核心 |
19.5 兆次浮点数 |
FP32 |
19.5 兆次浮点数 |
TF32 张量核心 |
156 兆次浮点数 | 312 兆次浮点运算* |
BFLOAT16 张量核心 |
312 兆次浮点数 | 624 兆次浮点运算* |
FP16 张量核心 |
312 兆次浮点数 | 624 兆次浮点运算* |
INT8 张量核心 |
624 顶 | 1,248 顶* |
INT4 张量核心 |
1,248 顶 | 2,496 顶* |
GPU内存 |
40 GB |
GPU内存带宽 |
1.6 TB / s |
互联 |
NVLink 600 GB/秒 PCIe Gen4 64 GB/秒 |
多实例 GPU |
各种实例大小,最多 7MIGs @5GB |
外形 |
HGX A4 中的 8/100 SXM GPU |
最大功率 |
400W(SXM) |
除了单一的 A100 GPU,NVIDIA 还同时发布了两个集群 GPU。 NVIDIA DGX A100 系统具有八个与 NVIDIA NVSwitch 互连的 NVIDIA A100 GPU。 它的弟弟 NVIDIA HGX A100 由四个通过 NVLink 互连的 A100 GPU 组成。 NVLINK 和 NVSwitch 都允许单个 GPU 协同工作以处理大型任务。 NVLink 是真正的全对全互连。 为了在 NVSwitch 互连上处理更多的 GPU,NVIDIA 决定将 GPU 之间的 NVLink 交叉连接在一起。 NVIDIA 已经为新的 A100 加强了他们的全对全互连,将连接性提高了一倍,以支持芯片中更强大的内核。 NVIDIA 声称他们的性能比之前的 DGX 系统提高了一倍多。 据他们称,他们新的八 GPU DGX A100 可以执行令人难以置信的 2 petaflops。 他们的上一代 DGX-100 有 320 个 GPU,但只能管理两个 petaflops。 我没想到很快就会对任何拥有 6 petaflops 的系统使用“仅”这个词,但是当新集群以一半的 GPU 数量将性能提高一倍以上时,这似乎很合适。 DGX A200 还拥有 3.6GB 的内存和九个 NVIDIA Mellanox ConnectX-XNUMX HDR 每秒 XNUMXGb 的网络接口,总共提供每秒 XNUMXTb 的双向带宽。
为了正确看待 DGX A100 的强大功能,世界上第十大最强大的超级计算机以 18 petaflops 为基准。 将几个 NVIDIA 的新坏小子推到一起,您就拥有了自己的世界级超级计算机。 令人惊讶的是,NVIDIA 发布了一个 DGX SuperPOD 参考架构,它就是这样做的。 如果该系统的性能与 NVIDIA 声称的一样,那么接下来的几个月对于超级计算爱好者来说可能会非常陌生。
回到正常世界,有了更多典型的用例,NVIDIA 还宣布计划在年底前发布使用其新 GPU 的边缘服务器。 EGX A100 将仅由一个新的 A100 GPU 提供支持。 NVIDIA 计划让 EGX A100 边缘服务器在 Red Hat Enterprise Linux 上运行。 这些设备可能会使用 NVIDIA 最近收购的 Mellanox ConnectX-6 Dx 网卡来接收高达 200Gbps 的数据,并将其直接发送到 GPU 内存以进行 AI 或 5G 信号处理。 NVIDIA 本身不打算在今年年底之前发布仅包含其中一个新 GPU 的设备,这确实强调了将多个 DGX A100 集群在一起是多么疯狂的想法,这些 DGX A100 本身就是八个 AXNUMX 的集群。
参与 StorageReview
电子报 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | Facebook | RSS订阅