Microsoft Azure 已成功部署并激活搭载 NVIDIA GB200 AI 处理器的服务器,标志着人工智能基础设施领域取得重要里程碑。
Microsoft Azure 已成为首个部署并激活搭载 NVIDIA GB200 AI 处理器的服务器的云服务提供商。 在 X 上发帖,Azure 展示了其定制的 NVIDIA GB200 AI 服务器机架,并补充道:“我们正在每一层进行优化,以利用 Infiniband 网络和创新的闭环液体冷却来为世界上最先进的 AI 模型提供支持。”
微软的实施采用了定制设计的服务器机架,每个机架估计装有 32 个 B200 处理器。Azure 开发了一种先进的闭环液体冷却系统来管理这些高性能设备产生的巨大热量。这一设置展示了微软致力于突破人工智能计算界限的决心以及在下一代硬件热管理方面的专业知识。
Blackwell B200 GPU 代表了 AI 处理能力的显著提升。与其前身 H100 相比,B200 具有以下优势:
- FP2.5/INT8 操作性能提高 8 倍(4,500 TFLOPS/TOPS vs 1,980 TOPS)
- 使用 FP9 数据格式,性能达到 4 PFLOPS
这些进步将允许训练复杂的大型语言模型(LLM),并可能彻底改变各个行业的人工智能应用。
微软首席执行官萨蒂亚·纳德拉 在 X 的另一篇文章中强调了该公司与 NVIDIA 的持续合作,并表示:“我们与 NVIDIA 的长期合作伙伴关系和深度创新继续引领行业,为最复杂的 AI 工作负载提供动力。”
虽然目前的部署似乎是为了测试目的,但它表明微软已准备好很快为商业工作负载提供基于 Blackwell 的服务器。有关 Blackwell 服务器产品的更多详细信息预计将在微软即将举行的 点燃会议 在芝加哥举行,定于 18 年 22 月 2024 日至 XNUMX 日举行。
作为首个启用 NVIDIA Blackwell 系统的云提供商,Microsoft Azure 已将自己定位为 AI 基础设施领域的领导者。此举可能会加速更先进的 AI 模型和应用程序的开发,并有可能改变依赖基于云的 AI 服务的各个行业。
这些高密度、高性能计算系统的成功实施也为数据中心设计和冷却技术树立了新标准。随着越来越多的供应商采用类似的技术,我们可能会看到数据中心的建设和运营发生转变,以满足日益增长的人工智能工作负载需求。
Blackwell 服务器的部署预计将在 2024 年底或 2025 年初加速,为人工智能领域的又一次变革奠定基础。微软的早期采用可能会使其在吸引希望利用最先进计算资源的人工智能研究人员和企业方面具有竞争优势。
参与 StorageReview
电子报 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | TikTok | RSS订阅