NVIDIA助力百度智能云落地新一代高性能AI计算集群-电子发烧友网

案例简介

百度智能云是中国 AI 公有云服务市场的领先企业。近日，百度智能云落地新一代高性能AI计算集群，提供EFLOPS级算力支持，并发布了新一代GPU服务器实例GPU-H5-8NA100-IB01。该集群基于NVIDIA A100-80GB GPU和NVIDIA InfiniBand网络构建，成为领先的AI原生云算力底座。研究人员可基于全新发布的实例组建上千节点规模的超高性能计算集群，成倍缩短超大AI模型的训练时间，激发AI业务创新想象力。

客户挑战

随着 AI 的发展，创新业务层出不穷，业务复杂性不断提升，大模型、超大模型成为必然趋势，对于快速训练与部署应用提出了前所未有的紧迫要求。百度智能云早在 2020 年就预见到这一发展态势，启动规划与方案设计，并参考 NVIDIA 高性能分布式集群参考架构，设计落地新一代高性能 AI 集群，通过基础架构的升级，释放技术使能想象力，帮助百度以及客户的业务创新更上一层楼。

应用方案

NVIDIA 提出的高性能分布式集群参考架构基于 NVIDIA A100 GPU 和 NVIDIA HDR 200Gb/s ConnectX-6 网卡组建，采用模块化设计，能支持不同规模大小的设计，以 20 台为一个可扩展单元（Scalable Unit），可以任意扩展到 100 台、 200 台、400 台或更大的规模，通过 InfiniBand 交换机采用胖树结构全互联起来。此集群架构旨在帮助 AI 研究人员快速搭建强大、灵活、高效的系统，以满足工业界日益复杂、多变的模型对计算资源不同程度的需求。尤其对于超大语言模型预训练而言，此架构尤为重要。

基于同样的设计思路，百度智能云的新一代高性能 AI 集群采用百度自研的 X-MAN 架构超级 AI 计算机为硬件平台。

X-MAN 自 2016 年推出以来，已在凤巢、自动驾驶、自然语言处理等百度内部业务进行大规模应用多年，申请六项专利，包括 PCIe Fabric 架构、液冷技术、最大支持 64 GPU 卡扩展等，是百度 AI 业务快速落地的重要基础设施。

目前， X-MAN 已经全面升级到第四代 X-MAN 4.0 ，为 AI 和 HPC 等计算场景进行了新的优化设计。配置方面，每台 X-MAN 4.0 包含8张搭载 NVLink 互联技术的 NVIDIA A100-80GB GPU ，并可支持 8 张 200Gb/s 的 InfiniBand 网卡，实现了高速存储、高速无阻网络、高性能计算于一体的超级 AI 计算机。架构方面， X-MAN 4.0 全新设计的架构缩短了数据传输延迟，提高了数据传输带宽，有效解决本地数据传输的通信瓶颈，降低 AI 作业中 GPU 的闲置时间。在 MLCommons 1.1 榜单中， X-MAN 4.0 在同配置单机硬件性能名列 TOP2 。

为了实现更高的集群运行性能，百度智能云专门设计了适用于超大规模集群的 InfiniBand 网络架构。这个架构优化了网络收敛比，提升了网络吞吐能力。并结合容错、交换机亲和，拓扑映射等手段，得以将 EFLOPS 级算力的计算集群性能发挥到极致。

应用效果

经过百度内部 NLP 研究团队的验证，在这个网络环境下的超大规模集群上提交千亿模型训练作业时，同等机器规模下整体训练效率是普通 GPU 集群的 3.87 倍。

2022 年 3 月 1 日百度发布的 Q4 及 2021 全年财报显示，百度智能云2021年实现全年总营收 151 亿元，同比增长 64% 。高速增长的背后，是百度智能云在研发能力上的持续投入，以保持云智一体的技术引领，为客户提供坚实的基础架构与服务平台。

百度副总裁谢广军先生表示：“AI原生云是推动企业智能化升级的核心驱动力。作为中国AI公有云服务市场领跑企业，百度智能云一直在优化提升智能计算的核心能力。X-MAN 4.0助力百度内部业务发展的同时，我们也愿意将这一领先的架构开放给百度智能云的众多客户，帮助大家一起更高效地进行AI研发与探索，驱动业务创新，迈向AI原生。”

审核编辑：郭婷

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

gpu

gpu

+关注

关注
27

文章
4430

浏览量
126784
计算机

计算机

+关注

关注
19

文章
6656

浏览量
84732
AI

AI

+关注

关注
87

文章
26538

浏览量
264212

百度沈抖沈抖正式发布新一代智能计算操作系统—万源

4月16日，Create 2024 百度AI开发者大会在深圳召开。期间，百度集团执行副总裁、百度智能云事业群总裁沈抖正式发布

发表于 04-18 09:22 •195次阅读

<b class='flag-5'>百度</b>沈抖沈抖正式发布<b class='flag-5'>新一代</b><b class='flag-5'>智能</b><b class='flag-5'>计算</b>操作系统—万源

百度沈抖：传统云计算不再是主角，智能计算呼唤新一代“操作系统”

4月16日，Create 2024 百度AI开发者大会在深圳召开。期间，百度集团执行副总裁、百度智能云事业群总裁沈抖正式发布

发表于 04-16 16:26 •156次阅读

<b class='flag-5'>百度</b>沈抖：传统云<b class='flag-5'>计算</b>不再是主角，<b class='flag-5'>智能</b><b class='flag-5'>计算</b>呼唤<b class='flag-5'>新一代</b>“操作系统”

NVIDIA 推出 Blackwell 架构 DGX SuperPOD，适用于万亿参数级的生成式 AI 超级计算

日 —— NVIDIA 于今日发布新一代 AI 超级计算机 —— 搭载 NVIDIA GB200 Grace Blackwell 超级芯

发表于 03-19 10:56 •116次阅读

<b class='flag-5'>NVIDIA</b> 推出 Blackwell 架构 DGX SuperPOD，适用于万亿参数级的生成式 <b class='flag-5'>AI</b> 超级<b class='flag-5'>计算</b>

瑞芯微第二代8nm高性能AIOT平台 RK3576 详细介绍

AI-ISP提升低噪度的图像效果更低的功耗，更长的续航先进制程，保证高性能的同时带来更低功耗低功耗待机模式(3.8V @0.5mA左右) 更高的扩展能力支持PCle接口WiFi，图传更快速云端

发表于 03-12 13:45

新品上市，公有云轻安防就选度目凌云！ #人工智能 #度目 #度目凌云 #百度智能云

人工智能百度智能云

jf_98614062

发布于 :2024年02月19日 11:39:42

NVIDIA 人工智能开讲 | 什么是 AI For Science？详解 AI 助力科学研究领域的新突破

”两大音频 APP上搜索“ NVIDIA 人工智能开讲 ”专辑，众多技术大咖带你深度剖析核心技术，把脉未来科技发展方向！ AI For Science （亦称 “AI In Scie

发表于 12-25 18:30 •540次阅读

<b class='flag-5'>NVIDIA</b> 人工<b class='flag-5'>智能</b>开讲 | 什么是 <b class='flag-5'>AI</b> For Science？详解 <b class='flag-5'>AI</b> <b class='flag-5'>助力</b>科学研究领域的新突破

国产六核CPU，三屏异显，赋能新一代商显

处理器共同推出米尔MYC-YD9360核心板及开发板，赋能新一代车载智能、电力智能、工业控制、新能源、机器智能等行业发展，满足多屏的显示需求。

发表于 12-22 18:07

亚马逊云科技与 NVIDIA 宣布开展战略合作，为生成式 AI 提供全新超级计算基础架构、软件和服务

计算机，用于 NVIDIA AI 研发和自定义模型开发。搭载 NVIDIA GH200、H200、L40S 和 L4 GPU的全新亚马逊 EC2 实例为生成式

发表于 11-29 21:00 •395次阅读

亚马逊云科技与 <b class='flag-5'>NVIDIA</b> 宣布开展战略合作，为生成式 <b class='flag-5'>AI</b> 提供全新超级<b class='flag-5'>计算</b>基础架构、软件和服务

NVIDIA 为全球领先的 AI 计算平台 Hopper 再添新动力

Tensor Core GPU 和领先的显存配置，可处理生成式 AI 与高性能计算工作负载的海量数据。 NVIDIA H200 是首款采用 HBM3e 的 GPU，其运行更快、更

发表于 11-14 14:30 •117次阅读

<b class='flag-5'>NVIDIA</b> 为全球领先的 <b class='flag-5'>AI</b> <b class='flag-5'>计算</b>平台 Hopper 再添新动力

STM32U599平衡图显性能与功耗的新一代产品

STM32U599平衡图显性能与功耗的新一代产品，内容包含： STM32U5x9 的高性能与高阶图形加速器、STM32U5的矢量图形、STM32U5x9 的低功耗设计、LPBAM - sensor hub等。

发表于 09-05 07:21

鸿蒙升级3.0.0，百度导着航，系统中途会关闭我的定位

然后百度显示没有定位了，就自动开启智能导航。系统决定我的定位开关设置在哪里，我记得以前开定位是手动开关的。升级后，下拉菜单打开定位，百度导航开着一会系统定位就被关闭了。害得我跑错了好多

发表于 09-03 23:34

风口浪尖行稳致远 - 英伟达等企业如何顺应高性能计算大模型浪潮

;高性能服务器;蓝海大脑;多元异构算力;大模型训练;通用人工智能;GPU服务器;GPU集群;大模型训练GPU集群;大语言模型;深度学习;机器学习;计

发表于 08-23 17:36 •1806次阅读

智能网卡简介及其在高性能计算中的作用

最先进的人工智能模型在不到五年的时间内经历了超过 5，000 倍的规模扩展。这些 AI 模型严重依赖复杂的计算和大量内存来实现高性能深度神经网络（DNN）。只有使用 CPU、GPU

发表于 07-28 10:10

Fujitsu、NVIDIA、AMD和Intel高性能处理器架构分析

商用高性能计算处理器市场主要被NVIDIA、AMD和Intel3家公司长期占据,在面向E级计算的高性能处理器中,AMD 最新的Instinct MI250X处理器双

发表于 06-30 09:49 •667次阅读

RISC-V入云！赛昉科技联合中国电信完成首个RISC-V云原生轻量级虚拟机验证

，围绕数据中心场景，赛昉科技自研了高拓展多核片内总线和LLC内存系统，并储备了高性能同构、异构Chiplet技术。2023年初，赛昉科技获百度战略投资，双方将在数据中心场景展开合作。该成果推进

发表于 05-11 14:08

搜索历史

NVIDIA助力百度智能云落地新一代高性能AI计算集群

评论