案例简介
百度智能云是中国 AI 公有云服务市场的领先企业。近日,百度智能云落地新一代高性能AI计算集群,提供EFLOPS级算力支持,并发布了新一代GPU服务器实例GPU-H5-8NA100-IB01。该集群基于NVIDIA A100-80GB GPU和NVIDIA InfiniBand网络构建,成为领先的AI原生云算力底座。研究人员可基于全新发布的实例组建上千节点规模的超高性能计算集群,成倍缩短超大AI模型的训练时间,激发AI业务创新想象力。
客户挑战
随着 AI 的发展,创新业务层出不穷,业务复杂性不断提升,大模型、超大模型成为必然趋势,对于快速训练与部署应用提出了前所未有的紧迫要求。百度智能云早在 2020 年就预见到这一发展态势,启动规划与方案设计,并参考 NVIDIA 高性能分布式集群参考架构,设计落地新一代高性能 AI 集群,通过基础架构的升级,释放技术使能想象力,帮助百度以及客户的业务创新更上一层楼。
应用方案
NVIDIA 提出的高性能分布式集群参考架构基于 NVIDIA A100 GPU 和 NVIDIA HDR 200Gb/s ConnectX-6 网卡组建,采用模块化设计,能支持不同规模大小的设计,以 20 台为一个可扩展单元(Scalable Unit), 可以任意扩展到 100 台、 200 台、400 台或更大的规模,通过 InfiniBand 交换机采用胖树结构全互联起来。此集群架构旨在帮助 AI 研究人员快速搭建强大、灵活、高效的系统,以满足工业界日益复杂、多变的模型对计算资源不同程度的需求。尤其对于超大语言模型预训练而言,此架构尤为重要。
基于同样的设计思路,百度智能云的新一代高性能 AI 集群采用百度自研的 X-MAN 架构超级 AI 计算机为硬件平台。
X-MAN 自 2016 年推出以来,已在凤巢、自动驾驶、自然语言处理等百度内部业务进行大规模应用多年,申请六项专利,包括 PCIe Fabric 架构、液冷技术、最大支持 64 GPU 卡扩展等,是百度 AI 业务快速落地的重要基础设施。
目前, X-MAN 已经全面升级到第四代 X-MAN 4.0 ,为 AI 和 HPC 等计算场景进行了新的优化设计。配置方面,每台 X-MAN 4.0 包含8张搭载 NVLink 互联技术的 NVIDIA A100-80GB GPU , 并可支持 8 张 200Gb/s 的 InfiniBand 网卡,实现了高速存储、高速无阻网络、高性能计算于一体的超级 AI 计算机。架构方面, X-MAN 4.0 全新设计的架构缩短了数据传输延迟,提高了数据传输带宽,有效解决本地数据传输的通信瓶颈,降低 AI 作业中 GPU 的闲置时间。在 MLCommons 1.1 榜单中, X-MAN 4.0 在同配置单机硬件性能名列 TOP2 。
为了实现更高的集群运行性能,百度智能云专门设计了适用于超大规模集群的 InfiniBand 网络架构。这个架构优化了网络收敛比,提升了网络吞吐能力。并结合容错、交换机亲和,拓扑映射等手段,得以将 EFLOPS 级算力的计算集群性能发挥到极致。
应用效果
经过百度内部 NLP 研究团队的验证,在这个网络环境下的超大规模集群上提交千亿模型训练作业时,同等机器规模下整体训练效率是普通 GPU 集群的 3.87 倍。
2022 年 3 月 1 日百度发布的 Q4 及 2021 全年财报显示,百度智能云2021年实现全年总营收 151 亿元,同比增长 64% 。高速增长的背后,是百度智能云在研发能力上的持续投入,以保持云智一体的技术引领,为客户提供坚实的基础架构与服务平台。
百度副总裁谢广军先生表示:“AI原生云是推动企业智能化升级的核心驱动力。作为中国AI公有云服务市场领跑企业,百度智能云一直在优化提升智能计算的核心能力。X-MAN 4.0助力百度内部业务发展的同时,我们也愿意将这一领先的架构开放给百度智能云的众多客户,帮助大家一起更高效地进行AI研发与探索,驱动业务创新,迈向AI原生。”
审核编辑:郭婷
-
gpu +关注
关注
27文章
2760浏览量
114986 -
计算机 +关注
关注
16文章
4773浏览量
78651 -
AI +关注
关注
85文章
20134浏览量
235693
发布评论请先 登录
相关推荐
华为强劲AI推理能力助力云天励飞AI算法服务平台性能实现翻倍提升
浪潮NF5468A5系统解析
Think Silicon和RISC-V GPU即将爆发
算力由性能、规模和利用率三部分组成
贸泽开售面向AI视觉IoT应用的Renesas RZ/V2L高精度MPU

NVIDIA Merlin GPU推荐系统加速大模型训练和推理
火山引擎机器学习平台与NVIDIA加深合作
改变设计价值观的人工智能机器人原理
WTK6900H语音识别芯片的简单介绍
什么是嵌入式机器人及如何使用它们
芯动科技风华系列GPU与中望CAD Linux版软件完成兼容性认证
OpenVINO加速多领域AI产业创新发展
NVIDIA提供用于AI训练的合成数据生成工具
NVIDIA研究人员创建可以疏通计算机网络拥堵的AI模型
利用AI技术加强视频内容创作和传播
广电五舟与华为基于昇腾AI基础软硬件平台打造联合解决方案
如何释放可信赖人工智能的最大价值
维智科技助力品牌营销数智化全面转型升级
如何使用华为云EI产品开发作品
华为云推出高校圈层活动品牌HCSD 共创共享共赢生态体系
NVIDIA NGC目录中的GPU优化容器
NVIDIA Isaac Sim 2022.1版本的亮点及功能
计算机视觉与AI技术企业虹软科技发布2022第一季度报告
RGB颜色空间与RGB三色中色调、饱和度、亮度之间的关系
NVIDIA AI平台在MLPerf基准测试实现飞跃
MIT的SpAtten架构将注意力机制用于高级NLP
模型有助于实现最大的运营效率
用于嵌入式系统的Java的优点和缺点
人工智能对软件质量保证的影响
新一代旗舰!Arm Cortex-X3 + Immortalis GPU发布,Arm全面计算赋能视觉体验

Arm推出全新旗舰级GPU产品Arm Immortalis™
使用两个GAL 22v10替换UE6
使用ONE GAL 22v10替换UE5
香橙派RK3399开发板OrangePi4 LTS在linux上的GPU测试说明

评论