创作

完善资料让更多小伙伴认识你,还能领取20积分哦, 立即完善>

3天内不再提示

NVIDIA助力百度智能云落地新一代高性能AI计算集群

星星科技指导员 来源:NVIDIA 作者:NVIDIA 2022-05-20 15:00 次阅读

案例简介

百度智能云是中国 AI 公有云服务市场的领先企业。近日,百度智能云落地新一代高性能AI计算集群,提供EFLOPS级算力支持,并发布了新一代GPU服务器实例GPU-H5-8NA100-IB01。该集群基于NVIDIA A100-80GB GPU和NVIDIA InfiniBand网络构建,成为领先的AI原生云算力底座。研究人员可基于全新发布的实例组建上千节点规模的超高性能计算集群,成倍缩短超大AI模型的训练时间,激发AI业务创新想象力。

客户挑战

随着 AI 的发展,创新业务层出不穷,业务复杂性不断提升,大模型、超大模型成为必然趋势,对于快速训练与部署应用提出了前所未有的紧迫要求。百度智能云早在 2020 年就预见到这一发展态势,启动规划与方案设计,并参考 NVIDIA 高性能分布式集群参考架构,设计落地新一代高性能 AI 集群,通过基础架构的升级,释放技术使能想象力,帮助百度以及客户的业务创新更上一层楼。

应用方案

NVIDIA 提出的高性能分布式集群参考架构基于 NVIDIA A100 GPU 和 NVIDIA HDR 200Gb/s ConnectX-6 网卡组建,采用模块化设计,能支持不同规模大小的设计,以 20 台为一个可扩展单元(Scalable Unit), 可以任意扩展到 100 台、 200 台、400 台或更大的规模,通过 InfiniBand 交换机采用胖树结构全互联起来。此集群架构旨在帮助 AI 研究人员快速搭建强大、灵活、高效的系统,以满足工业界日益复杂、多变的模型对计算资源不同程度的需求。尤其对于超大语言模型预训练而言,此架构尤为重要。

基于同样的设计思路,百度智能云的新一代高性能 AI 集群采用百度自研的 X-MAN 架构超级 AI 计算机硬件平台。

X-MAN 自 2016 年推出以来,已在凤巢、自动驾驶、自然语言处理等百度内部业务进行大规模应用多年,申请六项专利,包括 PCIe Fabric 架构、液冷技术、最大支持 64 GPU 卡扩展等,是百度 AI 业务快速落地的重要基础设施。

目前, X-MAN 已经全面升级到第四代 X-MAN 4.0 ,为 AI 和 HPC 等计算场景进行了新的优化设计。配置方面,每台 X-MAN 4.0 包含8张搭载 NVLink 互联技术的 NVIDIA A100-80GB GPU , 并可支持 8 张 200Gb/s 的 InfiniBand 网卡,实现了高速存储、高速无阻网络、高性能计算于一体的超级 AI 计算机。架构方面, X-MAN 4.0 全新设计的架构缩短了数据传输延迟,提高了数据传输带宽,有效解决本地数据传输的通信瓶颈,降低 AI 作业中 GPU 的闲置时间。在 MLCommons 1.1 榜单中, X-MAN 4.0 在同配置单机硬件性能名列 TOP2 。

为了实现更高的集群运行性能,百度智能云专门设计了适用于超大规模集群的 InfiniBand 网络架构。这个架构优化了网络收敛比,提升了网络吞吐能力。并结合容错、交换机亲和,拓扑映射等手段,得以将 EFLOPS 级算力的计算集群性能发挥到极致。

应用效果

经过百度内部 NLP 研究团队的验证,在这个网络环境下的超大规模集群上提交千亿模型训练作业时,同等机器规模下整体训练效率是普通 GPU 集群的 3.87 倍。

2022 年 3 月 1 日百度发布的 Q4 及 2021 全年财报显示,百度智能云2021年实现全年总营收 151 亿元,同比增长 64% 。高速增长的背后,是百度智能云在研发能力上的持续投入,以保持云智一体的技术引领,为客户提供坚实的基础架构与服务平台。

百度副总裁谢广军先生表示:“AI原生云是推动企业智能化升级的核心驱动力。作为中国AI公有云服务市场领跑企业,百度智能云一直在优化提升智能计算的核心能力。X-MAN 4.0助力百度内部业务发展的同时,我们也愿意将这一领先的架构开放给百度智能云的众多客户,帮助大家一起更高效地进行AI研发与探索,驱动业务创新,迈向AI原生。”

审核编辑:郭婷

  • gpu
    gpu
    +关注

    关注

    27

    文章

    2760

    浏览量

    114986
  • 计算机
    +关注

    关注

    16

    文章

    4773

    浏览量

    78651
  • AI
    AI
    +关注

    关注

    85

    文章

    20134

    浏览量

    235693
收藏 人收藏

    评论

    相关推荐

    华为强劲AI推理能力助力云天励飞AI算法服务平台性能实现翻倍提升

    2022年5月,基于昇腾AI,云天励飞的深智-AI算法服务平台解决方案与华为Atlas 300I P....
    的头像 华为计算 发表于 07-05 11:11 85次 阅读

    浪潮NF5468A5系统解析

    NF5468A5支持4个电源模组,可以提供1600W~3000W功率的80 PLUS铂金电源模块,效....
    的头像 智能计算芯世界 发表于 07-05 11:06 62次 阅读

    Think Silicon和RISC-V GPU即将爆发

    无论是业界动态还是RISC-V国际组织相关人员的公开发言,RISC-V都是一款全方位挑战ARM架构的....
    的头像 电子发烧友网 发表于 07-05 10:30 123次 阅读

    算力由性能、规模和利用率三部分组成

    有的算力芯片,可能可以做到性能狂飙,但较少考虑芯片的通用性易用性,然后芯片销量不高落地规模小,那就无....
    的头像 Imagination Tech 发表于 07-05 10:18 108次 阅读

    贸泽开售面向AI视觉IoT应用的Renesas RZ/V2L高精度MPU

    2022年7月4日 – 提供超丰富半导体和电子元器件™的业界知名新品引入 (NPI) 分销商贸泽电子....
    发表于 07-05 10:15 39次 阅读
    贸泽开售面向AI视觉IoT应用的Renesas RZ/V2L高精度MPU

    AI技术日趋成熟,开始走进千行百业

    (文/程文智)提到AI,人们最先想到的可能是相机的美颜功能,其实如今的AI技术可以说不仅已经渗透到人....
    的头像 荷叶塘 发表于 07-05 09:22 233次 阅读
    AI技术日趋成熟,开始走进千行百业

    NVIDIA Merlin GPU推荐系统加速大模型训练和推理

    暌违两年,NVIDIA Merlin 推荐系统公开课将于 7 月 5 日全面上新。本次公开课将由 N....
    的头像 NVIDIA英伟达 发表于 07-05 09:02 92次 阅读

    火山引擎机器学习平台与NVIDIA加深合作

    随着 AI 在医疗健康和生命科学领域应用的不断增加,GPU 算力的需求迅猛增长。火山引擎机器学习平台....
    的头像 NVIDIA英伟达 发表于 07-05 08:59 125次 阅读

    RISC-V GPU离产业爆发仅一步之遥?

    电子发烧友网报道(文/吴子鹏)近日,在德国纽伦堡举行的 Embedded World 2022 大会....
    的头像 Felix分析 发表于 07-05 07:06 253次 阅读
    RISC-V GPU离产业爆发仅一步之遥?

    改变设计价值观的人工智能机器人原理

    谈到人工智能,它立即被描述为人类的替代品。但真的是这样吗?虽然毫无疑问,人工智能将改变设计框架,但这....
    的头像 格物斯坦机器人 发表于 07-04 16:48 229次 阅读

    现代测试系统具有丰富的数据管理策略

      Cyth Systems 在设计 Omnimetriq 产品系列时实施了上述数据管理策略。打包为....
    的头像 星星科技指导员 发表于 07-04 14:30 56次 阅读
    现代测试系统具有丰富的数据管理策略

    WTK6900H语音识别芯片的简单介绍

    智能家居相信小伙伴们都不陌生,通过AI的语音识别技术,让机器也能听懂人类说话,并且通过命令词执行各种....
    的头像 唯创知音电子 发表于 07-04 14:22 113次 阅读

    什么是嵌入式机器人及如何使用它们

      人工智能正在为聊天机器人技术注入新的活力。NLP 等工具允许企业使用聊天机器人来改进支持操作并满....
    的头像 星星科技指导员 发表于 07-04 11:03 71次 阅读

    视觉AI开发面向不同领域的应用技术

    电子发烧友网报道(文/李弯弯)视觉AI是人工智能一个子领域,一般也称为计算机视觉,主要方向为模式识别....
    发表于 07-04 10:26 105次 阅读

    芯动科技风华系列GPU与中望CAD Linux版软件完成兼容性认证

    近日,芯动科技自主研发的风华系列GPU与中望CAD Linux版软件完成兼容性认证,综合性能优越,共....
    的头像 芯动科技Innosilicon 发表于 07-04 10:02 67次 阅读

    开放式编程模型为开发人员创建中间地带

      此外,Acoran 编程模型在优化的、特定领域的库中分层,允许开发人员在特定于设备的优化例程之上....
    的头像 星星科技指导员 发表于 07-04 09:27 79次 阅读
    开放式编程模型为开发人员创建中间地带

    AI产业链中主要的视觉算法企业

    电子发烧友网报道(文/李弯弯)视觉AI是人工智能一个子领域,一般也称为计算机视觉,主要方向为模式识别....
    的头像 Carol Li 发表于 07-04 08:43 546次 阅读
    AI产业链中主要的视觉算法企业

    OpenVINO加速多领域AI产业创新发展

    近日,由英特尔举办的2022 OpenVINO DevCon·中国站线上峰会成功落下帷幕。在此次峰会....
    的头像 英特尔中国 发表于 07-03 14:35 345次 阅读

    NVIDIA提供用于AI训练的合成数据生成工具

    提供合成数据生成工具和服务的企业以及开发者现在可以使用 Omniverse Replicator S....
    的头像 NVIDIA英伟达企业解决方案 发表于 07-03 10:06 111次 阅读

    NVIDIA研究人员创建可以疏通计算机网络拥堵的AI模型

    NVIDIA 研究人员创建了可以疏通计算机网络拥堵的 AI 模型,该模型很快就会出现在大众附近的数据....
    的头像 NVIDIA英伟达 发表于 07-03 10:04 110次 阅读

    利用AI技术加强视频内容创作和传播

    芬兰的 MTV Oy 采用由 NVIDIA 技术驱动的 Valossa AI 解决方案自动分析视频内....
    的头像 NVIDIA英伟达 发表于 07-03 09:59 159次 阅读

    广电五舟与华为基于昇腾AI基础软硬件平台打造联合解决方案

    2022年7月1日,广电五舟与华为在广州正式举行“整机伙伴合作协议”签约仪式暨“华为昇腾万里伙伴”授....
    的头像 华为计算 发表于 07-03 09:32 160次 阅读

    智洋创新正式加入华为昇腾万里合作伙伴计划

    2022年6月30日,智洋创新与华为在淄博签署合作协议,正式加入昇腾万里合作伙伴计划。
    的头像 华为计算 发表于 07-03 09:30 180次 阅读

    如何释放可信赖人工智能的最大价值

    IBM商业价值研究院(IBV)研究表明,消费者、公民和员工将人工智能视为帮助解决人类面临的最紧迫挑战....
    的头像 IBM中国 发表于 07-01 17:56 360次 阅读

    维智科技助力品牌营销数智化全面转型升级

    中国领先的产业数字化研究与咨询机构爱分析发布了《2022国央企数字化厂商全景报告》,维智科技凭借出色....
    的头像 WAYZ维智 发表于 07-01 17:53 334次 阅读

    如何使用华为云EI产品开发作品

    AI开发平台ModelArts:面向开发者的一站式AI开发平台,提供海量数据预处理、智能标注、大规模....
    的头像 华为开发者社区 发表于 07-01 16:51 199次 阅读

    华为云正式发布初创计划 实现业务转型升级

    创业者是实践创新的实践者与探索者,是推动社会进步与发展的有生力量。
    的头像 华为开发者社区 发表于 07-01 15:09 146次 阅读

    在开发平台上使用VITIS AI加速AI应用

    在运行量化器时,我们可以使用更大的校准图像、迭代和检测来调整输出,视频输入的准确率约为 96%。我们....
    的头像 星星科技指导员 发表于 07-01 14:24 115次 阅读
    在开发平台上使用VITIS AI加速AI应用

    西门子携手英伟达打造工业元宇宙

    嵌入工业虚拟世界中的逼真的、基于物理的数字双胞胎提供了巨大的潜力,通过提供一个人们可以互动和协作解决....
    发表于 07-01 11:53 417次 阅读

    华为云推出高校圈层活动品牌HCSD 共创共享共赢生态体系

    本次活动由华为云计算公司主办,华为(厦⻔)开发者创新应⽤中⼼、厦⻔⼤学信息学院联合举办,旨在携华为云....
    的头像 华为开发者社区 发表于 07-01 11:47 268次 阅读

    5个存储管理中非常重要的概念

    内存也称主存,是指CPU能直接存取指令和数据的存储器,是现代计算机系统进行操作的中心。
    的头像 一口Linux 发表于 07-01 11:34 157次 阅读

    NVIDIA NGC目录中的GPU优化容器

    借助 NVIDIA NGC 目录中的 GPU 优化容器,更快地开发和部署应用。
    的头像 NVIDIA英伟达企业解决方案 发表于 07-01 11:21 173次 阅读

    NVIDIA Isaac Sim 2022.1版本的亮点及功能

    NVIDIA 宣布推出2022.1 版 NVIDIA Isaac Sim。作为一种机器人仿真和合成数....
    的头像 NVIDIA英伟达企业解决方案 发表于 07-01 11:19 194次 阅读

    计算机视觉与AI技术企业虹软科技发布2022第一季度报告

    计算机视觉与AI技术企业虹软科技股份有限公司发布2022第一季度报告,具体内容如下。 一、 主要财务....
    的头像 汽车玩家 发表于 07-01 11:08 335次 阅读

    RGB颜色空间与RGB三色中色调、饱和度、亮度之间的关系

    本文章会详细的介绍RGB颜色空间与RGB三色中色调、饱和度、亮度之间的关系,最后会介绍HSV颜色空间....
    的头像 一口Linux 发表于 07-01 10:55 176次 阅读

    NVIDIA AI平台在MLPerf基准测试实现飞跃

    NVIDIA AI 仍是唯一能够运行 MLPerf 行业基准测试中所有测试的平台, A100 GPU....
    的头像 NVIDIA英伟达企业解决方案 发表于 07-01 10:52 158次 阅读

    MIT的SpAtten架构将注意力机制用于高级NLP

      通用的 AI 加速器、GPU、TPU 和 NPU 即使支持高计算能力也无法实现这些技术,因为这些....
    的头像 星星科技指导员 发表于 07-01 10:43 153次 阅读

    模型有助于实现最大的运营效率

      为了推动行动或结果,非结构化数据通过 DeepStream 等处理模型运行,从而产生结构化数据。....
    的头像 星星科技指导员 发表于 07-01 10:29 180次 阅读

    用于嵌入式系统的Java的优点和缺点

      在嵌入式系统上使用 Java 的优点多于缺点,特别是因为代码的质量和大量已经能够使用 Java ....
    的头像 星星科技指导员 发表于 07-01 10:00 158次 阅读

    人工智能对软件质量保证的影响

      软件 QA 通常被视为任何开发团队的昂贵必需品;测试在时间、人力和金钱方面的成本很高,同时仍然是....
    的头像 星星科技指导员 发表于 07-01 09:49 105次 阅读

    使用TensorBoard进行机器学习模型分析

      总体而言,TensorBoard 是帮助开发和培训过程的绝佳工具。Scalar and Metr....
    的头像 星星科技指导员 发表于 07-01 09:44 94次 阅读
    使用TensorBoard进行机器学习模型分析

    RISC-V单板计算机发展现状

    电子发烧友网报道(文/吴子鹏)单板计算机是一个“年轻”的术语,诞生于2018年,是指将微处理器、存储....
    的头像 Felix分析 发表于 07-01 08:06 997次 阅读
    RISC-V单板计算机发展现状

    新一代旗舰!Arm Cortex-X3 + Immortalis GPU发布,Arm全面计算赋能视觉体验

    电子发烧友网报道(文/黄晶晶)去年初,被称为Arm公司十年来最大技术革新的Armv9架构发布,基于此....
    发表于 06-30 20:32 563次 阅读
    新一代旗舰!Arm Cortex-X3 + Immortalis GPU发布,Arm全面计算赋能视觉体验

    Arm推出全新旗舰级GPU产品Arm Immortalis™

    Arm® 今日宣布推出 2022 全面计算解决方案 (TCS22),可提供不同级别的性能、效率和可扩....
    的头像 科技绿洲 发表于 06-30 17:37 303次 阅读

    嵌入式边缘AI应用开发简化指南

    Other Parts Discussed in Post: TDA4VM如果在没有嵌入式处理器供应....
    的头像 电子设计 发表于 06-30 17:01 44次 阅读
    嵌入式边缘AI应用开发简化指南

    2022年中国DPU行业白皮书 DPU将成为CPU、GPU后的第三块主力芯片

    本报告旨在分析 DPU 发展现状、产品特点、技术动向及发展趋势,并识别中国芯片厂商与海外芯片厂商的差....
    的头像 拍明芯城 发表于 06-30 16:05 1575次 阅读
    2022年中国DPU行业白皮书 DPU将成为CPU、GPU后的第三块主力芯片

    华为云天筹AI求解器助力高效求得问题最优解

    随着华为运筹优化技术的发展和优化理论的突破,更多创新技术将会落地天筹AI求解器。
    的头像 科技绿洲 发表于 06-30 15:24 281次 阅读

    使用两个GAL 22v10替换UE6

    描述 Commodore 8296 - 使用两个 GAL 22v10 替换 UE6 大多数有缺陷的 Commodore 8296 计算机都存在 PLA 芯片(UE...
    发表于 06-30 07:06 270次 阅读

    使用ONE GAL 22v10替换UE5

    描述 Commodore 8296 - 使用 ONE GAL 22v10 替换 UE5 大多数有缺陷的 Commodore 8296 计算机都存在 PLA 芯片(...
    发表于 06-30 07:02 287次 阅读

    香橙派RK3399开发板OrangePi4 LTS在linux上的GPU测试说明

    1、Linux4.4 和 Linux5.10 Debian 系统 GPU 的测试说明 注意,Linux4.4 Debian10 和 Linux5.10 Debian11 系统使用的...
    发表于 06-22 20:17 1507次 阅读
    香橙派RK3399开发板OrangePi4 LTS在linux上的GPU测试说明

    如何使用计算机上的本地仓库以及GitHub上托管的远程仓库呢

    添加远程仓库要新增远程,请在终端上存储仓库的目录中使用 git remote add 命令。git remote add 命令使用两个参数: 例如: ...
    发表于 06-22 16:57 1005次 阅读

    请问在RK3399pro中间计算时能否调用GPU的一些现成数据库或函数来计算

    我在用RK3399pro的NPU做深度学习计算,使用了两个rknn模型进行推理,但是在这两个rknn模型之间需要进行一些中间计算(从第一...
    发表于 05-09 15:26 3596次 阅读

    一文搞懂ARM的串行通信与并行通信

    计算机的通信(数据交换)方式主要是分为:串行通信与并行通信 串行通信 概念:计算机与I/O设备之间数据传输的各位是按顺序依...
    发表于 04-27 10:18 3781次 阅读

    tf代码为什么在rk3399上训练比没有gpu的电脑慢很多

    把tf代码从电脑上放到rk3399上运行训练,比电脑慢的很多很多,板子不是带有npu吗?是不是代码需要改动什么啊? ...
    发表于 04-22 16:23 8600次 阅读

    简单介绍下Arm Mali的GPU系列

    对于手机终端来说,GPU图像处理能力是衡量一台手机的性能标杆。首先,是UI流畅性,大家拿到手机都得先划来划去看下UI是否...
    发表于 04-12 11:01 4739次 阅读

    充分利用Arm NN进行GPU推理

    Arm拥有跨所有处理器的计算IP。而且,无论您要在GPU,CPU还是NPU上进行ML推理,都可以在一个通用框架下使用它们:...
    发表于 04-11 17:33 4145次 阅读

    介绍android下的OpenCL开发步骤

    1、介绍android下OpenCL开发 Firefly rk3288采用Mali-T764的GPU,该GPU支持OpeCL 1.1。下面一步一步介绍android...
    发表于 04-11 14:35 2519次 阅读