0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

AI云玩家洗牌时刻,百度智能云凭什么六连冠?

脑极体 来源:脑极体 作者:脑极体 2025-09-17 15:55 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

wKgZO2jKaXOAMHsPAAiQntIcFSw804.jpg

大模型热潮下,代入企业IT/AI工程师的视角却会发现,AI落地处处都是坑:

AI在企业内部应用的场景多了之后,一到业务峰值,用户并发涌上来,要是调度系统不给力、加速引擎没提效、KVCache优化不到位,服务一旦卡壳,不仅用户体验崩了,还会带来业务损失;

智能体当道,“数字员工”大量上岗,相互协作带来了大规模推理服务需求,但问题也随之而来,要么延迟超了,要么吞吐上不去,技术人员不得不熬夜做优化。

这些焦头烂额的场景,正是当前企业AI落地过程中的真实写照。AI Infra的能力支撑,变得愈发重要。

8月的2025百度云智大会上,产业对AI Infra的诉求有了明确的回应:百度智能云正式发布新一代AI基础设施,以百度百舸5.0为核心打造超节点云实例等关键能力,构建“云智一体、智能优先”的技术底座。

wKgZPGjKaXOASuDOAAK9cpZTq9s424.jpg

正如百度集团执行副总裁、百度智能云事业群总裁沈抖所言:企业对基础设施的需求已经从“降本增效”转向“直接创造价值”,AI云不再是企业的“成本中心”,而会成为新型的利润中心。

断言背后,百度智能云在AI云市场竞争中高歌猛进,65%央企选择、连续六年公有云市场第一……无论是超大规模算力调度,还是复杂产业场景落地,百度智能云都已经形成了技术突破与产业实践的双重护城河,成为行业公认的头部玩家。

但整个云市场的竞争仍在日趋白热化,云厂商纷纷将AI软硬件作为拉动增长的核心引擎,导致技术路径五花八门,解决方案层出不穷,让不少企业用户患上了选择困难症。

到底该如何选,才能真正吃透AI Infra的技术红利呢?答案恐怕还要回到产业的真实需求中去寻找。

wKgZO2jKaXSAeL9oAAHB3dtHXBg157.jpg

风起云涌的AI浪潮中,很多企业都想尽快用上AI提升竞争力,但现实里却处处受限:芯片性能短期内难有大幅突破,自己建AI基础设施要花大价钱,而且企业自身大多缺乏搭建软硬件搭建的能力。

这时候,AI云就成了最优解。企业不用改造自己现有的系统,通过云端即可高效调用AI所需的算力、网络等核心能力。

不过,面对五花八门的AI云,企业到底该看什么?业内共识是,企业落地大模型时,最容易被三个地方卡住脖子:算力瓶颈、互联瓶颈、稳定性与可靠性挑战。

算力是企业应用AI的第一道关卡。

大模型训练的算力消耗就很惊人了,以OpenAI为例,今年底上线的GPU数量就超过100万块。而智能体的爆发,也使得token使用量激增,带动推理算力需求上行。

wKgZPGjKaXSAD7HvAAlC8S4V1j0895.jpg

比如创下MPV纪录的罗永浩数字人直播间,前台讲解的两个数字人主播背后,助播智能体负责烘托气氛,剧本智能体撰写双人对话脚本,不同智能体按职责动态调整。每个智能体都要靠专门的AI模型驱动,这些模型同时跑起来,瞬间爆发的高并发算力需求,传统集群的固定资源分配模式完全跟不上节奏。

所以,现在AI Infra的首要任务就是打破算力瓶颈,让大模型“装得下、跑得起”。

攻克算力瓶颈,需要释放硬件性能,这时另一个卡脖子的问题又冒了出来,那就是:互联瓶颈。

现在企业建AI集群,主要走两条路:Scale Out(横向扩展)与Scale Up(纵向扩展)。其中,Scale Up超节点架构凭借单节点高密度算力集成的特性,支撑DeepSeek这类单体算力消耗不大的模型,成为企业应用AI的热门选择。但在实际落地中,用Scale Up替换Scale Out,解决EP并行下的AlltoAll通信问题,需要构建适配数十块芯片在Scale Up域内实现高速全互联的网络架构,研发与之匹配的高效通信协议,并且对上层模型服务进行对应的适配优化,通过这样的“技术组合拳”,才能充分发挥Scale Up网络,解决互联瓶颈,释放高密度算力集群的效能,支撑DeepSeek等模型在企业级AI场景中的高效部署与运行。

无论Scale Out还是与Scale Up,都绕不开一个规律:Scaling law(扩展法则),这就带来第三个难题:系统的稳定性与可靠性挑战与日俱增。

模型性能随参数规模增长的需求仍在主导着AI Infra的演进,更直接影响着MoE(混合专家模型)等前沿架构的落地诉求。像DeepSeek那样的MoE模型(混合专家模型),得调动几千上万个专家节点一起工作,再加上现在越来越多人用强化学习、搞训推一体,这些动态弹性高并发的诉求,都对系统稳定性与可靠性带来冲击。

稳定性与可靠性问题无法解决,AI服务就容易出现卡顿、延迟。这种情况下,哪怕场景需求明确、应用价值很高,AI也很难真正落地。当下阶段,单纯依赖硬件层面的优化已经不够了,必须让软件(比如推理系统)和硬件深度配合,才能增强集群韧性,保证系统稳定运行。更重要的是,深入产业场景还会发现,上述瓶颈并非是孤立存在的。

AI落地,难关重重,企业需要在诸多彼此牵制的因素中寻找解法,自然头痛不已。

而对于云厂商来说,企业的痛点既是挑战,也是机遇。要赢得这个庞大且迅速增长的市场,必须帮企业真问题,仅靠单一技术显然无法破局,唯有对AI Infra来一场彻底的系统性创新,才能在日趋激烈的竞争中撕开突破口。

wKgZPGjKaXWARPP-AAIr7kgDtkM502.jpg

任何脱离企业实际应用需求的技术探索,都难以形成稳定可信赖的服务价值。企业当下所需要的AI Infra,早已不再是简单的算力供给,还要解决网络、稳定、模型适配等一系列复杂难题。唯有如此,才能真正用好AI。

沈抖就在云智大会上直言:这几年我们一直在思考,AI云怎样才能真正做到智能优先?答案是算力、模型、数据和工程能力。基于这一判断,百度智能云推出了全新升级的百度百舸5.0。

wKgZO2jKaXWAbhVdAAGa44yI4X4203.jpg

当然了,云厂商说得再好,不如企业用户现身说法。我们还是从一个个行业和企业的切实变化,来看看新一代基础设施如何精准回应产业落地AI的核心痛点。

第一个需求,就是让AI跑起来。

最直观的就是具身智能机器人。无论是WAIC大会现场,还是世界人形机器人运动会的赛场上,跑动的机器人都贡献了不少出圈的名场面。让机器人跑起来得办好两件事:一是智商高,二就是会学习。

解决机器人的智商问题,机器人的“大脑”(决策大模型)与“小脑”(运动控制小模型)得经过高效训练,这就需要庞大算力。百度智能云的昆仑芯超节点,将64张全栈自研昆仑芯集成于单节点,实现单卡性能提升95%、单实例推理能力提升8倍,让算力无忧。

wKgZPGjKaXWAcKGEAAXq3MfH_E8182.jpg

云智大会上,百度百舸还正式上线了昆仑芯超节点公有云实例,现在具身智能企业只需调用云实例,几分钟就能跑万亿级开源模型。让机器人的大脑(世界模型)和眼睛(视觉语言动作模型VLA)训得快,大幅缩短了机器人的落地周期。

二是会学习,机器人要到真实世界中接受地面摩擦力变化、障碍物突发等不确定性挑战,这要求机器人能适时调整动作策略,应对复杂条件,这就需要强化学习的试错-反馈-优化机制,来赋予机器人自主学习的灵魂,不仅对算力要求高,还需要强化学习框架,来提高具身智能企业在多模态数据处理等方面的工程能力。

百度智能云通过深度工程创新,打造了适配具身智能的百舸强化学习框架。在训练、推理、存储等环节,将吞吐推至极限,更通过系统性协同实现全局效率最优,把强化学习效率拉到了行业新高度。

北京人形机器人创新中心等“国家队”选择与百度智能云合作,正是因为在百舸的支撑下,机器人的身心都有了坚实的承载底座,加速具身智能从实验室走向家庭、工厂。

下一个需求,就是跑得快。

对金融、汽车、AIGC影视等行业来说,模型“跑得动”只是基础,“跑得快”才直接决定商业价值。

如今许多金融机构都接入了DeepSeek等开源大模型,应用在智能客服、智能投顾、文书写作等领域,但MoE模型的专家并行需要高频通信,推理时流量波动、超长文本处理需要节点协同,若网络带宽不足、延迟过高,会直接导致“算力等数据”的延迟,十分影响业务人员和用户的对话体验。

除此之外,超大规模集群的算力堆了不少,但训练效率就是上不去的问题经常出现。正如前面提到的新能源车企的智驾模型训练问题,要解决网络延迟、终端导致的训练故障,提升计算效率与资源利用率至关重要。让AI跑得快,就得打通算力和模型的通信卡点。为此,百舸5.0针对性升级VPC、RDMA、XPU-Link三大网络,构建了低延迟、高可靠的通信底座,让算力跑上了高速路。

百度百舸200Gbps的高速VPC网络,能够支持巨型帧传输,可以显著提升推理阶段KV Cache传输、训练阶段Checkpoint读写这些核心环节的计算效率。单集群十万卡RDMA互联网络,可以把端到端的延迟压缩到4微秒。面对MoE模型海量、高频、延迟敏感的All-to-All通信的瓶颈,百度自研的XPU-Link协议把卡间带宽提升8倍,把延迟做到国内最低,让专家并行的通信更快,最大程度地释放芯片的计算性能。

无论是垂直行业训练专有大模型,还是各行各业上线实时推理的DeepSeek,只有跑在高速通信的网络上,都能更快更高效。

第三个也是企业落地AI的底线考验:跑得稳。

2025年产业AI的一个主要变化,就是Deepseek带火了MoE架构,计算任务也从预训练转向了后训练、推理环节,而推理的工作负载会随着流量规模、上下文长度的变化而变化。各行业使用AI的热情高涨,新场景不断涌现,进一步增加了推理的动态和复杂性。

如沈抖所说,这时候单靠堆卡是不够的,需要做系统性的优化。百度智能云最新推出了百舸5.0推理系统,就是为此而来,通过软硬协同优化,为AI业务场景提供高效支撑。

今年上半年,百度百舸上线了领先业界的PD分离能力,以大规模推理的效率,而如今面对大规模、复杂MoE的场景,百度百舸5.0将分离做得更彻底,还推出了VIT分离(视觉和语言),以及Attention-MLP分离,通过深度解耦这些计算模式不同的模块,让整个系统更加高效,实现了数十倍的吞吐提升,从而更好地提升MoE 时代的推理性能。

wKgZPGjKaXaAIAksAAKY1L3WfR0014.jpg

针对多智能体协作时KV Cache增多的问题,百舸5.0 KV Cache系统还可以实时感知集群全局状态,从HBM灵活迁移至内存、SSD乃至远程分布式文件系统中,实现缓存智能管理,让存储资源的弹性适配,从而提升整体系统的调度效率与资源利用率。

在律师处理法律合同、政务部门处理超长文档等场景中,百舸5.0的自适应能力,能够根据输入文本长度动态调整张量、序列和专家并行策略,让MoE模型推理效率显著提升。128K超长文本3秒内出首字,能减少等待时间,显著提升用户的使用感受。在相同成本下,能处理更多请求,模型能完成的任务量更多了。

还有像3D建模平台VAST这样的企业,如果平台的百万设计师同时在线调用模型,那么百舸5.0的智能调度,通过数据并行、专家并行双重负载均衡,优化推理效率,即使是大规模高并发的实时访问场景,也能为设计师们源源不断的创作灵感保驾护航。

可以发现,百舸5.0的四大升级并非孤立技术,而是围绕“企业如何用好AI”来构建系统性解决方案。

这也印证了产业实践中,算力瓶颈、网络瓶颈与稳定性与可靠性挑战三大关卡彼此制约的复杂难题,必须靠组合拳才能击穿。举个例子,业内也有云厂商推出了吸引眼球的技术,如高密度超节点,但并没有搭好云实例,企业看得到但用不上,最后还是卡在上不了手的死胡同。

让企业真正靠AI Infra把AI用起来,百舸5.0的系统性方案,正是百度智能云轰向AI落地关卡的一组组合拳。

wKgZO2jKaXaAIadvAAJMk7BqLms251.jpg

一位油气领域专家曾向我们感慨:智能化一旦启动,就不会停止。这是行业一线从业者的真实体感,而综合数据也印证了这一点。

IDC发布的 《2025年第一季度全球服务器市场跟踪报告》显示,2025 年第一季度服务器销量大幅上涨,其中GPU需求成为推动增长的核心因素。随着AI大模型的广泛应用,企业对GPU加速服务器与云端算力的依赖显著加强,原本依赖本地数据中心的组织,正在将AI相关工作负载逐步迁移至云端;而已经部署云架构的企业,也在持续将AI能力嵌入业务流程与数据系统,带动对GPU与云基础设施的长期需求。

对各行各业来说,智能化是一场漫长的长跑,那么, AI云市场,谁能陪企业跑得更远、更久?

一份报告揭开了行业秘密:8月18日IDC发布的IDC报告显示,2024年中国AI公有云服务市场规模达195.9亿元,百度智能云以24.6%的市场份额稳居第一,连续六年、累计十次蝉联中国AI公有云市场冠军。

wKgZPGjKaXaAGlzFAAFUw4x8BtI764.jpg

百度智能云能成为65%央企的AI创新合作伙伴,背后的秘密或许就藏在累计十次、六连冠的长期主义中。毫无疑问,百度智能云是一个深耕AI云赛道的耐力型选手,技术能力和产业耐力都得到了时间的检验。这意味着,在政企落地AI的智能化长跑中,选择百度智能云一同陪跑,会得到以下助力:

一是多年沉淀的产业级技术护城河。从云智大会披露的进展来看,昆仑芯超节点云实例、百舸训推升级、强化学习框架等产品、新技术,不只是为了炫技,更紧贴产业需求。这种技术竞争力,来自百度智能云多年来押注产业智能化的积累。早在2015年百度正式对外提供云服务时,便强调云的智能属性。2019年,百度智能云将“云+AI”确立为核心战略,提出“云智一体、深入产业”,进一步明确了AI云的发展方向。

能深度理解AI业务,并具备持续迭代的技术韧性,这在公有云市场当中是一种十分稀缺的能力,也为产业客户带来了长期信心。

特别是对于大型政企来说,业务关系国计民生,在布局AI时,每一次选择都关乎产业升级的方向与节奏。中国邮政储蓄银行依托百舸完成GPU/CPU算力重组,提升混合芯片集群利用率;长安汽车也牵手百度智能云建设AI基础设施,进一步加速智能驾驶模型迭代。这些企业本质是选择一个战略伙伴,作为智能化路上的定心丸和压舱石,支撑自身转型的全周期需求。

二是300+行业场景验证的AI落地方法论。产业AI的本质是“产业为先”,技术落地必须贴合业务场景的节奏,无法一蹴而就。百度智能云在服务政企的过程中,积累了覆盖金融(招行)、能源(中石化)、汽车(长安汽车)、AIGC(生数科技)、具身智能(人形机器人创新中心)的300+场景经验,既能为行业龙头提供超大规模算力调度,也能为创业公司提供精准场景突破,与各个产品同频共进,精准赋能,才能让技术真正成为智能升级的助推器。

智能化征程中,每一个人与企业都是跑者。而AI Infra作为底层根基,牵一发而动全身,一旦在企业中扎下根来,就很难被轻易替代。正因如此,当下的AI云市场不是温和竞逐,而是抢算力、拼方案的白热化厮杀,本质是跟时间赛跑,抢夺企业AI陪跑者的身位。

谁能抢先接住企业落地AI的真需求,相当于拿下了未来的市场。百度智能云累计十次、连续六年蝉联中国AI公有云冠军,就是佐证。把技术突破转化成贴合用户的智能化陪跑能力,不仅抢到了与65%央企共同探索AI创新的入场券,更是为自己筑起了别人难以快速赶上的领先优势。

目前AI技术仍在快速迭代,Infra层面仍存挑战,这也提醒我们,唯有以技术破局、为产业筑牢底座,云厂商才能赢下这场AI决战。

wKgZPGjKaXeAOZ7yAAGsm_sK0as315.jpg

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    89

    文章

    38091

    浏览量

    296595
  • 百度智能云
    +关注

    关注

    0

    文章

    48

    浏览量

    2200
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    百度世界大会亮点 五年五芯 百度宣布打造最硬AI

    年,持续为行业搭建起交流前沿技术、碰撞创新思维、洞察未来趋势的重要平台。 今日(11月13日)Baidu World 2025在北京举办。在这里,可以体验AI应用的价值涌现,见证AI能力的创新爆发。 今年的百度世界2025以“效
    的头像 发表于 11-13 15:47 1082次阅读

    光庭信息成为百度智能大模型行业合伙人

    论坛上,光庭信息作为受邀企业出席,正式成为百度智能“大模型行业合伙人”,并荣获“行业卓越贡献伙伴奖”。这标志着双方合作进入了一个全新的阶段,将为AI+汽车产业
    的头像 发表于 09-02 16:17 621次阅读

    昆仑芯科技亮相2025百度智大会

    近日,2025百度智大会在北京国家会议中心二期隆重启幕。本届大会以“智能,生成无限可能”为主题,聚焦人工智能从技术到产业的全链条落地,深入探讨AI
    的头像 发表于 09-01 11:00 993次阅读

    百度智能全面升级舸5.0和千帆4.0

    大会上,百度智能全面升级AI计算平台5.0、千帆企业级AI开发平台4.0两大
    的头像 发表于 08-30 09:18 1408次阅读

    百度智能发布全球首批AI数字员工

    没错,在今天的百度AI Day开放日现场,这么溜的同事们正式上岗!
    的头像 发表于 08-12 09:47 1444次阅读

    百度智能亮相第二十二届ChinaJoy

    百度智能亮相第二十二届ChinaJoy 8月1日,第二十二届中国国际数码互动娱乐展览会(ChinaJoy)在上海开幕。大会期间,百度全景展示了百度
    的头像 发表于 08-05 09:47 645次阅读

    65%央企大模型落地首选百度智能

    今天,很荣幸地分享一个好消息,百度智能已牵手65%的央企,共同推进大模型产业落地。得益于全栈的AI能力,百度联合众多央国企伙伴,针对各类不
    的头像 发表于 06-11 15:44 740次阅读

    百度智能两大基础设施再升级

    近日,在Create2025百度AI开发者大会上,沈抖分享了百度智能智能基础设施建设方面的最
    的头像 发表于 04-30 10:20 725次阅读

    格灵深瞳与百度智能达成战略合作,共筑AI算力新基建

    4月25日,在Create2025百度AI开发者大会期间,百度智能与格灵深瞳正式签署战略合作协议。双方将以“技术互补、生态共建、价值共生”
    的头像 发表于 04-27 10:20 984次阅读

    百度智能发布昆仑芯三代万卡集群及DeepSeek-R1/V3上线

    01百度智能点亮昆仑芯三代万卡集群 近日,百度智能成功点亮昆仑芯三代万卡集群,这也是国内首个
    的头像 发表于 02-11 10:58 960次阅读

    百度智能四款大模型应用接入DeepSeek

    近日,百度智能旗下四款重量级大模型应用产品——客悦、曦灵、一见、甄知,正式迎来了全新升级,接入了先进的DeepSeek模型。这一重要更新,标志着百度
    的头像 发表于 02-10 18:00 1123次阅读

    百度智能四款大模型应用完成DeepSeek适配

    百度智能AI大模型应用方面取得了新的进展。近日,其旗下的客悦、曦灵、一见、甄知四款大模型应用产品已正式上线接入DeepSeek模型的新版本。 此次升级后的产品,将为企业
    的头像 发表于 02-10 10:47 742次阅读

    百度与阿里上线DeepSeek模型部署服务

    近日,百度智能云和阿里相继宣布上线DeepSeek-R1和DeepSeek-V3模型的部署服务,为开发者和企业用户提供了更加高效便捷的AI服务体验。
    的头像 发表于 02-05 15:40 1168次阅读

    百度智能点亮昆仑芯三代万卡集群

    近日,百度智能宣布成功点亮昆仑芯三代万卡集群,这一成就不仅在国内尚属首次,也标志着百度在人工智能算力领域取得了重大突破。据了解,
    的头像 发表于 02-05 14:58 989次阅读

    ElfBoard开源项目|百度智能平台的人脸识别项目

    百度智能平台的人脸识别项目,旨在利用其强大的人脸识别服务实现自动人脸识别。选择百度智能的原因
    的头像 发表于 12-24 10:54 1868次阅读
    ElfBoard开源项目|<b class='flag-5'>百度</b><b class='flag-5'>智能</b><b class='flag-5'>云</b>平台的人脸识别项目