AI云玩家洗牌时刻，百度智能云凭什么六连冠？-电子发烧友网

大模型热潮下，代入企业IT/AI 工程师的视角却会发现，AI落地处处都是坑：

AI在企业内部应用的场景多了之后，一到业务峰值，用户并发涌上来，要是调度系统不给力、加速引擎没提效、KVCache优化不到位，服务一旦卡壳，不仅用户体验崩了，还会带来业务损失；

智能体当道，“数字员工”大量上岗，相互协作带来了大规模推理服务需求，但问题也随之而来，要么延迟超了，要么吞吐上不去，技术人员不得不熬夜做优化。

这些焦头烂额的场景，正是当前企业AI落地过程中的真实写照。AI Infra的能力支撑，变得愈发重要。

8月的2025百度云智大会上，产业对AI Infra的诉求有了明确的回应：百度智能云正式发布新一代AI基础设施，以百度百舸5.0为核心打造超节点云实例等关键能力，构建“云智一体、智能优先”的技术底座。

正如百度集团执行副总裁、百度智能云事业群总裁沈抖所言：企业对基础设施的需求已经从“降本增效”转向“直接创造价值”，AI云不再是企业的“成本中心”，而会成为新型的利润中心。

断言背后，百度智能云在AI云市场竞争中高歌猛进，65%央企选择、连续六年公有云市场第一……无论是超大规模算力调度，还是复杂产业场景落地，百度智能云都已经形成了技术突破与产业实践的双重护城河，成为行业公认的头部玩家。

但整个云市场的竞争仍在日趋白热化，云厂商纷纷将AI软硬件作为拉动增长的核心引擎，导致技术路径五花八门，解决方案层出不穷，让不少企业用户患上了选择困难症。

到底该如何选，才能真正吃透AI Infra的技术红利呢？答案恐怕还要回到产业的真实需求中去寻找。

风起云涌的AI浪潮中，很多企业都想尽快用上AI提升竞争力，但现实里却处处受限：芯片性能短期内难有大幅突破，自己建AI基础设施要花大价钱，而且企业自身大多缺乏搭建软硬件搭建的能力。

这时候，AI云就成了最优解。企业不用改造自己现有的系统，通过云端即可高效调用AI所需的算力、网络等核心能力。

不过，面对五花八门的AI云，企业到底该看什么？业内共识是，企业落地大模型时，最容易被三个地方卡住脖子：算力瓶颈、互联瓶颈、稳定性与可靠性挑战。

算力是企业应用AI的第一道关卡。

大模型训练的算力消耗就很惊人了，以OpenAI为例，今年底上线的GPU数量就超过100万块。而智能体的爆发，也使得token使用量激增，带动推理算力需求上行。

比如创下MPV纪录的罗永浩数字人直播间，前台讲解的两个数字人主播背后，助播智能体负责烘托气氛，剧本智能体撰写双人对话脚本，不同智能体按职责动态调整。每个智能体都要靠专门的AI模型驱动，这些模型同时跑起来，瞬间爆发的高并发算力需求，传统集群的固定资源分配模式完全跟不上节奏。

所以，现在AI Infra的首要任务就是打破算力瓶颈，让大模型“装得下、跑得起”。

攻克算力瓶颈，需要释放硬件性能，这时另一个卡脖子的问题又冒了出来，那就是：互联瓶颈。

现在企业建AI集群，主要走两条路：Scale Out（横向扩展）与Scale Up（纵向扩展）。其中，Scale Up超节点架构凭借单节点高密度算力集成的特性，支撑DeepSeek这类单体算力消耗不大的模型，成为企业应用AI的热门选择。但在实际落地中，用Scale Up替换Scale Out，解决EP并行下的AlltoAll通信问题，需要构建适配数十块芯片在Scale Up域内实现高速全互联的网络架构，研发与之匹配的高效通信协议，并且对上层模型服务进行对应的适配优化，通过这样的“技术组合拳”，才能充分发挥Scale Up网络，解决互联瓶颈，释放高密度算力集群的效能，支撑DeepSeek等模型在企业级AI场景中的高效部署与运行。

无论Scale Out还是与Scale Up，都绕不开一个规律：Scaling law（扩展法则），这就带来第三个难题：系统的稳定性与可靠性挑战与日俱增。

模型性能随参数规模增长的需求仍在主导着AI Infra的演进，更直接影响着MoE（混合专家模型）等前沿架构的落地诉求。像DeepSeek那样的MoE模型（混合专家模型），得调动几千上万个专家节点一起工作，再加上现在越来越多人用强化学习、搞训推一体，这些动态弹性高并发的诉求，都对系统稳定性与可靠性带来冲击。

稳定性与可靠性问题无法解决，AI服务就容易出现卡顿、延迟。这种情况下，哪怕场景需求明确、应用价值很高，AI也很难真正落地。当下阶段，单纯依赖硬件层面的优化已经不够了，必须让软件（比如推理系统）和硬件深度配合，才能增强集群韧性，保证系统稳定运行。更重要的是，深入产业场景还会发现，上述瓶颈并非是孤立存在的。

AI落地，难关重重，企业需要在诸多彼此牵制的因素中寻找解法，自然头痛不已。

而对于云厂商来说，企业的痛点既是挑战，也是机遇。要赢得这个庞大且迅速增长的市场，必须帮企业真问题，仅靠单一技术显然无法破局，唯有对AI Infra来一场彻底的系统性创新，才能在日趋激烈的竞争中撕开突破口。

任何脱离企业实际应用需求的技术探索，都难以形成稳定可信赖的服务价值。企业当下所需要的AI Infra，早已不再是简单的算力供给，还要解决网络、稳定、模型适配等一系列复杂难题。唯有如此，才能真正用好AI。

沈抖就在云智大会上直言：这几年我们一直在思考，AI云怎样才能真正做到智能优先？答案是算力、模型、数据和工程能力。基于这一判断，百度智能云推出了全新升级的百度百舸5.0。

当然了，云厂商说得再好，不如企业用户现身说法。我们还是从一个个行业和企业的切实变化，来看看新一代基础设施如何精准回应产业落地AI的核心痛点。

第一个需求，就是让AI跑起来。

最直观的就是具身智能机器人。无论是WAIC大会现场，还是世界人形机器人运动会的赛场上，跑动的机器人都贡献了不少出圈的名场面。让机器人跑起来得办好两件事：一是智商高，二就是会学习。

解决机器人的智商问题，机器人的“大脑”（决策大模型）与“小脑”（运动控制小模型）得经过高效训练，这就需要庞大算力。百度智能云的昆仑芯超节点，将64张全栈自研昆仑芯集成于单节点，实现单卡性能提升95%、单实例推理能力提升8倍，让算力无忧。

云智大会上，百度百舸还正式上线了昆仑芯超节点公有云实例，现在具身智能企业只需调用云实例，几分钟就能跑万亿级开源模型。让机器人的大脑（世界模型）和眼睛（视觉语言动作模型VLA）训得快，大幅缩短了机器人的落地周期。

二是会学习，机器人要到真实世界中接受地面摩擦力变化、障碍物突发等不确定性挑战，这要求机器人能适时调整动作策略，应对复杂条件，这就需要强化学习的试错－反馈－优化机制，来赋予机器人自主学习的灵魂，不仅对算力要求高，还需要强化学习框架，来提高具身智能企业在多模态数据处理等方面的工程能力。

百度智能云通过深度工程创新，打造了适配具身智能的百舸强化学习框架。在训练、推理、存储等环节，将吞吐推至极限，更通过系统性协同实现全局效率最优，把强化学习效率拉到了行业新高度。

北京人形机器人创新中心等“国家队”选择与百度智能云合作，正是因为在百舸的支撑下，机器人的身心都有了坚实的承载底座，加速具身智能从实验室走向家庭、工厂。

下一个需求，就是跑得快。

对金融、汽车、AIGC影视等行业来说，模型“跑得动”只是基础，“跑得快”才直接决定商业价值。

如今许多金融机构都接入了DeepSeek等开源大模型，应用在智能客服、智能投顾、文书写作等领域，但MoE模型的专家并行需要高频通信，推理时流量波动、超长文本处理需要节点协同，若网络带宽不足、延迟过高，会直接导致“算力等数据”的延迟，十分影响业务人员和用户的对话体验。

除此之外，超大规模集群的算力堆了不少，但训练效率就是上不去的问题经常出现。正如前面提到的新能源车企的智驾模型训练问题，要解决网络延迟、终端导致的训练故障，提升计算效率与资源利用率至关重要。让AI跑得快，就得打通算力和模型的通信卡点。为此，百舸5.0针对性升级VPC、RDMA、XPU-Link三大网络，构建了低延迟、高可靠的通信底座，让算力跑上了高速路。

百度百舸200Gbps的高速VPC网络，能够支持巨型帧传输，可以显著提升推理阶段KV Cache传输、训练阶段Checkpoint读写这些核心环节的计算效率。单集群十万卡RDMA互联网络，可以把端到端的延迟压缩到4微秒。面对MoE模型海量、高频、延迟敏感的All-to-All通信的瓶颈，百度自研的XPU-Link协议把卡间带宽提升8倍，把延迟做到国内最低，让专家并行的通信更快，最大程度地释放芯片的计算性能。

无论是垂直行业训练专有大模型，还是各行各业上线实时推理的DeepSeek，只有跑在高速通信的网络上，都能更快更高效。

第三个也是企业落地AI的底线考验：跑得稳。

2025年产业AI的一个主要变化，就是Deepseek带火了MoE架构，计算任务也从预训练转向了后训练、推理环节，而推理的工作负载会随着流量规模、上下文长度的变化而变化。各行业使用AI的热情高涨，新场景不断涌现，进一步增加了推理的动态和复杂性。

如沈抖所说，这时候单靠堆卡是不够的，需要做系统性的优化。百度智能云最新推出了百舸5.0推理系统，就是为此而来，通过软硬协同优化，为AI业务场景提供高效支撑。

今年上半年，百度百舸上线了领先业界的PD分离能力，以大规模推理的效率，而如今面对大规模、复杂MoE的场景，百度百舸5.0将分离做得更彻底，还推出了VIT分离（视觉和语言），以及Attention-MLP分离，通过深度解耦这些计算模式不同的模块，让整个系统更加高效，实现了数十倍的吞吐提升，从而更好地提升MoE 时代的推理性能。

针对多智能体协作时KV Cache增多的问题，百舸5.0 KV Cache系统还可以实时感知集群全局状态，从HBM灵活迁移至内存、SSD乃至远程分布式文件系统中，实现缓存智能管理，让存储资源的弹性适配，从而提升整体系统的调度效率与资源利用率。

在律师处理法律合同、政务部门处理超长文档等场景中，百舸5.0的自适应能力，能够根据输入文本长度动态调整张量、序列和专家并行策略，让MoE模型推理效率显著提升。128K超长文本3秒内出首字，能减少等待时间，显著提升用户的使用感受。在相同成本下，能处理更多请求，模型能完成的任务量更多了。

还有像3D建模平台VAST这样的企业，如果平台的百万设计师同时在线调用模型，那么百舸5.0的智能调度，通过数据并行、专家并行双重负载均衡，优化推理效率，即使是大规模高并发的实时访问场景，也能为设计师们源源不断的创作灵感保驾护航。

可以发现，百舸5.0的四大升级并非孤立技术，而是围绕“企业如何用好AI”来构建系统性解决方案。

这也印证了产业实践中，算力瓶颈、网络瓶颈与稳定性与可靠性挑战三大关卡彼此制约的复杂难题，必须靠组合拳才能击穿。举个例子，业内也有云厂商推出了吸引眼球的技术，如高密度超节点，但并没有搭好云实例，企业看得到但用不上，最后还是卡在上不了手的死胡同。

让企业真正靠AI Infra把AI用起来，百舸5.0的系统性方案，正是百度智能云轰向AI落地关卡的一组组合拳。

一位油气领域专家曾向我们感慨：智能化一旦启动，就不会停止。这是行业一线从业者的真实体感，而综合数据也印证了这一点。

IDC发布的《2025年第一季度全球服务器市场跟踪报告》显示，2025 年第一季度服务器销量大幅上涨，其中GPU需求成为推动增长的核心因素。随着AI大模型的广泛应用，企业对GPU加速服务器与云端算力的依赖显著加强，原本依赖本地数据中心的组织，正在将AI相关工作负载逐步迁移至云端；而已经部署云架构的企业，也在持续将AI能力嵌入业务流程与数据系统，带动对GPU与云基础设施的长期需求。

对各行各业来说，智能化是一场漫长的长跑，那么， AI云市场，谁能陪企业跑得更远、更久？

一份报告揭开了行业秘密：8月18日IDC发布的IDC报告显示，2024年中国AI公有云服务市场规模达195.9亿元，百度智能云以24.6%的市场份额稳居第一，连续六年、累计十次蝉联中国AI公有云市场冠军。

百度智能云能成为65%央企的AI创新合作伙伴，背后的秘密或许就藏在累计十次、六连冠的长期主义中。毫无疑问，百度智能云是一个深耕AI云赛道的耐力型选手，技术能力和产业耐力都得到了时间的检验。这意味着，在政企落地AI的智能化长跑中，选择百度智能云一同陪跑，会得到以下助力：

一是多年沉淀的产业级技术护城河。从云智大会披露的进展来看，昆仑芯超节点云实例、百舸训推升级、强化学习框架等产品、新技术，不只是为了炫技，更紧贴产业需求。这种技术竞争力，来自百度智能云多年来押注产业智能化的积累。早在2015年百度正式对外提供云服务时，便强调云的智能属性。2019年，百度智能云将“云+AI”确立为核心战略，提出“云智一体、深入产业”，进一步明确了AI云的发展方向。

能深度理解AI业务，并具备持续迭代的技术韧性，这在公有云市场当中是一种十分稀缺的能力，也为产业客户带来了长期信心。

特别是对于大型政企来说，业务关系国计民生，在布局AI时，每一次选择都关乎产业升级的方向与节奏。中国邮政储蓄银行依托百舸完成GPU/CPU算力重组，提升混合芯片集群利用率；长安汽车也牵手百度智能云建设AI基础设施，进一步加速智能驾驶模型迭代。这些企业本质是选择一个战略伙伴，作为智能化路上的定心丸和压舱石，支撑自身转型的全周期需求。

二是300+行业场景验证的AI落地方法论。产业AI的本质是“产业为先”，技术落地必须贴合业务场景的节奏，无法一蹴而就。百度智能云在服务政企的过程中，积累了覆盖金融（招行）、能源（中石化）、汽车（长安汽车）、AIGC（生数科技）、具身智能（人形机器人创新中心）的300+场景经验，既能为行业龙头提供超大规模算力调度，也能为创业公司提供精准场景突破，与各个产品同频共进，精准赋能，才能让技术真正成为智能升级的助推器。

智能化征程中，每一个人与企业都是跑者。而AI Infra作为底层根基，牵一发而动全身，一旦在企业中扎下根来，就很难被轻易替代。正因如此，当下的AI云市场不是温和竞逐，而是抢算力、拼方案的白热化厮杀，本质是跟时间赛跑，抢夺企业AI陪跑者的身位。

谁能抢先接住企业落地AI的真需求，相当于拿下了未来的市场。百度智能云累计十次、连续六年蝉联中国AI公有云冠军，就是佐证。把技术突破转化成贴合用户的智能化陪跑能力，不仅抢到了与65%央企共同探索AI创新的入场券，更是为自己筑起了别人难以快速赶上的领先优势。

目前AI技术仍在快速迭代，Infra层面仍存挑战，这也提醒我们，唯有以技术破局、为产业筑牢底座，云厂商才能赢下这场AI决战。

审核编辑黄宇

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

AI

AI

+关注

关注
89

文章
38091

浏览量
296595
百度智能云

百度智能云

+关注

关注
0

文章
48

浏览量
2200

搜索历史

AI云玩家洗牌时刻，百度智能云凭什么六连冠？

评论