0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

为千行万业开算力通途,为什么是百舸?

脑极体 来源:脑极体 作者:脑极体 2025-04-27 15:09 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

wKgZPGgMab2AEc9LAApCichJdCA443.jpg

2025,各行各业基于DeepSeek探索各自领域的落地方式,由此开启了AI智能化加速的新航程。然而,大模型应用落地是一个系统工程,技术与资源门槛高,还存在大量未知挑战。

面对不确定的海浪,具备全栈能力的云基础设施,成为企业追逐AI的可靠巨轮。

大模型对云计算基础设施的需求,与传统云计算存在显著差异。比如大模型训练需要万卡级GPU集群支持,且对多芯混合训练效能和稳定性要求极高。传统以CPU中心的云计算中心,需转向以GPU为核心的智能算力架构,并实现算力资源的极致调度。

而百度智能云与其他云厂商最大的区别,就是一直是百度AI技术和业务的坚定支持者,常年在AI基础设施上进行投入。上云用大模型的需求爆发之后,百度智能云迅速跻身中国大模型平台第一,领航AI云市场。

这一成绩的背后,离不开百度所有核心业务的算力底座——百舸异构计算平台。借助百舸的大规模推理加速能力,以及自研昆仑芯P800芯片,百度智能云实现了算力性能与成本的双重突破。

wKgZO2gMab6AZzjEAAKMZerEIBg295.jpg

就在昨天,4月25日召开的Create 2025 百度AI开发者大会上,百度正式点亮了昆仑芯P800的三万卡集群,发布昆仑芯超节点。仅有高性能芯片和大规模集群是不够的,为了稳定、高效地释放算力价值,百度智能云也全面升级百舸推理加速能力。

wKgZPGgMab6AKRLPAAArC2evSDs574.jpg

云计算的大船,正乘AI之风,扬时代之帆,迎来前所未有的增长机遇。这时候,有必要深入百舸内部,去窥探一下百度智能云这艘AI巨轮的加速密码。

wKgZO2gMab-AFWpsAAJDdT7Q7Ng825.jpg

为什么破解算力短缺和计算成本高的问题,仅靠单体硬件和集群还不够,需要平台级的优化助力?

纵观2025年的大模型算力格局,前有DS技术突破,算力需求激增;后有海外进口芯片供应持续不稳定,算力焦虑始终存在。多元异构芯片的混合训练,成为国内缓解算力荒的一个选择。但异构芯片之间的协议生态不同,合池训练难度大,对云基础设施提出了挑战。

首先,集群规模更大,推理场景下快速定位故障并恢复,十分考验超大规模集群的稳定性。

此外,异构芯片多样,国内超万卡集群多采用混合芯片方案,但不同架构合池训练会出现性能损失。《AIDC白皮书》显示,业界顶尖的千卡智算集群,其算力利用率不超过60%,万卡集群不超过55%。提高国产集群的资源利用率和算效,避免资源浪费,刻不容缓。

DeepSeek之后,尽快用上DS等大模型,成为企业的当务之急,云基础设施承载的AI任务大幅上量。一方面考验云基础设施的敏捷性,是否支持在云上快速构建和进行模型迭代,无缝集成AI开源生态,也需要调优技术的加持,从而带来极致的推理性能优化,降低推理成本。

可以说,AI大模型深入千行万业,上云深度用AI的当下需求,进一步强化了多元异构计算平台的重要性和必要性。沧海横流处,百度智能云和百舸,已经做好了准备。

wKgZO2gMab-AFcLRAAJAifoxsHo832.jpg

一场以AI为核心、多元异构算力为底座的云技术竞赛,就此拉开帷幕。百度智能云率先点亮了昆仑芯万卡集群,今年Create大会上,又正式宣布点亮3万卡集群。那么,百度是如何解决多芯混训问题的?百舸平台,是核心驱动。

百舸作为超大规模GPU算力平台,可以对算力集群的AI-IaaS基础资源进行调度,打造高性能AI基础设施,支持高达10万卡大规模集群,提供稳定、极速、高效的算力服务,满足企业的训练、精调、推理的全流程需求。

如果把AI云基础设施看作一艘航船,那么百舸的存在,可以发挥几个作用:

作用一,支撑更大的算力船身。百舸平台不仅有更强的单节点性能,同时通过昆仑芯超节点(高密整机柜),把卡放在同一个机柜里,用更快的机内通信替代机间通信,降低机柜之间通信的复杂性、高延迟和带宽成本,从而支持超大规模集群建设。基于百舸,AI基础设施可以纳管的算力资源规模大,提供更加充沛、稳定的智能算力。

作用二,提供稳定的AI体验。当计算机群出现故障,每一次重写checkpoint,都会给大模型的开发和企业平添波折。百舸平台通过智能调度与冗余设计,实现99.5%有效训练时长,以分钟级故障恢复能力,减少中断,确保AI任务连续稳定运行。

作用三,为AI任务加速的高效动能。类DeepSeek的长思维链推理模型,增加了思考环节,需要输出的token更多,如果吞吐速度不够快,用户就需要长时间等待,AI体验很差。百舸的大规模分布式PD分离推理系统,可根据不同的模型特点,选择最优的并行策略,做到token级别的PD负载均衡,同时结合算子融合、all-to-all 通信算子优化、异步KV传输、双流编排等技术进一步提升GPU利用率,推理成本节省95%,总吞吐提升20倍。同时,百舸还支持私有化部署。也就是说,无论是云上调用推理模型,还是本地部署,百舸都可以保障高效实时的体验。

可以说,在百舸平台的支撑下,百度得以打造坚固的异构算力底座,拥有了在大模型时代远航的稳定推进力,在AI云服务的竞争中处于领先身位。

wKgZO2gMacCAEn-9AAJ-5Lm_f5Y861.jpg

开年以来,AI云市场进入后DeepSeek时代,头部云服务商都在积极升级AI基础设施及服务。百度能否长期保持AI云的优势,还取决于AI底座与产业的融合深度。

说到底,只有让企业真正用上AI,用好AI,AI基础设施及AI云服务才能焕发出最宽广的价值。

如何帮助千行百业高效地接入AI算力与模型,打造自己的AI应用?百度智能云AI计算部负责人、百度杰出架构师王雁鹏认为,支撑AI应用的创新大爆发,基础设施必须让算力不再成为瓶颈,让算力唾手可得。全新升级的百舸,就是百度智能云交出的一份答卷,可以用三个字来概括:

全。王雁鹏提到,面对AI模型的爆发,敏捷的基础设施能够支持各种芯片、模型、框架以及工具链。全新升级的百度百舸算力平台,不仅提供高性能的计算、存储、网络的基础资源产品,也提供了一键式全站AI工程开发平台以及各类工具集,能够一键建设资源池,一键部署开发环境,一键部署模型,把GPU的利用率发挥到极致,为各类开源模型带来显著的加速效果。

作为企业级的一站式AI工程平台,百舸覆盖AI大模型的全周期、全流程,可以缩短AI开发周期,对于金融、互联网等追求效率、时间敏感、竞争激烈的行业来说,意义重大。比如百度智能云携手招行基于昆仑芯国产算力,接入开源模型,帮助招行快速提升了智能客服、多模态数据分析等场景的应用效能。

省。领先的AI工程硬核加速能力,也可以让各领域开源模型训推成本更低、周期更短、故障更少,能够同时支持成百上千的各种任务不中断,大幅节省了企业的时间和资源成本。北京人形机器人创新中心的通用具身智能平台,就依托百度百舸AI异构计算平台和稳定可靠的AI算力基础设施,进行模型训练,为人形机器人打造更聪明的“大脑”。

强。王雁鹏介绍到,把训推系统的能力做到极致,充分压榨出硬件的算力,是百舸一直以来追求的目标。百舸的原生AI-IaaS 对接和管理能力,可以发挥出基础设施最大效能,性能更强。

最近,百舸针对多模态模型以及智驾模型做了深度优化,在多模态模型上取得了30%,在智驾模型上取得了150%以上的加速效果,助力更多行业、汽车企业等智能化降本增效。比如教育机构好未来,就借助百舸的队列超发能力,充分利用集群闲时资源,整体资源利用率提升10%以上。

当一个企业打算落地应用大模型,百舸是一条更短、更省、更快的智能化航路。

wKgZPGgMacGAEHzhAAJMoQJROH4762.jpg

在未知的海域中探索,望向技术远方的星辰,才能走在正确的方向上。十多年来,AI指引着百度的航向,从未偏离航道,才能成为大模型时代AI与云的领航人。

云基础设施+AI技术的优势,让百度智能云在大模型时代快速增长,成为大量政企上云赋智的首选。而百舸平台,也为缓解行业智能化的算力焦渴,发挥了关键作用。

早在百度押注AI、大模型、昆仑芯的时候,就知道必须把多元异构计算集群掌握在自己手中,那么百舸平台的出现,也就是水到渠成了。

进入2025年,国产大模型+异构算力,正在书写智能中国的新篇章。我们已经从百舸身上,发现了百度继续领航AI与云时代的必要条件:

基础设施完备。从昆仑芯,到百舸平台,AI算力基础设施底座是百度业务AI重塑的基本保障。

进化动能强劲。高性能优化技术,降本增效,支撑百度大模型、AI应用等低成本高效迭代,持续进化,竞争力不断增强,避免掉队。

商业逻辑清晰。AI即服务、模型即服务的商业逻辑想要成立,必须持续优化token成本,带给客户上云用AI的真实价值,从而在用户规模和资源回报比上占据优势。凭借百舸平台能力,新业务模式得以成立。

为千行万业,开算力通途,属于AI与云的时代才刚刚开始。接下来,百舸支撑的AI云基础设施及服务,不仅是行业和企业加速拥抱AI的时代航船,也将是百度增长的主航道。

wKgZPGgMacKAEyozAAIKKv_VmIs693.jpg

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    89

    文章

    38090

    浏览量

    296564
  • 算力
    +关注

    关注

    2

    文章

    1385

    浏览量

    16564
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    锚定中央 “人工智能+” 部署!天数智以全栈产品,解锁行业智能化新可能​

    随着“人工智能+”行动的深入推进,天数智将继续发挥自身在技术、产品创新和生态合作等方面的优势,不断优化产品与解决方案。持续千行
    的头像 发表于 12-04 17:42 924次阅读
    锚定中央 “人工智能+” 部署!天数智<b class='flag-5'>算</b>以全栈产品<b class='flag-5'>力</b>,解锁行业智能化新可能​

    思必驰亮相2025 AI Partner业大会

    AI浪潮席卷千行百业,“中国式方案”正在无声地改写着全球科技产业版图,实现“AI+”与千行百业的深度赋能。
    的头像 发表于 09-03 09:13 712次阅读

    南方智能SmartDBase数字孪生底座平台赋能千行百业智慧升级

    表达、时空计算和场景推演六大能力于一体,实现了时空信息生产、治理、应用全链条服务能力跃迁,赋能千行百业迈向数字化未来。
    的头像 发表于 08-25 11:39 1490次阅读

    千行数智化,需要一个支点!

    行业资讯
    脑极体
    发布于 :2025年08月21日 13:42:37

    龙芯中科亮相第二届之都开发者大会

    近日,以“开源·开放 融合·服务”为主题的第二届之都开发者大会暨天翼云AI生态合作大会在银川召开。大会由中国电信宁夏公司携手龙芯中科等业界领军企业与顶尖科研院所共同主办,旨在深度激活
    的头像 发表于 08-16 13:52 1085次阅读

    龙芯产品赋能千行百业的突破性进展

    近日,2025龙芯产品发布暨用户大会在北京成功举办。本次大会集中展示了龙芯从基础民生到国防安全、从石油化工到航空航天、从智慧农业到轨道交通等领域的全栈创新应用成果,多角度、全方位呈现了龙芯用科技赋能千行百业的突破性进展,与会嘉
    的头像 发表于 07-11 09:48 825次阅读

    腾视科技TS-NV-P100系列AI边缘盒子综合算高达157TOPS:重新定义AI边缘,赋能千行百业智能化升级

    视科技正通过持续的技术创新,千行百业的智能化转型提供坚实的边缘底座,让AI真正成为驱动产业升级的核心动能。
    的头像 发表于 07-02 10:24 1467次阅读
    腾视科技TS-NV-P100系列AI边缘<b class='flag-5'>算</b><b class='flag-5'>力</b>盒子综合算<b class='flag-5'>力</b>高达157TOPS:重新定义AI边缘<b class='flag-5'>算</b><b class='flag-5'>力</b>,赋能<b class='flag-5'>千行</b><b class='flag-5'>百业</b>智能化升级

    腾视科技TS-NV-P100系列AI边缘盒子综合算高达157TOPS:重新定义AI边缘,赋能千行百业智能化升级

    视科技正通过持续的技术创新,千行百业的智能化转型提供坚实的边缘底座,让AI真正成为驱动产业升级的核心动能。
    的头像 发表于 07-02 10:16 763次阅读

    中兴通讯推动千行百业数智进阶的创新实践

    近日,2025 MWC 上海正式启幕,中兴通讯首席发展官崔丽应邀出席在同日举行的“科技企业转型:引领创新新时代”主旨演讲和以“预见未来,从5G-A到6G”为主题的2025 GTI上海国际产业大会,分享中兴通讯在AI大模型驱动的智能革命浪潮中,推动千行百业数智进阶的创新实践
    的头像 发表于 06-23 15:00 958次阅读

    已有65%的央企选择 AI深入千行百业

    度宣布已有65%的央企选择与度智能云开展深度合作,共同探索AI创新。同时,度智能云重磅发布帆慧金金融大模型,并推出了覆盖能源、交通、医疗、汽车、环境等领域
    的头像 发表于 06-10 12:03 1014次阅读
    已有65%的央企选择 AI<b class='flag-5'>算</b><b class='flag-5'>力</b>深入<b class='flag-5'>千行</b><b class='flag-5'>百业</b>

    华为全光网加速AI普惠千行

    技术会快速从数据中心内部以及数据中心互联,延伸到每张行业通信网、每个园区、每个感知终端,实现以光强、以光促、以光惠、以光赋,让AI普惠千行
    的头像 发表于 04-01 15:32 847次阅读

    软通智算入选广州智联盟首批“人工智能+”典型案例

    近日,广州人工智能公共中心“智赋百业 能启千行”主题活动暨广州人工智能应用及产业发展联盟
    的头像 发表于 03-31 10:51 1078次阅读

    MWC 2025 | 广和通发布「AI For X」:以AI重塑千行百业

    作为全球领先的AIoT模组及解决方案提供商,广和通26年来始终致力于全球千行百业打造创新物联方式。面向全新的AI时代,广和通推出「AI For X」,宣布以全方位、多方式的AI技术能力、产品、行业解决方案、生态融合助力多行业从
    的头像 发表于 03-03 18:06 758次阅读
    MWC 2025 | 广和通发布「AI For X」:以AI重塑<b class='flag-5'>千行</b><b class='flag-5'>百业</b>

    MWC 2025 广和通发布「AI For X」:以AI重塑千行百业

    深圳2025年2月28日 /美通社/ -- 作为全球领先的AIoT模组及解决方案提供商,广和通26年来始终致力于全球千行百业打造创新物联方式。面向全新的AI时代,广和通推出「AI For X
    的头像 发表于 03-03 16:39 567次阅读

    中科曙光以AI加速智能计算服务千行

    近年来,中科曙光以AI中心,全面重构底层芯片、液冷、计算、存储、智集群、基础软件栈、管理平台,并与AI场景有机适配、融合,加速智能计算服务千行
    的头像 发表于 02-10 17:45 1552次阅读