0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Deepseek进入业务深水区,为什么需要昇腾大EP?

脑极体 来源:脑极体 作者:脑极体 2025-03-17 15:09 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

wKgZPGfW5KyACaETAApVMpyorlk327.jpg

DeepSeek让各行业引入AI大模型的意识和积极性明显提高,已推动AI在政务、能源、制造等领域广泛铺展开来。

很多政企用户接入DeepSeek之后,感受到了AI大模型给业务带来了“旦用难回”的体验,很快就从试用的第一阶段,进入第二阶段——大模型推理集群的扩容升级。

当“有没有Deepseek用”不再成为问题,那么“Deepseek好不好用”的挑战就迎面而来。

一来,人多了,大量访问请求带来的高并发,就像春运高峰期涌入巨大的人流量,会出现请求积压,模型推理思考时间变长,token吞吐速度下降,用户的等待时延达到50-100毫秒,服务器繁忙和排队让人恼火。

二来,机器多了,增加更多服务器会遇到物理天花板,机器扩容并不会线性提升在线推理服务的体验,就像即使增加了更多车厢,但铁轨承载能力有限,也无法运送更多旅客(AI任务)了。

当行业智能化进入深度应用DeepSeek的第二阶段,不得不面临高并发推理的技术挑战。在堆算力的同时,也要同步优化性能体验,相当于想要运送更多乘客,不仅要增加车厢数量,还要同步改造轨道、站台和管理机制,将老式火车升级为高铁,才能综合提高运输效率。

wKgZO2fW5KyAeZLEAAIkN2vn3rk810.jpg

以DeepSeek为例,前不久公布了其利润率,高达545%,其中就涉及大量工程化能力,比如引入大EP推理集群,实现高并发推理吞吐量指数级增长。

对于更多行业和企业来说,没有DeepSeek那样的极客天才和顶尖技术团队,怎样用大EP来解决高并发推理挑战呢?当AI大模型开始进入千行万业的深水区,亟需一场大EP的“运力革命”。

wKgZPGfW5KyAdr9vAAJ2WfClXG4942.jpg

很多政企客户在接入了Deepseek之后,使用量进一步增加,有了扩展推理集群规模的需求,推理资源需要从2台扩展到10台,从16卡扩展到千卡,但扩容升级并不是往机房一放、网络一连,就能高枕无忧了。

就像印度仍在使用的老式火车,仅靠增加车厢,还是无法提高运力,每个乘客能占用的火车空间极小,体验很差,火车不堪重负,延误晚点成了家常便饭。类似问题,在Deepseek和各种大模型与业务的结合中,高并发推理卡住了用户的体验瓶颈。

面对上述问题,大EP大规模专家并行的技术架构,成为趋势。

简单来说,大EP就是将MoE(混合专家)模型中数千个专家,分配到更多的卡(算力)上去。原本一张卡只能拉10个人,有了大EP,可以同时拉100个(高并发);原本只能跑一趟车,现在可以同时跑八趟车(提高专家计算路数batch size),那么乘客就不用长时间等待了。

所以,通过大EP可以提高高并发推理场景下的计算效率,实现更大的吞吐和更低的时延。用户体感上,比如一家银行的工作人员同时访问Deepseek,不会遇到排队、延迟、过长等待等情况。

大EP这么好,怎么才能部署到自己的一体机或推理资源池呢?不经过一番努力,确实很难吃到大EP的蛋糕。

一方面,推理场景的算力需求指数级扩展,而海外厂商的推理芯片如H20,虽然显存高,但算力不足,处理大EP场景时吞吐骤降。Deepseek公开的论文来看,仍然使用H800来进行推理。更强算力且供应链稳定的推理硬件,是大EP必不可少的。

另一方面,当请求总量猛增之后,会带来多种多样的负载,且极不均衡,相当于有的车厢坐的人多,有的车厢坐的人少,负载不均一样会导致体验不佳。

此外,大EP场景的All-to-All通信,导致卡间通信占比时间高,相当于每个车厢的专家都要通知到,这就会耽误进出站的效率。NVLink在大EP场景中,实际有效带宽利用率就不足。

由此可见,当行业使用Deepseek进入深水区,面对高并发推理场景,不能抱有“头疼医头脚疼医脚”的侥幸心理,而需要通盘思考和系统攻坚。

wKgZO2fW5K2AAnpMAAJGomFO5yA775.jpg

今天来看,各行各业拥抱Deepseek不是追逐一时风口,而是对智能化发展趋势的长期价值判断。普惠LLM进入千行万业,已经是大势所趋。

而大EP无法顺利被行业用起来,就意味着接入Deepseek始终存在时延高、体验差、成本难优化的问题,那么行业智能化也就无法顺利达成。

不过也不必过于担心,Deepseek、科大讯飞等模厂,与昇腾等算力厂商,以及政企行业用户,一直保持着紧密协作与沟通,自开年Deepseek热潮以来,从部署实践中沉淀了大量技术创新。

近期,昇腾推出了大EP解决方案,面向高并发推理场景,一站式升级为智能化“高铁”。

具体来说,昇腾大EP解决方案借助五大关键技术,与昇腾算力深度协同优化,成功突破了“专家负载均衡+通信优化”两大难题。

针对专家负载不均的难题:

昇腾大EP解决方案提出了MoE负载均衡技术,可以自动寻优,根据业务情况、集群规模,找到最优的专家,自动预测哪个专家更忙,自动配比,当一个专家负载过多时自动讲解,从而实现了备份节点和副本专家灵活可扩展、高可用和极致均衡,性能得到极大提升

采用多种创新技术,做到自适应的autoPD分离部署。根据Prefill和Decode的动态负载,进行P、D实例的自动伸缩,无需人工介入,从而减少计算访存资源竞争。结合多级缓存内存资源池化,对冷热温数据进行区分,可以让系统的有效吞吐提升50%以上。

针对All-to-All通信优化的难题:

昇腾大EP解决方案提出了双流/多维混合并行,其中Prefill micro-batch双流并行,可以实现计算和通信的相互掩盖;MoE expert专家双流并行,实现两条数据流Stream的并行计算;Weight权重预取双流并行,可以把访存和通信并行起来,降低权重加载时间,提升效率。

wKgZO2fW5K6AJ6trAAQOV3lI64w930.jpg

MLA预处理阶段,昇腾大EP解决方案把大量的小算子,合成为大的融合算子,将计算耗时降低70%,让算力能力充分发挥出来。

如果你觉得上述技术创新多、不好记,那么只需要,借助昇腾大EP解决方案,行业应用Deepseek时,可以做到:

快。访问Deepseek无需等待。昇腾大EP可以将单卡并发提升3倍,Decode阶段响应速度稳定在50ms以内,支撑600+并发请求。

省。业务使用Deepseek上量之后,推理集群扩展的同时,性能也保持线性度,扩容综合成本更优。

正如高铁改变了中国人的出行,昇腾大EP为高并发推理铺设了一条“高速铁路”,改变了Deepseek上量扩容阶段的体验,为行业智能化提速增效。

wKgZPGfW5K6AWNmFAAKBVPCV2SY144.jpg

仅用两个多月的时间,Deepseek就完成了从试用阶段到扩容阶段的进阶。高并发推理场景和大EP技术架构,成为应用Deepseek的新挑战。这也提醒我们,行业智能化是一个循序渐进的过程,不可能一蹴而就。

自主创新算力与国产模型如同高铁的双轨,成为支撑起智能中国的“新基建”。昇腾生态之所以与Deepseek等大模型更加适配,答案逐步清晰明确。

首先,昇腾有硬件,为行业智能化提供“永不沉降”的算力路基。昇腾硬件的FP16和INT8算力,可达到H20的2倍以上,且功耗更低,足以支撑各行业智能化的平稳前进。

此外,昇腾有软硬件的协同优化能力。随着行业智能化的不断深入,AI模型对算力需求不断扩张,但硬件的物理天花板和企业的投入产出比,都要求计算性能持续优化。昇腾的AI软硬件,提供从预训练到微调到强化学习,到推理集群、一体机,全流程全覆盖的方案,可以快速响应客户需求,高效支撑技术创新。目前,昇腾与DeepSeek最新技术已经实现了“day0”级别同步,确保企业智能化在昇腾软硬件基座上,始终行驶在技术最前沿。

更重要的是,昇腾有伙伴。行业智能化是一个体系化工程,不是单一硬件或软件厂商就能独自完成的。在自主创新算力生态中,昇腾一方面兼容主流生态与PyTorch等国内外框架,同时与ISV伙伴、各大模厂都保持着紧密共生与合作。这意味着,当行业用户基于昇腾底座开发AI应用,能得到生态的全方位助力,减少智能化升级的阻力,降低综合成本。

今天,智能化已经成为全球经济发展的主航道。在自主算力与国产模型所铸就的双轨上,行业智能化也将走深向远,向着智能时代飞驰。

wKgZPGfW5K-AEe-IAAHtu4GpRoQ353.jpg

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    91

    文章

    41060

    浏览量

    302565
  • 大模型
    +关注

    关注

    2

    文章

    3765

    浏览量

    5269
  • DeepSeek
    +关注

    关注

    2

    文章

    837

    浏览量

    3396
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    迅龙软件亮相华为计算部件伙伴大会,蝉联APN两项大奖

    与实践经验。 作为华为生态的核心伙伴之一,迅龙软件受邀出席大会,并凭借在计算部件领域产品研发能力的持续深耕与突出价值贡献, 再次荣获“
    的头像 发表于 03-30 19:39 1708次阅读
    迅龙软件亮相华为计算部件伙伴大会,蝉联<b class='flag-5'>昇</b><b class='flag-5'>腾</b>APN两项大奖

    【硬核发布】310B算力盒上新赋能2026集创赛华强x赛道玩转新创意!

    -TECHNOLOGICALPROGRESS-310BAIBOX上新全栈全场景AI高能效算力底座Part01基于310BAIBOX算力盒硬核发布基于
    的头像 发表于 03-27 17:12 1145次阅读
    【硬核发布】<b class='flag-5'>昇</b><b class='flag-5'>腾</b>310B算力盒上新赋能2026集创赛华强x<b class='flag-5'>昇</b><b class='flag-5'>腾</b>赛道玩转新创意!

    华为发布全新950PR,Atlas 350单卡算力接近3倍于H20

    电子发烧友网报道 近日,在中国合作伙伴大会2026上,华为发布并展出搭载全新950PR(Ascend 950PR)处理器的AI训练推理加速卡Atlas 350。与前一代芯片相比
    的头像 发表于 03-24 09:08 5938次阅读

    2026华为中国合作伙伴大会人工智能伙伴峰会圆满落幕

    在华为中国合作伙伴大会2026期间,以“与时代 共”为主题的人工智能伙伴峰会于深圳国际会展中心圆满落幕。峰会现场联合20家行业伙伴正式推出2026
    的头像 发表于 03-23 17:03 1431次阅读

    国产替代进入深水区:中国SiC功率模块产业链在PCS市场的崛起与突破

    国产替代进入深水区:中国SiC功率模块产业链在PCS市场的崛起与突破——基于核心工业模块的深度技术解析 在全球能源结构向清洁化、低碳化转型的宏大历史进程中,储能变流器(Power
    的头像 发表于 03-05 05:03 193次阅读
    国产替代<b class='flag-5'>进入</b><b class='flag-5'>深水区</b>:中国SiC功率模块产业链在PCS市场的崛起与突破

    深兰科技国际业务迎来新一轮布局推进

    在人工智能加速进入实体产业深水区的背景下,深兰科技国际业务迎来新一轮布局推进。北欧市场授权体系正式确立,工程设备样机进入海外验证阶段,非洲医疗板块实现突破性对接,全球
    的头像 发表于 03-04 15:12 539次阅读

    香橙派系列开发板如何部署OpenClaw

    香橙派系列开发板解锁专业级智能体,OpenClaw拥抱高算力未来 上两篇文章我们给出了香橙派此芯及RK系列产品部署OpenClaw的教程,接下来我们将这只智能小龙虾接入到系列开
    发表于 02-25 10:13

    AI+FPGA助力生态新篇章|2025AI技术研讨会·杭州站成功举办

    中国·杭州2025年12月17日“华强筑链·万里”华为&华强半导体2025AI技术研讨会杭州站圆满落幕。本次研讨会由华为技术有限公司与深圳华强半导体集团联合主办,杭州市人工智能
    的头像 发表于 12-24 08:05 779次阅读
    AI+FPGA助力<b class='flag-5'>昇</b><b class='flag-5'>腾</b>生态新篇章|2025<b class='flag-5'>昇</b><b class='flag-5'>腾</b>AI技术研讨会·杭州站成功举办

    润和软件AIRUNS训推一体化平台与910C芯片深度适配

    近日,在江苏鲲鹏・生态创新中心的全程支持下,江苏润和软件股份有限公司(以下简称“润和软件”)自主研发的AIRUNS训推一体化平台完成与搭载910C芯片的Atlas 800T A
    的头像 发表于 12-22 14:51 829次阅读
    润和软件AIRUNS训推一体化平台与<b class='flag-5'>昇</b><b class='flag-5'>腾</b>910C芯片深度适配

    国产AI芯片真能扛住“算力内卷”?海思的这波操作藏了多少细节?

    最近行业都在说“算力是AI的命门”,但国产芯片真的能接住这波需求吗? 前阵子接触到海思910B,实测下来有点超出预期——7nm工艺下算力直接拉到256 TFLOPS,比上一代提升了40%,但功耗
    发表于 10-27 13:12

    华为与全球开发者共赢生态

    在华为全联接大会2025期间,华为计算业务总裁张迪煊发表了“以开发者为中心,加速自主创新,共赢生态”的主题演讲,宣布CANN技术指导
    的头像 发表于 09-20 15:57 2113次阅读

    商汤科技联合华为实现超节点适配多项创新

    近日,商汤大装置SenseCore与384超节点率先完成全面适配。
    的头像 发表于 09-05 15:22 1010次阅读

    软通动力亮相福建计算产业发展大会

    近日,软通动力与华为技术有限公司、同泰怡科技集团、百信信息技术有限公司及福建升腾资讯有限公司联合主办的“万里 开创未来 共筑数智福建——福建计算产业发展大会”在福州成功举办。大
    的头像 发表于 09-04 09:26 961次阅读

    智能客服驱动效率和体验升级,上海电信+AI的一次民生应用实践

    上海电信+AI的一次民生应用实践
    的头像 发表于 07-30 23:44 3069次阅读
    智能客服驱动效率和体验升级,上海电信+<b class='flag-5'>昇</b><b class='flag-5'>腾</b>AI的一次民生应用实践

    中软国际签约成为华为大模型一体机伙伴

    7月26日,2025世界人工智能大会(WAIC 2025)在上海世博展览馆拉开序幕。大会中,中软国际与华为举行了“大模型一体机伙伴合作”签约仪式,华为计算业务总裁张迪煊,
    的头像 发表于 07-30 09:42 1610次阅读
    中软国际签约成为华为<b class='flag-5'>昇</b><b class='flag-5'>腾</b>大模型一体机伙伴