0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

华为数据存储与「DaoCloud 道客」发布AI推理加速联合解决方案

科技讯息 来源:科技讯息 作者:科技讯息 2025-11-28 10:03 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

AI产业已从“追求模型能力极限”转向“追求推理体验最优化”,推理体验决定用户与AI的交互质感。当前推理应用快速发展,Token调用量爆发式增长,推理遇到“推不动、推得慢、推得贵”三大瓶颈,成为产业规模化发展的拦路虎。在有限算力下,长序列输入导致首Token时延(TTFT)增加,甚至超长序列超出模型上下文窗口限制;随着并发数增加,推理吞吐开始下降,任务频繁卡顿;历史对话和行业知识的重复调用造成算力浪费,加大推理成本。如何优化推理效率,是AI产业突破发展瓶颈的关键。

算力的有效利用对AI推理性能和成本优化发挥着至关重要的作用,是企业核心竞争力。算力平台需适配多元存储、Kubernetes集群及推理框架,但硬件生态碎片化、资源分配僵化、调度缺乏AI任务感知、运维可观性不足等技术兼容难题,正严重制约推理应用发展。

近日,华为数据存储与「DaoCloud 道客」联合推出了AI推理加速联合解决方案。该方案融合了华为UCM(Unified Cache Manager)推理记忆数据管理技术和道客d.run算力调度平台,围绕大模型历史数据,实现KV Cache数据池化管理,以资源的精细化管理和智能调度提升算力利用率,为AI推理加速提供全方位技术支撑。

道客d.run算力调度平台可支持算力与显存资源的细粒度切分及池化,通过多种调度策略实现算力资源的最大化利用。调度器具备拓扑感知能力,可优化任务在xPU间的通信效率,保障AI任务稳定低耗运行。平台提供企业级运维支持,提供多租户隔离、资源配额管理、完整的监控告警及计费计量等功能,满足企业级使用与运维需求。同时具备多元生态兼容性,适配NVIDIA、华为昇腾、寒武纪等多种品牌AI算力,支持TensorFlow等主流AI框架,借助Kubernetes的CSI无缝对接华为OceanStor AI存储,简化管理并为AI任务数据读写提供稳定支撑。

华为UCM是以KV Cache为核心,构建多级缓存空间的分层管理与智能流动机制,实现数据在高性能缓存HBM、内存DRAM和外置OceanStor A系列存储的分级缓存和查询,确保推理记忆知识全量保存。并且,UCM还融合多项创新加速算法:自适应全局Prefix Cache支持公共前缀、历史对话和RAG知识块多种拼接组合场景的复用,通过以查代算,最大程度改善TTFT;全流程稀疏加速算法提供Prefill阶段的超长KV分片卸载和增量稀疏,以及Decode阶段的动态稀疏,提升长序列推理吞吐。

在Qwen3-32B模型上,测试问答助手场景,开启Prefix Cache和RAG Chunk功能。测试数据表明,首Token时延降低约55%,且随着序列长度越长,TTFT降低效果越明显,通过“以查代算”的方式,避免了大量历史对话信息的重复计算。

wKgZPGkpAvGAKeHhAAEP1aPeZ3M080.png

图1 问答助手场景对比开关UCM的TTFT

测试长文档推理场景,设定序列长度输入32K+输出1K,开启Chunk Prefill和GSA稀疏化功能。测试数据表明,在并发数为30时,TTFT最大降低47%,端到端吞吐最大提升75%。

wKgZO2kpAvGAE5kwAABaWm9WI3o473.png

图2 长文档推理场景对比开关UCM的TTFT

wKgZPGkpAvKAetkFAABZTGktrWw833.png

图3 长文档推理场景对比开关UCM的E2E吞吐

关闭UCM,当并发数超17时,请求开始排队;开启UCM,当并发数超32时,请求开始排队。在以上情况下,开启UCM对比关闭UCM场景,并发能力提升88.24%。

wKgZO2kpAvOANQmgAABOXLrZ1B0980.png

图4 长文档推理场景对比开关UCM的并发能力

目前,该方案正在电力、金融等行业试点。未来,双方将持续深化技术合作,推动技术迭代与行业适配,助力AI技术在更多行业的落地应用。

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 华为
    +关注

    关注

    217

    文章

    35782

    浏览量

    260657
  • 数据存储
    +关注

    关注

    5

    文章

    1014

    浏览量

    52528
  • AI
    AI
    +关注

    关注

    89

    文章

    38085

    浏览量

    296317
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    华为破解HBM依赖!AI推理黑科技UCM上线,9月正式开源

    8月12日,在2025金融AI推理应用落地与发展论坛上,华为公司副总裁、数据存储产品线总裁周越峰宣布,
    的头像 发表于 08-13 08:58 9663次阅读
    <b class='flag-5'>华为</b>破解HBM依赖!<b class='flag-5'>AI</b><b class='flag-5'>推理</b>黑科技UCM上线,9月正式开源

    AI推理存储,看好SRAM?

    看到了其前景并提前布局。AI推理也使得存储HBM不再是唯一热门,更多存储芯片与AI推理芯片结合,
    的头像 发表于 03-03 08:51 2404次阅读
    <b class='flag-5'>AI</b><b class='flag-5'>推理</b>的<b class='flag-5'>存储</b>,看好SRAM?

    中软国际携手华为发布医药联合解决方案

    近日,在华为全联接大会2025“智慧园区与智算圆桌”活动上,中软国际华为技术与解决方案集团模型工场业务部总裁张伟受邀出席。会上,在华为智算服务联合
    的头像 发表于 09-19 14:16 707次阅读

    软通动力入选828精选AI行业联合解决方案

    近日,第四届828 B2B企业节开幕式上,华为云携手生态伙伴,以精准的行业洞察与联合创新,集中推出多款AI行业联合解决方案,释放
    的头像 发表于 09-01 11:37 559次阅读

    华为亮相2025金融AI推理应用落地与发展论坛

    创新技术——UCM推理记忆数据管理器,旨在推动AI推理体验升级,提升推理性价比,加速
    的头像 发表于 08-15 09:45 931次阅读

    今日看点丨华为发布AI推理创新技术UCM;比亚迪汽车出口暴增130%

        降低HBM依赖,华为发布AI推理创新技术UCM   日前,华为正式发布
    发表于 08-13 09:45 3531次阅读

    广汽华为联合AI解决方案入选国际电联全球标杆案例

    。峰会期间,ITU正式发布《人工智能向善:创新扩大影响案例集》(AI for Good - Innovate for Impact Report)2025年中期报告,其中,广汽集团联合华为
    的头像 发表于 07-24 14:34 1172次阅读

    软通动力携手华为云推出AI知识引擎与数据工程融合创新解决方案

    华为开发者大会2025中,软通动力携手华为云以华为云昇腾AI、盘古大模型、ModelArts等为技术底座,全新升级数据治理基线
    的头像 发表于 06-28 17:07 1346次阅读

    华为发布AI数据解决方案加速行业智能化 AI时代数据觉醒

    正式发布AI数据解决方案加速AI行业化落地。 华为
    的头像 发表于 04-30 18:01 1448次阅读
    <b class='flag-5'>华为</b><b class='flag-5'>发布</b><b class='flag-5'>AI</b><b class='flag-5'>数据</b>湖<b class='flag-5'>解决方案</b><b class='flag-5'>加速</b>行业智能化 <b class='flag-5'>AI</b>时代<b class='flag-5'>数据</b>觉醒

    华为加速AI时代数据存储产业发展

    近日,在华为中国合作伙伴大会2025上,华为数据存储产品线总裁周跃峰发表“共筑数智解决方案,共享数据
    的头像 发表于 04-01 15:35 889次阅读

    曙光存储全新升级AI存储方案

    近日,曙光存储全新升级AI存储方案,秉持“AI加速”理念,面向
    的头像 发表于 03-31 11:27 1034次阅读

    软通动力携手伙伴发布六大联合解决方案

    NEWS 华为中国合作伙伴大会2025期间,软通动力携手伙伴发布“昇腾DeepSeek专业服务解决方案”、“智慧高校校园联合解决方案”、“C
    的头像 发表于 03-22 10:30 1640次阅读
    软通动力携手伙伴<b class='flag-5'>发布</b>六大<b class='flag-5'>联合</b><b class='flag-5'>解决方案</b>

    Banana Pi 发布 BPI-AI2N &amp; BPI-AI2N Carrier,助力 AI 计算与嵌入式开发

    存储设计,轻松应对复杂AI模型与实时推理。其坚固耐用的工业级品质与超低成本,不仅适应严苛环境的应用,更为工程师提供了极致灵活的开发体验,堪称推动开源生态与人工智能未来的标杆之选。” 瑞萨系统
    发表于 03-19 17:54

    华为发布AI WAN解决方案

    在MWC25巴塞罗那期间,华为数据通信产品线总裁王雷在产品与解决方案发布会上正式发布AI WAN解决方
    的头像 发表于 03-05 10:18 1203次阅读

    华为发布AI为中心的网络解决方案

    在MWC25巴塞罗那期间举办的产品与解决方案发布会上,华为董事、ICT BG CEO杨超斌发布了以AI为中心的网络解决方案
    的头像 发表于 03-05 10:02 937次阅读