0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

DLInfer联手沐曦股份实现数据生成场景的实际落地

沐曦MetaX 来源:沐曦MetaX 2025-12-09 14:55 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

近期,上海 AI 实验室 DeepLink 团队推出的 DLInfer 通过支持 LMDeploy 主流模型推理,助力沐曦股份曦云 C500 落地 MinerU 多模态数据生成场景,Graph 模式下实现性能加速 60%。DLInfer 是一套专为国产硬件适配大模型推理框架的中间件解决方案,其核心功能在于通过标准化的融合算子接口,打通上层大模型推理框架与底层硬件厂商的异构计算能力。目前,DLInfer 已实现软硬适配工程中的有效解耦,支持包括 InternLM 系列、InternVL 系列、Qwen 系列、DeepSeek 系列在内的多款主流模型在多元硬件上的推理适配,支撑包括沐曦股份曦云 C500 在内的超 5 款主流硬件接入。

DLInfer GitHub:

https://github.com/DeepLink-org/dlinfer

Metax算子库:

https://github.com/orgs/MetaXMACA/repositories

LMDeploy GitHub:

https://github.com/InternLM/lmdeploy

MinerU GitHub:

https://github.com/opendatalab/MinerU

联手沐曦股份实现数据生成场景的实际落地,Graph 模式下性能加速超 60%

为了验证 DLInfer 在真实场景中的效能,科研团队与沐曦股份展开了深度合作,通过接入通用推理框架与赋能垂类应用两个维度,全面展示了 DLInfer 助力沐曦股份芯片释放潜能的实战成果。其中,Dlinfer + LMDeploy 推理部署方案表现突出。不仅能有效降低端到端延迟、提升吞吐性能,更凭借其出色的加速效果,为其成为国产主流硬件在推理场景下的重要选择提供了有力支撑。

Graph 模式下精确的算子匹配加速推理效率

DLInfer 通过分层设计,在 Eager 模式下直接调用各厂商优化后的融合算子,在 Graph 模式下则对接硬件厂商的图编译引擎,获取更加精确匹配,实现端到端性能优化。其接口设计不仅将框架与硬件适配工程解耦,降低多平台开发成本,还能在 Graph 模式下通过精确的算子匹配提升推理效率。

Graph 模式是 DLInfer 实现性能跃迁的核心,它融合了两种关键的优化路径:

一方面全面支持类似 CUDA Graph 的“执行流捕获”技术,支持将整个计算流程固化,消除 CPU 调度开销,实现近乎零开销的执行;对于那些算子本身已经足够优化但 CPU 与 GPU 交互成为主要性能瓶颈的场景,这种技术能带来立竿见影的加速效果。

另一方面对于拥有丰富图编译生态的硬件平台,DLInfer 将 Attention、MoE 等关键子图整体映射到硬件厂商提供的图优化器上,这种做法能最大化利用硬件特性,实现深度的算子融合与内存优化。

ac7c4ebc-cf69-11f0-8c8f-92fbcf53809c.png

DLInfer 架构图

沐曦股份算子优化核心突破

沐曦股份算子库提供的针对性适配优化,进一步补全了 DLInfer 在硬件底层的性能调用能力,让芯片算力与软件框架的适配更精准、资源损耗更少。

在访存延迟掩盖方面,沐曦股份通过多重技术组合实现高效数据流转。采用64/128bit 宽位显存 load 指令提升带宽利用率,针对非 2 的幂次对齐数据定制loop展开逻辑,借助运行时mask实现显存数据高效加载。通过预发射shared memory读取指令、采用swizzle布局消除bank冲突,搭配多stage等机制让计算指令精准掩盖访存延迟,全方位突破访存瓶颈。

生态兼容层面,沐曦股份以降低用户迁移成本为核心,实现全方位适配。全面兼容 cuBlas 和 cuBlasLt 接口,完美适配官方 FlashAttention 与 FlashMLA,新增 Attention mask实现、KV cache 反量化融合支持、多 page size 选项等实用特性,让用户无需重构代码即可无缝衔接现有生态,加速业务落地进程。

无缝接入 LMDeploy,释放通用推理框架潜力

LMDeploy是业界领先的大模型推理引擎,为开发者提供了灵活高效的部署方案。DLInfer作为桥梁,让异构芯片能够无缝融入此生态,用户无需修改业务代码即可享受硬件性能红利。

一键切换的集成方式,实现零成本适配。DLInfer 作为“翻译官”和“优化器”,LMDeploy 与沐曦股份的对接变得非常简单。用户只需在 LMDeploy 的配置中指定后端为沐曦股份(--device maca),即可完成整个部署链路的切换。上层应用(LMDeploy)依然调用 DLInfer API,便可在底层将计算任务精准地分发到沐曦股份硬件上。

通用模型推理吞吐可实现 30%的提升。科研团队在 C500 上对多个主流大模型进行了性能测试。测试结果表明,相较于算子模式,通过 DLInfer + LMDeploy 的部署方案,端到端延迟显著降低,模型推理吞吐量提升了 30%以上,为高并发推理服务提供了坚实的性能保障。

加速 MinerU 文档处理,彰显垂类模型应用价值

如果说接入 LMDeploy 证明了 DLInfer 方案的“广度”,那么赋能类似 MinerU 的复杂垂类应用,则彰显了其“深度”和解决特定领域难题的能力。MinerU 是上海AI实验室研发的一款开源的一站式文档解析工具,目前GitHub星标数近50K,在文档解析领域有着重要的影响力,其核心任务是将 PDF 等复杂文档转换为结构化的 Markdown,这是一个典型的多模态数据生成场景。DLInfer 通过 Mineru-LMDeploy-DLInfer 的技术路线,将 MinerU 无缝运行在了曦云 C500 上,并实现 Graph 模式性能相比 Eager 模式提升了 60%。通过双方技术优势的互补,实现了此次复杂垂类场景的性能加速突破,为推理任务的高效运行再添一重保障。

acd4d136-cf69-11f0-8c8f-92fbcf53809c.png

"芯片 + DLInfer + LMDepLoy + MinerU" 技术路线

多元硬件接入推理框架的通用方案

DLInfer 对上承接大模型推理框架,对下通过一套接口灵活支持各厂商不同粒度的融合算子与厂商自研图引擎,将对接框架与对接厂商融合算子在适配工程中有效解耦。在 DLInfer 中,根据主流大模型推理框架与主流硬件厂商的融合算子粒度,定义了大模型推理的融合算子接口。同时,DLInfer 兼顾了 LLM(大语言模型)与 VLM(视觉语言模型)两类主流多模态模型的推理需求,为国产硬件生态融入大模型技术栈提供了统一的中间层支持。

DLInfer 的核心架构可以概括为“统一前端 + 可插拔后端”的模式:

统一前端:DLInfer 的顶层算子接口为上层应用提供了一套与硬件无关的算子加载与执行接口。开发者无需关心底层硬件,只需聚焦于业务逻辑本身。

可插拔后端: 每个硬件平台都是一个独立的“后端”模块,而每个后端都负责实现两套执行路径,即适合模型调试和新算子的快速验证 Eager 模式和 最大化利用硬件特性 Graph 模式。在 DLInfer 的vendor目录下,可以清晰地看到这种解耦设计。

结语

DeepLink 聚焦多元芯片生态建设,深耕编译优化、异构通信等核心技术,全力推进国产 AI 工具链研发与安全高效的方案落地。针对国产芯片特性优化算子性能、构建统一计算通信中间表达,打造兼容主流框架的开发环境,降低开发者国产芯片迁移门槛,不断提高国产芯片的易用性和端到端性能。同时通过构建多场景支撑平台和垂域标杆应用,为科研和产业界提供更为强大的支持,推动 AI 全行业自主可控、可持续发展。

关于沐曦股份

沐曦股份致力于自主研发全栈高性能GPU芯片及计算平台,为智算、通用计算、云渲染等前沿领域提供高能效、高通用性的算力支撑,助力数字经济发展。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    91

    文章

    42158

    浏览量

    303138
  • 沐曦
    +关注

    关注

    1

    文章

    121

    浏览量

    1895
  • 大模型
    +关注

    关注

    2

    文章

    3877

    浏览量

    5300

原文标题:DLInfer助力沐曦股份曦云C500推理落地MinerU多模态场景,实现性能加速60%!

文章出处:【微信号:沐曦MetaX,微信公众号:沐曦MetaX】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    股份与迈富时正式签署战略合作协议

    近日,股份(688802.SH)与迈富时(02556.HK)正式签署战略合作协议。双方宣布将围绕算力基础设施、企业级智能体中台及行业场景落地
    的头像 发表于 05-27 14:21 156次阅读

    股份校企Open Day活动成功举办

    近日,股份在北京融科资讯中心成功举办校企Open Day。
    的头像 发表于 05-19 10:37 450次阅读

    股份Day 0适配商汤科技日日新SenseNova U1系列大模型

    近日,日日新 SenseNova U1 原生理解生成统一模型发布并开源。股份旗下云C系列 GPU率先完成 Day 0 适配,成为率先完
    的头像 发表于 05-07 16:24 1581次阅读
    <b class='flag-5'>沐</b><b class='flag-5'>曦</b><b class='flag-5'>股份</b>Day 0适配商汤科技日日新SenseNova U1系列大模型

    股份Day 0适配DeepSeek-V4-Flash模型

    4月24日,股份携手FlagOS,已完对DeepSeek最新开源的DeepSeek-V4-Flash模型的Day 0适配。同日,
    的头像 发表于 04-28 15:53 707次阅读

    股份与上海联通正式签署战略合作协议

    4月17日,股份与中国联合网络通信有限公司上海市分公司(简称“上海联通”)正式签署战略合作协议,此次签约标志着双方在算力基础设施建设、人工智能产业赋能等领域的合作迈入深度融合的新阶段。
    的头像 发表于 04-23 14:33 1824次阅读
    <b class='flag-5'>沐</b><b class='flag-5'>曦</b><b class='flag-5'>股份</b>与上海联通正式签署战略合作协议

    股份Day 0适配阿里千问Qwen3.6-35B-A3B大模型

    阿里巴巴千问模型团队最新宣布,开源旗下多模态“智能体小钢炮” Qwen3.6-35B-A3B模型。股份与FlagOS合作,完成了该模型的Day0 适配。经测试,基于
    的头像 发表于 04-22 11:13 995次阅读
    <b class='flag-5'>沐</b><b class='flag-5'>曦</b><b class='flag-5'>股份</b>Day 0适配阿里千问Qwen3.6-35B-A3B大模型

    股份与蓬莱智数达成生态合作签约

    4月7日,股份与国产人工智能数据库明星创业公司蓬莱智数达成生态合作签约,共建“国产算力+国产存力”融合生态。
    的头像 发表于 04-11 10:57 401次阅读
    <b class='flag-5'>沐</b><b class='flag-5'>曦</b><b class='flag-5'>股份</b>与蓬莱智数达成生态合作签约

    股份联合上海人工智能实验室发布高性能GPU算子生成系统Kernel-Smith

    近日,上海人工智能实验室和股份联合发布了高性能GPU算子生成系统—— Kernel-Smith。
    的头像 发表于 04-08 15:39 436次阅读
    <b class='flag-5'>沐</b><b class='flag-5'>曦</b><b class='flag-5'>股份</b>联合上海人工智能实验室发布高性能GPU算子<b class='flag-5'>生成</b>系统Kernel-Smith

    股份北京AI研究院暨企业开源中心正式揭牌启动

    3月20日,股份北京AI研究院暨“企业开源中心”正式揭牌启动。活动以“芯生,开源共创”为主题,标志着
    的头像 发表于 03-24 10:11 428次阅读

    股份CXO预科班2026冬令营圆满收官

    2月6日,由集成电路(上海)股份有限公司(股票代码:688802,简称“股份”)主办、之
    的头像 发表于 02-25 16:29 1406次阅读

    股份正式推出索X系列全新GPU品牌与产品线

    1月27日,股份(股票代码:688802.SH)正式推出索X系列全新GPU品牌与产品线。该系列产品是面向科学智能场景深度优化的高性能计
    的头像 发表于 01-28 17:14 995次阅读

    大晓机器人与股份签署战略合作协议

    12月18日,大晓机器人与股份正式签署战略合作协议,依托双方核心资源禀赋,聚焦技术创新、产品研发、生态构建、商业落地等领域,开悟世界模型3.0与
    的头像 发表于 12-24 09:11 2477次阅读

    股份MXMACA软件栈3.3.0.X版本技术解析

    ,作为“自主GPGPU硬件+全栈软件体系”的关键协同载体,如图1所示,MACA承担着连接硬件算力单元与上层应用生态的核心纽带作用,覆盖底层驱动、用户态接口、编译器、算子适配、训练框架、推理框架、行业场景优化等全链路能力,是支
    的头像 发表于 12-24 09:08 1328次阅读
    <b class='flag-5'>沐</b><b class='flag-5'>曦</b><b class='flag-5'>股份</b>MXMACA软件栈3.3.0.X版本技术解析

    股份云C系列GPU Day 0适配智谱GLM-4.6V多模态大模型

    12月8日智谱AI发布并开源 GLM-4.6V 系列多模态大模型,股份云C系列GPU完成Day 0适配。
    的头像 发表于 12-17 14:28 934次阅读
    <b class='flag-5'>沐</b><b class='flag-5'>曦</b><b class='flag-5'>股份</b><b class='flag-5'>曦</b>云C系列GPU Day 0适配智谱GLM-4.6V多模态大模型

    硅基流动携手首发基于云的Kimi K2推理服务

    今天,硅基流动联合集成电路(上海)股份有限公司(简称“”),全球首发基于
    的头像 发表于 07-23 17:33 2275次阅读