0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

DLInfer联手沐曦股份实现数据生成场景的实际落地

沐曦MetaX 来源:沐曦MetaX 2025-12-09 14:55 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

近期,上海 AI 实验室 DeepLink 团队推出的 DLInfer 通过支持 LMDeploy 主流模型推理,助力沐曦股份曦云 C500 落地 MinerU 多模态数据生成场景,Graph 模式下实现性能加速 60%。DLInfer 是一套专为国产硬件适配大模型推理框架的中间件解决方案,其核心功能在于通过标准化的融合算子接口,打通上层大模型推理框架与底层硬件厂商的异构计算能力。目前,DLInfer 已实现软硬适配工程中的有效解耦,支持包括 InternLM 系列、InternVL 系列、Qwen 系列、DeepSeek 系列在内的多款主流模型在多元硬件上的推理适配,支撑包括沐曦股份曦云 C500 在内的超 5 款主流硬件接入。

DLInfer GitHub:

https://github.com/DeepLink-org/dlinfer

Metax算子库:

https://github.com/orgs/MetaXMACA/repositories

LMDeploy GitHub:

https://github.com/InternLM/lmdeploy

MinerU GitHub:

https://github.com/opendatalab/MinerU

联手沐曦股份实现数据生成场景的实际落地,Graph 模式下性能加速超 60%

为了验证 DLInfer 在真实场景中的效能,科研团队与沐曦股份展开了深度合作,通过接入通用推理框架与赋能垂类应用两个维度,全面展示了 DLInfer 助力沐曦股份芯片释放潜能的实战成果。其中,Dlinfer + LMDeploy 推理部署方案表现突出。不仅能有效降低端到端延迟、提升吞吐性能,更凭借其出色的加速效果,为其成为国产主流硬件在推理场景下的重要选择提供了有力支撑。

Graph 模式下精确的算子匹配加速推理效率

DLInfer 通过分层设计,在 Eager 模式下直接调用各厂商优化后的融合算子,在 Graph 模式下则对接硬件厂商的图编译引擎,获取更加精确匹配,实现端到端性能优化。其接口设计不仅将框架与硬件适配工程解耦,降低多平台开发成本,还能在 Graph 模式下通过精确的算子匹配提升推理效率。

Graph 模式是 DLInfer 实现性能跃迁的核心,它融合了两种关键的优化路径:

一方面全面支持类似 CUDA Graph 的“执行流捕获”技术,支持将整个计算流程固化,消除 CPU 调度开销,实现近乎零开销的执行;对于那些算子本身已经足够优化但 CPU 与 GPU 交互成为主要性能瓶颈的场景,这种技术能带来立竿见影的加速效果。

另一方面对于拥有丰富图编译生态的硬件平台,DLInfer 将 Attention、MoE 等关键子图整体映射到硬件厂商提供的图优化器上,这种做法能最大化利用硬件特性,实现深度的算子融合与内存优化。

ac7c4ebc-cf69-11f0-8c8f-92fbcf53809c.png

DLInfer 架构图

沐曦股份算子优化核心突破

沐曦股份算子库提供的针对性适配优化,进一步补全了 DLInfer 在硬件底层的性能调用能力,让芯片算力与软件框架的适配更精准、资源损耗更少。

在访存延迟掩盖方面,沐曦股份通过多重技术组合实现高效数据流转。采用64/128bit 宽位显存 load 指令提升带宽利用率,针对非 2 的幂次对齐数据定制loop展开逻辑,借助运行时mask实现显存数据高效加载。通过预发射shared memory读取指令、采用swizzle布局消除bank冲突,搭配多stage等机制让计算指令精准掩盖访存延迟,全方位突破访存瓶颈。

生态兼容层面,沐曦股份以降低用户迁移成本为核心,实现全方位适配。全面兼容 cuBlas 和 cuBlasLt 接口,完美适配官方 FlashAttention 与 FlashMLA,新增 Attention mask实现、KV cache 反量化融合支持、多 page size 选项等实用特性,让用户无需重构代码即可无缝衔接现有生态,加速业务落地进程。

无缝接入 LMDeploy,释放通用推理框架潜力

LMDeploy是业界领先的大模型推理引擎,为开发者提供了灵活高效的部署方案。DLInfer作为桥梁,让异构芯片能够无缝融入此生态,用户无需修改业务代码即可享受硬件性能红利。

一键切换的集成方式,实现零成本适配。DLInfer 作为“翻译官”和“优化器”,LMDeploy 与沐曦股份的对接变得非常简单。用户只需在 LMDeploy 的配置中指定后端为沐曦股份(--device maca),即可完成整个部署链路的切换。上层应用(LMDeploy)依然调用 DLInfer API,便可在底层将计算任务精准地分发到沐曦股份硬件上。

通用模型推理吞吐可实现 30%的提升。科研团队在 C500 上对多个主流大模型进行了性能测试。测试结果表明,相较于算子模式,通过 DLInfer + LMDeploy 的部署方案,端到端延迟显著降低,模型推理吞吐量提升了 30%以上,为高并发推理服务提供了坚实的性能保障。

加速 MinerU 文档处理,彰显垂类模型应用价值

如果说接入 LMDeploy 证明了 DLInfer 方案的“广度”,那么赋能类似 MinerU 的复杂垂类应用,则彰显了其“深度”和解决特定领域难题的能力。MinerU 是上海AI实验室研发的一款开源的一站式文档解析工具,目前GitHub星标数近50K,在文档解析领域有着重要的影响力,其核心任务是将 PDF 等复杂文档转换为结构化的 Markdown,这是一个典型的多模态数据生成场景。DLInfer 通过 Mineru-LMDeploy-DLInfer 的技术路线,将 MinerU 无缝运行在了曦云 C500 上,并实现 Graph 模式性能相比 Eager 模式提升了 60%。通过双方技术优势的互补,实现了此次复杂垂类场景的性能加速突破,为推理任务的高效运行再添一重保障。

acd4d136-cf69-11f0-8c8f-92fbcf53809c.png

"芯片 + DLInfer + LMDepLoy + MinerU" 技术路线

多元硬件接入推理框架的通用方案

DLInfer 对上承接大模型推理框架,对下通过一套接口灵活支持各厂商不同粒度的融合算子与厂商自研图引擎,将对接框架与对接厂商融合算子在适配工程中有效解耦。在 DLInfer 中,根据主流大模型推理框架与主流硬件厂商的融合算子粒度,定义了大模型推理的融合算子接口。同时,DLInfer 兼顾了 LLM(大语言模型)与 VLM(视觉语言模型)两类主流多模态模型的推理需求,为国产硬件生态融入大模型技术栈提供了统一的中间层支持。

DLInfer 的核心架构可以概括为“统一前端 + 可插拔后端”的模式:

统一前端:DLInfer 的顶层算子接口为上层应用提供了一套与硬件无关的算子加载与执行接口。开发者无需关心底层硬件,只需聚焦于业务逻辑本身。

可插拔后端: 每个硬件平台都是一个独立的“后端”模块,而每个后端都负责实现两套执行路径,即适合模型调试和新算子的快速验证 Eager 模式和 最大化利用硬件特性 Graph 模式。在 DLInfer 的vendor目录下,可以清晰地看到这种解耦设计。

结语

DeepLink 聚焦多元芯片生态建设,深耕编译优化、异构通信等核心技术,全力推进国产 AI 工具链研发与安全高效的方案落地。针对国产芯片特性优化算子性能、构建统一计算通信中间表达,打造兼容主流框架的开发环境,降低开发者国产芯片迁移门槛,不断提高国产芯片的易用性和端到端性能。同时通过构建多场景支撑平台和垂域标杆应用,为科研和产业界提供更为强大的支持,推动 AI 全行业自主可控、可持续发展。

关于沐曦股份

沐曦股份致力于自主研发全栈高性能GPU芯片及计算平台,为智算、通用计算、云渲染等前沿领域提供高能效、高通用性的算力支撑,助力数字经济发展。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    89

    文章

    38153

    浏览量

    296811
  • 沐曦
    +关注

    关注

    0

    文章

    56

    浏览量

    1659
  • 大模型
    +关注

    关注

    2

    文章

    3446

    浏览量

    4972

原文标题:DLInfer助力沐曦股份曦云C500推理落地MinerU多模态场景,实现性能加速60%!

文章出处:【微信号:沐曦MetaX,微信公众号:沐曦MetaX】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    股份携手红帽共同发布MXAIE解决方案

    在2025红帽论坛上,股份与全球领先的企业级开源解决方案提供商红帽共同发布MXAIE解决方案。该方案不仅实现了从底层算力到平台运营的全栈整合,更通过深度参与开源社区,推动国产GPU
    的头像 发表于 12-09 14:59 144次阅读
    <b class='flag-5'>沐</b><b class='flag-5'>曦</b><b class='flag-5'>股份</b>携手红帽共同发布MXAIE解决方案

    股份GPU加速技术助力药物研发降本增效

    股份科学计算团队近期取得突破性进展,成功将主流分子动力学模拟引擎GROMACS中的FEP计算全流程部署于GPU执行,并实现2.5倍性能提升,相关成果获得GROMACS官方团队的高度
    的头像 发表于 12-02 15:58 325次阅读

    瀚海量子与股份达成战略合作 量子计算软件领军者+高性能GPU芯片领军者

    当量子计算软件领军者遇上高性能GPU芯片领军者,国产算力领域迎来一项重磅合作。 近日, 合肥瀚海量子科技有限公司(简称“瀚海量子”)与集成电路(上海)股份有限公司(简称“
    的头像 发表于 11-24 19:02 2082次阅读

    股份与上海电信完成首期GPU生态专家认证培训

    近期,集成电路(上海)股份有限公司(以下简称“股份”)携手上海电信天翼云能力运营中心(以
    的头像 发表于 10-31 10:33 260次阅读

    强强联合:之江实验室与股份共建智算集群联合实验室

    总工程师赵志峰、副主任何水兵,以及股份联合创始人、CTO兼首席硬件架构师彭莉等双方代表出席签约仪式。 本次合作旨在响应国家“人工智能+”行动号召,落实浙江省打造人工智能高地的战略部署。双方将围绕算力、
    的头像 发表于 10-23 10:50 1031次阅读

    首款全国产通用GPU芯片发布 集成推出云C600

    ,并支持MetaXLink超节点扩展技术,在硬件性能和软件兼容上完全满足下一代生成式AI的训练和推理需求。 而且,股份与中国科学院合作的国产千卡集群,已完成多个大模型全参数训练,证
    的头像 发表于 10-19 20:04 4.5w次阅读

    GPU与龙蜥操作系统完成适配

    集成电路(上海)股份有限公司(以下简称"")于 2020 年 9 月成立于上海,其拥有技术完备、设计和产业化经验丰富的团队,曾主导过
    的头像 发表于 10-17 15:06 812次阅读

    全链路算力方案亮相WAIC 2025

    以“智能时代 同球共济”为主题的2025世界人工智能大会(WAIC)于7月26日在上海开幕,全球人工智能领域的技术创新与产业实践成为焦点。集成电路(上海)股份有限公司(以下简称“
    的头像 发表于 08-01 11:58 7848次阅读

    液冷算力新标杆!科华数据联合股份在世界人工智能大会首发高密度液冷算力POD

    ,科华数据股份联合推出的高密度液冷算力POD首次亮相,吸引了大量参会者驻足交流。该产品是科华数据专为
    的头像 发表于 07-29 15:57 662次阅读
    液冷算力新标杆!科华<b class='flag-5'>数据</b>联合<b class='flag-5'>沐</b><b class='flag-5'>曦</b><b class='flag-5'>股份</b>在世界人工智能大会首发高密度液冷算力POD

    硅基流动携手首发基于云的Kimi K2推理服务

    今天,硅基流动联合集成电路(上海)股份有限公司(简称“”),全球首发基于
    的头像 发表于 07-23 17:33 1567次阅读

    PaddleScience完成与AI芯片适配

    当前,PaddleScience已与展开深度合作,涵盖智能仿真、高性能计算、科学建模等多个方向。这一趋势正加速形成面向"Al for Science"的国产智算生态新格局。
    的头像 发表于 05-06 14:49 1364次阅读

    云C500通用计算GPU与百度飞桨完成Ⅱ级兼容性测试

    近日,云C500通用计算GPU与百度飞桨已完成Ⅱ级兼容性测试。测试结果显示,双方兼容性表现良好,整体运行稳定。这是加入飞桨“硬件生
    的头像 发表于 03-31 14:22 1484次阅读

    加速DeepSeek满血版单卡C500异构推理

    近日,基于开源KTransformers架构的 CPU/GPU 异构推理能力,云C500单卡GPU上成功实现DeepSeek-R1-671B满血版单并发解码吞吐16.5 tok
    的头像 发表于 03-20 15:52 1895次阅读

    澎峰科技与完成联合测试,实现全面兼容

    实现了全面兼容,为用户提供了更为高效、稳定的解决方案。 在测试过程中,澎峰科技与科技的技术团队紧密协作,对PerfXLM和PerfXCloud在云系列GPU上的运行性能、兼容性以
    的头像 发表于 01-21 15:20 969次阅读

    澎峰科技计算软件栈与GPU完成适配和互认证

    ‍近期,澎峰科技与完成了对PerfXLM(推理引擎)、PerfXCloud(大模型服务平台)与云系列通用计算GPU的联合测试,测
    的头像 发表于 01-21 09:51 1195次阅读