0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

摩尔线程支持DeepSeek开源通信库DeepEP和并行算法DualPipe

摩尔线程 来源:摩尔线程 2025-02-28 15:58 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

DeepSeek开源周第四日,摩尔线程宣布已成功支持DeepSeek开源通信库DeepEP和并行算法DualPipe,并发布相关开源代码仓库:MT-DeepEP和MT-DualPipe。

DeepEP是一个用于MoE(混合专家)模型训练和推理的开源EP(expert parallelism,专家并行)通信库,主要适用于大模型训练,特别是需要EP的集群训练。它通过优化通信信道的使用率,显著提升了训练效率。摩尔线程基于MUSA Compute Capability 3.1全功能GPU,第一时间适配了DeepEP,支持以下特性:

高效优化的 All-to-All 通信,支持 dispatch & combine

支持 MTLink + GPU(MUSA Compute Capability 3.1)节点内通信

训练及推理预填充阶段的高吞吐量计算核心

推理解码阶段的低延迟计算核心

原生支持 FP8 数据分发

灵活控制 GPU 资源,实现计算与通信的高效重叠

DualPipe是DeepSeek-V3提出的双向流水线并行算法,通过前向计算与后向计算阶段的计算与通信完全重叠,显著减少了“流水线气泡”(设备空闲等待)。与传统流水线并行相比,DualPipe 采用双向数据流设计,使数据从两端相向处理,大幅提升了资源利用率与训练效率。

摩尔线程依托深度学习框架Torch-MUSA(已开源)和MUSA软件栈全方位的兼容性,实现了对DualPipe这一算法的高效支持。MT-DualPipe可以完整接入摩尔线程 MT-Megatron框架和MT-TransformerEngine框架(即将开源),实现DeepSeek V3训练流程的完整复现。

此外,MT-DualPipe结合MT-Megatron可以实现完整DeepSeek V3模型的MLP-FFN分离以及DW-DG分离,进一步降低气泡占比,优化通信效率。同时,MT-DualPipe与MT-TranformerEngine和MT-DeepEP的结合,可以利用MT-DeepEP和异步通信引擎实现更高效的通信掩盖,大大降低对计算资源的损耗。

DeepEP和DualPipe的第一时间适配,充分验证了摩尔线程MUSA架构和全功能GPU在生态兼容与快速适配上的强大优势。我们诚挚欢迎广大开发者下载体验,并期待您的反馈与建议。

关于摩尔线程

摩尔线程成立于2020年10月,以全功能GPU为核心,致力于向全球提供加速计算的基础设施和一站式解决方案,为各行各业的数智化转型提供强大的AI计算支持。

我们的目标是成为具备国际竞争力的GPU领军企业,为融合人工智能和数字孪生的数智世界打造先进的加速计算平台。我们的愿景是为美好世界加速。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 开源
    +关注

    关注

    3

    文章

    4435

    浏览量

    46628
  • 摩尔线程
    +关注

    关注

    2

    文章

    299

    浏览量

    6698
  • DeepSeek
    +关注

    关注

    2

    文章

    862

    浏览量

    3506

原文标题:DeepSeek开源|摩尔线程完成对DeepEP和DualPipe的支持

文章出处:【微信号:moorethreads,微信公众号:摩尔线程】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    摩尔线程与光轮智能正式达成战略合作

    近日,国产全功能GPU领军企业摩尔线程与全球领先的物理AI数据与仿真基础设施企业光轮智能正式达成战略合作。双方将依托摩尔线程全功能GPU与夸娥(KUAE)智算集群,结合光轮智能"求解—
    的头像 发表于 05-15 09:28 737次阅读

    摩尔线程完成DeepSeek-V4全链路工程化适配:S5000基于MUSA+SGLang实现复杂MoE模型快速落地

    近日,摩尔线程依托旗舰级AI训推一体智算卡MTT S5000与自研MUSA软件栈,基于SGLang 开源推理框架,成功完成DeepSeek-V4的完整运行验证。该成果表明,面向新一代M
    发表于 05-02 09:01 870次阅读

    摩尔线程携手上海AI实验室Day-0适配DeepSeek-V4核心算子

    今日,DeepSeek-V4预览版正式发布并开源摩尔线程携手上海 AI 实验室 DeepLink 团队,通过大模型驱动的智能算子迁移系统 KernelSwift,率先在旗舰级AI训推
    的头像 发表于 04-30 16:24 2358次阅读

    摩尔线程TileLang-MUSA率先支持DeepSeek-V4全新TileKernels

    4月24日,摩尔线程宣布,其基于TileLang 0.1.8版本深度优化并已成为TileLang官方主线版本的TileLang-MUSA,已率先在国产全功能GPU上,实现对DeepSeek
    的头像 发表于 04-30 16:17 581次阅读

    摩尔线程正式开源MuJoCo Warp MUSA

    3月30日,摩尔线程正式开源MuJoCo Warp MUSA。这是具身智能领域首个基于MUSA架构的全功能GPU加速物理仿真后端,补齐了国产算力在强化学习仿真训练底层生态中的关键一环。
    的头像 发表于 04-01 10:40 3325次阅读
    <b class='flag-5'>摩尔</b><b class='flag-5'>线程</b>正式<b class='flag-5'>开源</b>MuJoCo Warp MUSA

    摩尔线程斩获6.6亿元合同订单

    3月30日晚间,摩尔线程(688795)智能科技(北京)股份有限公司(简称“摩尔线程”)披露重大合同公告,公司于近日与某客户签订了产品销售协议(以下简称“合同”),合同标的为
    发表于 03-31 07:42 1092次阅读

    寻找对RISCV众核并行计算感兴趣的伙伴、朋友

    。 2、智能并行编译器 基于开源的GCC改装,研发智能并行编译器,能将传统的C/C++等变成“并行编程语言”。不改变语言语法,程序员通过链接脚本指定哪些函数是
    发表于 03-28 14:41

    寻找对RISCV众核并行计算感兴趣的伙伴

    。 2、智能并行编译器 基于开源的GCC改装,研发智能并行编译器,能将传统的C/C++等变成“并行编程语言”。不改变语言语法,程序员通过链接脚本指定哪些函数是
    发表于 03-28 14:37

    摩尔线程正式开源TileLang-MUSA项目

    近日,摩尔线程正式开源TileLang-MUSA项目,实现对TileLang编程语言的完整支持。该项目已成功在摩尔
    的头像 发表于 02-11 16:57 1861次阅读

    摩尔线程发布Torch-MUSA v2.7.0版本

    近日,摩尔线程正式发布PyTorch深度学习框架的MUSA扩展——Torch-MUSA v2.7.0,新版本在功能集成、性能优化与硬件支持方面实现进一步突破。Torch-MUSA在短
    的头像 发表于 12-04 09:05 1405次阅读

    摩尔线程亮相GOTC 2025全球开源技术峰会

    摩尔线程高级副总裁杨上山在主论坛发表《摩尔线程全功能GPU原生支持开源生态》的主题演讲,系统阐
    的头像 发表于 11-04 10:43 2362次阅读

    国家信息中心与摩尔线程达成战略合作

    10月21日上午,国家信息中心与摩尔线程在北京举行战略合作协议签约仪式。国家信息中心主任徐强,摩尔线程创始人、董事长兼首席执行官张建中出席签约仪式。国家信息中心副主任周民与
    的头像 发表于 10-23 15:52 719次阅读

    摩尔线程发布Torch-MUSA v2.1.1版本

    近日,摩尔线程发布其面向PyTorch深度学习框架的MUSA扩展——Torch-MUSA v2.1.1。该版本在v2.1.0的基础上,进一步扩展了对大规模深度学习模型训练与推理的支持
    的头像 发表于 09-10 11:02 1340次阅读

    【「DeepSeek 核心技术揭秘」阅读体验】书籍介绍+第一章读后心得

    进行了深入的分析。通过对 FlashMLA、DeepEP、DeepGEMM、DualPipe 与 EPLB、3FS 等项目的介绍,展示了 DeepSeek开源领域的积极探索,体现了
    发表于 07-17 11:59

    【书籍评测活动NO.62】一本书读懂 DeepSeek 全家桶核心技术:DeepSeek 核心技术揭秘

    进行了深入的分析。通过对 FlashMLA、DeepEP、DeepGEMM、DualPipe 与 EPLB、3FS 等项目的介绍,展示了 DeepSeek开源领域的积极探索,体现了
    发表于 06-09 14:38