0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

摩尔线程支持DeepSeek开源通信库DeepEP和并行算法DualPipe

摩尔线程 来源:摩尔线程 2025-02-28 15:58 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

DeepSeek开源周第四日,摩尔线程宣布已成功支持DeepSeek开源通信库DeepEP和并行算法DualPipe,并发布相关开源代码仓库:MT-DeepEP和MT-DualPipe。

DeepEP是一个用于MoE(混合专家)模型训练和推理的开源EP(expert parallelism,专家并行)通信库,主要适用于大模型训练,特别是需要EP的集群训练。它通过优化通信信道的使用率,显著提升了训练效率。摩尔线程基于MUSA Compute Capability 3.1全功能GPU,第一时间适配了DeepEP,支持以下特性:

高效优化的 All-to-All 通信,支持 dispatch & combine

支持 MTLink + GPU(MUSA Compute Capability 3.1)节点内通信

训练及推理预填充阶段的高吞吐量计算核心

推理解码阶段的低延迟计算核心

原生支持 FP8 数据分发

灵活控制 GPU 资源,实现计算与通信的高效重叠

DualPipe是DeepSeek-V3提出的双向流水线并行算法,通过前向计算与后向计算阶段的计算与通信完全重叠,显著减少了“流水线气泡”(设备空闲等待)。与传统流水线并行相比,DualPipe 采用双向数据流设计,使数据从两端相向处理,大幅提升了资源利用率与训练效率。

摩尔线程依托深度学习框架Torch-MUSA(已开源)和MUSA软件栈全方位的兼容性,实现了对DualPipe这一算法的高效支持。MT-DualPipe可以完整接入摩尔线程 MT-Megatron框架和MT-TransformerEngine框架(即将开源),实现DeepSeek V3训练流程的完整复现。

此外,MT-DualPipe结合MT-Megatron可以实现完整DeepSeek V3模型的MLP-FFN分离以及DW-DG分离,进一步降低气泡占比,优化通信效率。同时,MT-DualPipe与MT-TranformerEngine和MT-DeepEP的结合,可以利用MT-DeepEP和异步通信引擎实现更高效的通信掩盖,大大降低对计算资源的损耗。

DeepEP和DualPipe的第一时间适配,充分验证了摩尔线程MUSA架构和全功能GPU在生态兼容与快速适配上的强大优势。我们诚挚欢迎广大开发者下载体验,并期待您的反馈与建议。

关于摩尔线程

摩尔线程成立于2020年10月,以全功能GPU为核心,致力于向全球提供加速计算的基础设施和一站式解决方案,为各行各业的数智化转型提供强大的AI计算支持。

我们的目标是成为具备国际竞争力的GPU领军企业,为融合人工智能和数字孪生的数智世界打造先进的加速计算平台。我们的愿景是为美好世界加速。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 开源
    +关注

    关注

    3

    文章

    4031

    浏览量

    45562
  • 摩尔线程
    +关注

    关注

    2

    文章

    256

    浏览量

    6211
  • DeepSeek
    +关注

    关注

    2

    文章

    824

    浏览量

    2806

原文标题:DeepSeek开源|摩尔线程完成对DeepEP和DualPipe的支持

文章出处:【微信号:moorethreads,微信公众号:摩尔线程】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    摩尔线程亮相GOTC 2025全球开源技术峰会

    摩尔线程高级副总裁杨上山在主论坛发表《摩尔线程全功能GPU原生支持开源生态》的主题演讲,系统阐
    的头像 发表于 11-04 10:43 1572次阅读

    【书籍评测活动NO.62】一本书读懂 DeepSeek 全家桶核心技术:DeepSeek 核心技术揭秘

    进行了深入的分析。通过对 FlashMLA、DeepEP、DeepGEMM、DualPipe 与 EPLB、3FS 等项目的介绍,展示了 DeepSeek开源领域的积极探索,体现了
    发表于 06-09 14:38

    摩尔线程GPU成功适配Deepseek-V3-0324大模型

    架构和全功能GPU的强大技术实力,摩尔线程迅速响应并完成了对DeepSeek-V3的无缝升级,实现了零报错、零兼容性问题的光速部署,充分展现了摩尔
    的头像 发表于 03-31 11:34 1104次阅读
    <b class='flag-5'>摩尔</b><b class='flag-5'>线程</b>GPU成功适配<b class='flag-5'>Deepseek</b>-V3-0324大模型

    摩尔线程GPU原生FP8计算助力AI训练

    近日,摩尔线程正式开源MT-MegatronLM与MT-TransformerEngine两大AI框架。通过深度融合FP8混合训练策略和高性能算子,这两大框架在国产全功能GPU上实现
    的头像 发表于 03-17 17:05 1210次阅读
    <b class='flag-5'>摩尔</b><b class='flag-5'>线程</b>GPU原生FP8计算助力AI训练

    摩尔线程支持阿里云通义千问QwQ-32B开源模型

    近日,阿里云团队正式开源全新推理模型——通义千问QwQ-32B。摩尔线程在该模型发布后2小时内,迅速且高效完成了对千问QwQ-32B的支持
    的头像 发表于 03-07 17:48 1110次阅读
    <b class='flag-5'>摩尔</b><b class='flag-5'>线程</b><b class='flag-5'>支持</b>阿里云通义千问QwQ-32B<b class='flag-5'>开源</b>模型

    摩尔线程全面支持DeepSeek开源周成果

    DeepSeek开源周正式收官,作为国内率先原生支持FP8计算精度的国产GPU企业,摩尔线程迅速响应,并在短时间内,成功实现对
    的头像 发表于 03-04 10:06 843次阅读

    摩尔线程完成DeepSeek开源FlashMLA和DeepGEMM适配

    DeepSeek启动“开源周”以来,已陆续开源三个代码摩尔线程基于全新MUSA Compu
    的头像 发表于 02-27 14:40 1102次阅读

    DeepSeek宣布开源DeepGEMM

    DeepGEMM 是一个专为简洁高效的 FP8 通用矩阵乘法(GEMM)设计的,具有细粒度缩放功能,在Deepseek开源周的第三天Deepseek正式宣布
    的头像 发表于 02-26 15:33 1071次阅读

    DeepSeek扔的第二枚开源王炸是什么,跟第一枚有何不同?强烈引发外媒热议

    DeepEP。这两大开源项目的发布,不仅引发了国内外媒体的广泛关注与热议,更在AI社区内掀起了轩然大波。 2025年2月25日,DeepSeek开源周的第二天,正式发布了名为
    的头像 发表于 02-26 11:10 1140次阅读
    <b class='flag-5'>DeepSeek</b>扔的第二枚<b class='flag-5'>开源</b>王炸是什么,跟第一枚有何不同?强烈引发外媒热议

    DeepSeek扔的第二枚开源王炸是什么

    DeepSeek在其开源周活动中连续扔出了两枚震撼业界的“开源王炸”--FlashMLA与DeepEP。   在25日,也就是DeepSeek
    的头像 发表于 02-26 11:05 1288次阅读
    <b class='flag-5'>DeepSeek</b>扔的第二枚<b class='flag-5'>开源</b>王炸是什么

    沐曦GPU跑通DeepSeek开源代码FlashMLA

    今日,DeepSeek正式启动"开源周"计划,首发代码FlashMLA一经开源即引发全网关注。截至发稿,该项目已在GitHub斩获超7.2K Star!
    的头像 发表于 02-25 16:25 1322次阅读

    摩尔线程图形显卡MTT S80实现DeepSeek模型部署

    摩尔线程“全功能”图形显卡MTT S80,不仅游戏渲染性能强大,能玩《黑神话:悟空》,现在还能本地部署DeepSeek R1蒸馏模型。搭配最新发布的MUSA SDK RC3.1.1版本,开发者直接用
    的头像 发表于 02-21 15:46 4031次阅读
    <b class='flag-5'>摩尔</b><b class='flag-5'>线程</b>图形显卡MTT S80实现<b class='flag-5'>DeepSeek</b>模型部署

    了解DeepSeek-V3 和 DeepSeek-R1两个大模型的不同定位和应用选择

    生成 支持常规代码生成 优化逻辑严谨性(长代码链、算法实现) 多语言支持 多语言均衡能力(中/英/小语种) 侧重中英文,尤其在技术术语上更精准 长文本处理 标准上下文窗口(约32K tokens
    发表于 02-14 02:08

    解析DeepSeek MoE并行计算优化策略

    本期Kiwi Talks将从集群Scale Up互联的需求出发,解析DeepSeek在张量并行及MoE专家并行方面采用的优化策略。DeepSeek大模型的工程优化以及国产AI 产业链的
    的头像 发表于 02-07 09:20 2697次阅读
    解析<b class='flag-5'>DeepSeek</b> MoE<b class='flag-5'>并行</b>计算优化策略

    摩尔线程宣布成功部署DeepSeek蒸馏模型推理服务

    。 据悉,DeepSeek开源模型在多语言理解与复杂推理任务中一直表现出卓越的性能,其V3、R1等系列模型更是备受业界关注。而此次摩尔线程所实现的D
    的头像 发表于 02-06 13:49 1183次阅读