0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

摩尔线程全面支持DeepSeek开源周成果

摩尔线程 来源:摩尔线程 2025-03-04 10:06 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

DeepSeek开源周正式收官,作为国内率先原生支持FP8计算精度的国产GPU企业,摩尔线程迅速响应,并在短时间内,成功实现对DeepSeek各个开源项目的全面支持,涵盖FlashMLA、DeepEP、DeepGEMM、DualPipe 以及 Fire-Flyer文件系统(3FS)。这一成果充分验证了MUSA架构和全功能GPU在生态兼容与快速适配方面的强大优势。

以下是摩尔线程支持DeepSeek开源周“全家桶”代码合集:

FlashMLA

FlashMLA是一款高效的MLA(Multi-Head Latent Attention)推理内核开源仓库,旨在加速MLA机制的计算,特别适用于DeepSeek系列模型(如DeepSeek-V2、V3和R1)。

摩尔线程基于全新MUSA Compute Capability 3.1计算架构,可提供原生FP8计算能力,同时升级了高性能线性代数模板库MUTLASS,快速支持了FlashMLA。借助MUTLASS 0.2.0,摩尔线程发布开源仓库MT-FlashMLA,能够快速对DeepSeek FlashMLA进行兼容部署。

MT-FlashMLA开源地址:

https://github.com/MooreThreads/MT-flashMLA

MUTLASS FlashAttention3地址:

https://github.com/MooreThreads/mutlass/tree/main/experimental/mp31_flash_attention_fwd

DeepEP

DeepEP是一个用于MoE(混合专家)模型训练和推理的开源EP(expert parallelism,专家并行)通信库,主要适用于大模型训练,特别是需要EP的集群训练。它通过优化通信信道的使用率,显著提升了训练效率。摩尔线程基于MUSA Compute Capability 3.1全功能GPU,第一时间适配了DeepEP,支持以下特性:

高效优化的 All-to-All 通信,支持 dispatch & combine

支持 MTLink + GPU(MUSA Compute Capability 3.1)节点内通信

训练及推理预填充阶段的高吞吐量计算核心

推理解码阶段的低延迟计算核心

原生支持 FP8 数据分发

灵活控制 GPU 资源,实现计算与通信的高效重叠

MT-DeepEP开源地址:

https://github.com/MooreThreads/MT-DeepEP

DeepGEMM

DeepGEMM是一个支持密集矩阵与混合专家(MoE)矩阵乘法的FP8 GEMM库,为V3/R1的训练与推理提供强大动力。这个开源仓库基于高性能通用矩阵乘法(GEMM)的C++模板库进行开发。摩尔线程基于MUTLASS在全新GPU架构上优化实现了FP8矩阵乘法,支持DeepGEMM的相应功能。

MUTLASS FP8 GEMM地址:

https://github.com/MooreThreads/mutlass/tree/main/examples/02_mp31_fp8_gemm_with_collective_builder

https://github.com/MooreThreads/mutlass/tree/main/examples/03_mp31_fp8_scaling_gemm

DualPipe

DualPipe是DeepSeek-V3提出的双向流水线并行算法,通过前向计算与后向计算阶段的计算与通信完全重叠,显著减少了“流水线气泡”(设备空闲等待)。与传统流水线并行相比,DualPipe 采用双向数据流设计,使数据从两端相向处理,大幅提升了资源利用率与训练效率。

摩尔线程依托深度学习框架Torch-MUSA(已开源)和MUSA软件栈全方位的兼容性,实现了对DualPipe这一算法的高效支持。MT-DualPipe可以完整接入摩尔线程 MT-Megatron框架和MT-TransformerEngine框架(即将开源),实现DeepSeek V3训练流程的完整复现。

MT-DualPipe开源地址:

https://github.com/MooreThreads/MT-DualPipe

Torch-MUSA开源地址:

https://github.com/MooreThreads/Torch_MUSA

3FS

Fire-Flyer文件系统(3FS)是一种利用现代SSD和RDMA网络的全部带宽的并行文件系统,可以把固态硬盘的带宽性能利用到极致,在V3和R1的训练与推理过程中,3FS成为关键支撑,以应对AI训练和推理工作负载的挑战。

摩尔线程在一天内迅速完成了高性能分布式文件系统3FS的搭建,并高效开发了存储插件,成功实现与夸娥智算集群的无缝集成,为AI训练、AI推理、科学计算等场景提供全栈存储加速方案。

3FS CSI Driver地址:

https://github.com/MooreThreads/csi-driver-3fs

关于摩尔线程

摩尔线程成立于2020年10月,以全功能GPU为核心,致力于向全球提供加速计算的基础设施和一站式解决方案,为各行各业的数智化转型提供强大的AI计算支持。

我们的目标是成为具备国际竞争力的GPU领军企业,为融合人工智能和数字孪生的数智世界打造先进的加速计算平台。我们的愿景是为美好世界加速。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 开源
    +关注

    关注

    3

    文章

    4325

    浏览量

    46427
  • 摩尔线程
    +关注

    关注

    2

    文章

    285

    浏览量

    6635
  • DeepSeek
    +关注

    关注

    2

    文章

    837

    浏览量

    3392

原文标题:代码合集|摩尔线程火速支持DeepSeek开源周“全家桶”

文章出处:【微信号:moorethreads,微信公众号:摩尔线程】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    MiniMax M2.7全球开源摩尔线程、沐曦等完成Day0适配

    电子发烧友网综合报道 4月12日,MiniMax M2.7在全球正式开源。华为昇腾、摩尔线程、沐曦股份、昆仑芯、NVIDIA,以及TogetherAI、Fireworks、Ollama等海内外芯片
    的头像 发表于 04-14 11:05 1606次阅读

    摩尔线程正式开源MuJoCo Warp MUSA

    3月30日,摩尔线程正式开源MuJoCo Warp MUSA。这是具身智能领域首个基于MUSA架构的全功能GPU加速物理仿真后端,补齐了国产算力在强化学习仿真训练底层生态中的关键一环。
    的头像 发表于 04-01 10:40 1991次阅读
    <b class='flag-5'>摩尔</b><b class='flag-5'>线程</b>正式<b class='flag-5'>开源</b>MuJoCo Warp MUSA

    摩尔线程斩获6.6亿元合同订单

    3月30日晚间,摩尔线程(688795)智能科技(北京)股份有限公司(简称“摩尔线程”)披露重大合同公告,公司于近日与某客户签订了产品销售协议(以下简称“合同”),合同标的为
    发表于 03-31 07:42 1062次阅读

    摩尔线程MTT S5000全面适配Qwen3.5三款新模型

    开源Qwen3.5-397B-A17B之后,阿里再次宣布开源千问3.5最新三款中等规模模型:Qwen3.5-35B-A3B、Qwen3.5-122B-A10B、Qwen3.5-27B。摩尔线
    的头像 发表于 02-26 16:23 716次阅读

    摩尔线程快速完成对Qwen3.5模型全面适配

    2月17日,摩尔线程宣布已在旗舰级AI训推一体全功能GPU MTT S5000上完成对阿里最新大模型Qwen3.5的全方位适配。此次支持充分展示了摩尔
    发表于 02-18 08:32 1116次阅读

    Day-0支持摩尔线程完成MiniMax M2.5模型极速适配

    2月14日,摩尔线程在其旗舰级AI训推一体全功能GPU MTT S5000上,成功实现了对MiniMax新一代大模型MiniMax M2.5的Day-0极速适配。 在此次适配工作中,摩尔线程
    发表于 02-15 08:01 1582次阅读

    摩尔线程正式开源TileLang-MUSA项目

    近日,摩尔线程正式开源TileLang-MUSA项目,实现对TileLang编程语言的完整支持。该项目已成功在摩尔
    的头像 发表于 02-11 16:57 1646次阅读

    支持OpenGL 4.6与Vulkan 1.3,摩尔线程发布图形显卡驱动v320.130

    12月22日,摩尔线程正式发布版本号为v320.130的图形显卡驱动程序, 实现多项关键图形技术升级 。新驱动在Windows平台实现对 OpenGL 4.6 的全面支持,同时还提供了
    的头像 发表于 12-24 09:42 6.1w次阅读
    <b class='flag-5'>支持</b>OpenGL 4.6与Vulkan 1.3,<b class='flag-5'>摩尔</b><b class='flag-5'>线程</b>发布图形显卡驱动v320.130

    摩尔线程在MDC 2025重磅发布全栈创新成果

    12月20日,在首届MUSA开发者大会上,摩尔线程创始人、董事长兼CEO张建中发表主题演讲,系统展示了以自主MUSA统一架构为核心的全栈创新成果全面展现公司在技术和生态上的关键突破与
    的头像 发表于 12-22 18:04 1568次阅读

    摩尔线程高开468% 中一签赚27万 国产GPU第一股摩尔线程高开468%

    “国产GPU第一股”上市了!今天是万众瞩目的摩尔线程正式上市的日子;摩尔线程A股总股本47002.8217万股,本次公开发行的股票数量为7000万股,均为新股,无老股转让,其中,本次上
    的头像 发表于 12-05 11:03 1991次阅读
    <b class='flag-5'>摩尔</b><b class='flag-5'>线程</b>高开468% 中一签赚27万 国产GPU第一股<b class='flag-5'>摩尔</b><b class='flag-5'>线程</b>高开468%

    摩尔线程亮相GOTC 2025全球开源技术峰会

    摩尔线程高级副总裁杨上山在主论坛发表《摩尔线程全功能GPU原生支持开源生态》的主题演讲,系统阐
    的头像 发表于 11-04 10:43 2266次阅读

    国家信息中心与摩尔线程达成战略合作

    10月21日上午,国家信息中心与摩尔线程在北京举行战略合作协议签约仪式。国家信息中心主任徐强,摩尔线程创始人、董事长兼首席执行官张建中出席签约仪式。国家信息中心副主任
    的头像 发表于 10-23 15:52 624次阅读

    曙光AI超集群系统全面支持DeepSeek-V3.2-Exp

    9月29日,DeepSeek-V3.2-Exp正式发布并开源,引入创新的稀疏Attention架构。基于中国首个AI计算开放架构,芯片层、软件层、模型层实现“跨层协同”,使得曙光AI超集群系统完成对DeepSeek新版本的深度适
    的头像 发表于 09-30 16:18 1853次阅读

    摩尔线程率先支持腾讯混元-A13B模型

    近日,腾讯正式开源基于专家混合(MoE)架构的大语言模型混元-A13B。同日,摩尔线程团队凭借技术前瞻性,率先完成该模型在全功能GPU的深度适配与高效支持。这一
    的头像 发表于 07-04 14:10 998次阅读

    摩尔线程GPU率先支持Qwen3全系列模型

    近日,阿里云正式发布Qwen3系列的8款开源混合推理模型。摩尔线程团队在模型发布当天,率先完成了Qwen3全系列模型在全功能GPU上的高效支持。这一
    的头像 发表于 05-07 15:24 1123次阅读