摩尔线程全面支持DeepSeek开源周成果-电子发烧友网

DeepSeek开源周正式收官，作为国内率先原生支持FP8计算精度的国产GPU企业，摩尔线程迅速响应，并在短时间内，成功实现对DeepSeek各个开源项目的全面支持，涵盖FlashMLA、DeepEP、DeepGEMM、DualPipe 以及 Fire-Flyer文件系统（3FS）。这一成果充分验证了MUSA架构和全功能GPU在生态兼容与快速适配方面的强大优势。

以下是摩尔线程支持DeepSeek开源周“全家桶”代码合集：

FlashMLA

FlashMLA是一款高效的MLA（Multi-Head Latent Attention）推理内核开源仓库，旨在加速MLA机制的计算，特别适用于DeepSeek系列模型（如DeepSeek-V2、V3和R1）。

摩尔线程基于全新MUSA Compute Capability 3.1计算架构，可提供原生FP8计算能力，同时升级了高性能线性代数模板库MUTLASS，快速支持了FlashMLA。借助MUTLASS 0.2.0，摩尔线程发布开源仓库MT-FlashMLA，能够快速对DeepSeek FlashMLA进行兼容部署。

MT-FlashMLA开源地址：

https://github.com/MooreThreads/MT-flashMLA

MUTLASS FlashAttention3地址：

https://github.com/MooreThreads/mutlass/tree/main/experimental/mp31_flash_attention_fwd

DeepEP

DeepEP是一个用于MoE（混合专家）模型训练和推理的开源EP（expert parallelism，专家并行）通信库，主要适用于大模型训练，特别是需要EP的集群训练。它通过优化通信信道的使用率，显著提升了训练效率。摩尔线程基于MUSA Compute Capability 3.1全功能GPU，第一时间适配了DeepEP，支持以下特性：

高效优化的 All-to-All 通信，支持 dispatch & combine

支持 MTLink + GPU（MUSA Compute Capability 3.1）节点内通信

训练及推理预填充阶段的高吞吐量计算核心

推理解码阶段的低延迟计算核心

原生支持 FP8 数据分发

灵活控制 GPU 资源，实现计算与通信的高效重叠

MT-DeepEP开源地址：

https://github.com/MooreThreads/MT-DeepEP

DeepGEMM

DeepGEMM是一个支持密集矩阵与混合专家（MoE）矩阵乘法的FP8 GEMM库，为V3/R1的训练与推理提供强大动力。这个开源仓库基于高性能通用矩阵乘法（GEMM）的C++模板库进行开发。摩尔线程基于MUTLASS在全新GPU架构上优化实现了FP8矩阵乘法，支持DeepGEMM的相应功能。

MUTLASS FP8 GEMM地址：

https://github.com/MooreThreads/mutlass/tree/main/examples/02_mp31_fp8_gemm_with_collective_builder

https://github.com/MooreThreads/mutlass/tree/main/examples/03_mp31_fp8_scaling_gemm

DualPipe

DualPipe是DeepSeek-V3提出的双向流水线并行算法，通过前向计算与后向计算阶段的计算与通信完全重叠，显著减少了“流水线气泡”（设备空闲等待）。与传统流水线并行相比，DualPipe 采用双向数据流设计，使数据从两端相向处理，大幅提升了资源利用率与训练效率。

摩尔线程依托深度学习框架Torch-MUSA（已开源）和MUSA软件栈全方位的兼容性，实现了对DualPipe这一算法的高效支持。MT-DualPipe可以完整接入摩尔线程 MT-Megatron框架和MT-TransformerEngine框架（即将开源），实现DeepSeek V3训练流程的完整复现。

MT-DualPipe开源地址：

https://github.com/MooreThreads/MT-DualPipe

Torch-MUSA开源地址：

https://github.com/MooreThreads/Torch_MUSA

3FS

Fire-Flyer文件系统（3FS）是一种利用现代SSD和RDMA网络的全部带宽的并行文件系统，可以把固态硬盘的带宽性能利用到极致，在V3和R1的训练与推理过程中，3FS成为关键支撑，以应对AI训练和推理工作负载的挑战。

摩尔线程在一天内迅速完成了高性能分布式文件系统3FS的搭建，并高效开发了存储插件，成功实现与夸娥智算集群的无缝集成，为AI训练、AI推理、科学计算等场景提供全栈存储加速方案。

3FS CSI Driver地址：

https://github.com/MooreThreads/csi-driver-3fs

关于摩尔线程

摩尔线程成立于2020年10月，以全功能GPU为核心，致力于向全球提供加速计算的基础设施和一站式解决方案，为各行各业的数智化转型提供强大的AI计算支持。

我们的目标是成为具备国际竞争力的GPU领军企业，为融合人工智能和数字孪生的数智世界打造先进的加速计算平台。我们的愿景是为美好世界加速。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

开源

开源

+关注

关注
3

文章
4325

浏览量
46427
摩尔线程

摩尔线程

+关注

关注
2

文章
285

浏览量
6635
DeepSeek

DeepSeek

+关注

关注
2

文章
837

浏览量
3392

原文标题：代码合集｜摩尔线程火速支持DeepSeek开源周“全家桶”

文章出处：【微信号：moorethreads，微信公众号：摩尔线程】欢迎添加关注！文章转载请注明出处。

搜索历史

摩尔线程全面支持DeepSeek开源周成果

评论