0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

摩尔线程完成DeepSeek开源库FlashMLA和DeepGEMM适配

摩尔线程 来源:摩尔线程 2025-02-27 14:40 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

自DeepSeek启动“开源周”以来,已陆续开源三个代码库。摩尔线程基于全新MUSA Compute Capability 3.1计算架构,可提供原生FP8计算能力,同时升级了高性能线性代数模板库MUTLASS,快速支持了FlashMLA。不仅如此,摩尔线程还基于MUTLASS在全新GPU架构上优化实现了FP8矩阵乘法,支持DeepGEMM的相应功能,充分展示了摩尔线程MUSA架构和全功能GPU在生态兼容与快速适配上的强大优势。

FlashMLA是一款高效的MLA(Multi-Head Latent Attention)推理内核开源仓库,旨在加速MLA机制的计算,特别适用于DeepSeek系列模型(如DeepSeek-V2、V3和R1)。DeepGEMM是一个支持密集矩阵与混合专家(MoE)矩阵乘法的FP8 GEMM库,为 V3/R1的训练与推理提供强大动力。这两个重要的开源仓库均基于高性能通用矩阵乘法(GEMM)的C++模板库进行开发。

摩尔线程基于新一代计算架构MUSA Compute Capability 3.1的全功能GPU,具备全新的Tensor计算引擎及数据搬运引擎,能够提供原生FP8计算能力。升级的MUTLASS高性能线性代数模板库支持MUSA Compute Capability 3.1的全新特性,并提供了若干算子的优化参考实现,包括基于FlashAttention3思想实现的FlashMLA以及FP8矩阵乘算子,特别支持DeepSeek训练所需的Groupwise Scaling FP8矩阵乘法内核函数。得益于全新的Tensor计算引擎,FP8计算具有足够高的累加精度,无需额外的二次精度修正,为前沿算法的探索打下了坚实基础。

借助MUTLASS 0.2.0,摩尔线程发布开源仓库MT-FlashMLA,能够快速对DeepSeek FlashMLA进行兼容部署。同时摩尔线程MUTLASS提供了一个全新的参考实现,充分汲取FlashAttention3的先进算法思想,针对摩尔线程GPU设计了全新的计算流水线。这一设计能够有效掩藏数据搬运的延迟和Softmax计算的开销,充分发挥摩尔线程MUSA Compute Capability 3.1全功能GPU的Tensor计算效率。

作为国内率先原生支持FP8计算精度的国产GPU企业,摩尔线程迅速响应,并快速适配DeepSeek的各个开源仓库,旨在为更多GPU开发者赋能。摩尔线程始终致力于推动开源生态的发展,通过技术开放与生态共建,加速国产全功能GPU在AI计算领域的规模化应用,为更多用户提供更智能、高效的解决方案。

关于摩尔线程

摩尔线程成立于2020年10月,以全功能GPU为核心,致力于向全球提供加速计算的基础设施和一站式解决方案,为各行各业的数智化转型提供强大的AI计算支持。

我们的目标是成为具备国际竞争力的GPU领军企业,为融合人工智能和数字孪生的数智世界打造先进的加速计算平台。我们的愿景是为美好世界加速。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5271

    浏览量

    136060
  • 开源
    +关注

    关注

    3

    文章

    4344

    浏览量

    46441
  • 摩尔线程
    +关注

    关注

    2

    文章

    285

    浏览量

    6657
  • DeepSeek
    +关注

    关注

    2

    文章

    838

    浏览量

    3396

原文标题:原生FP8计算 + MUTLASS|摩尔线程高效完成DeepSeek开源库FlashMLA和DeepGEMM的适配

文章出处:【微信号:moorethreads,微信公众号:摩尔线程】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    MiniMax M2.7全球开源摩尔线程、沐曦等完成Day0适配

    电子发烧友网综合报道 4月12日,MiniMax M2.7在全球正式开源。华为昇腾、摩尔线程、沐曦股份、昆仑芯、NVIDIA,以及TogetherAI、Fireworks、Ollama等海内外芯片
    的头像 发表于 04-14 11:05 1672次阅读

    Day-0支持|摩尔线程率先完成MiniMax M2.7大模型适配

    4月12日,摩尔线程旗舰级AI训推一体全功能GPU MTT S5000已完成对新一代大模型MiniMax M2.7的Day-0极速适配,再次验证了国产全功能GPU对前沿AI大模型的快速
    发表于 04-13 07:57 1254次阅读
    Day-0支持|<b class='flag-5'>摩尔</b><b class='flag-5'>线程</b>率先<b class='flag-5'>完成</b>MiniMax M2.7大模型<b class='flag-5'>适配</b>

    Day-0支持|摩尔线程完成智谱GLM-5.1极速适配,高效支撑长程任务与代码生成

      今日,摩尔线程在其旗舰级AI训推一体全功能GPU MTT S5000上,成功实现了对智谱新一代旗舰模型GLM-5.1的Day-0极速适配,提供推理部署和训练复现全流程支持。   依托MUSA软件
    的头像 发表于 04-08 14:47 1030次阅读
    Day-0支持|<b class='flag-5'>摩尔</b><b class='flag-5'>线程</b><b class='flag-5'>完成</b>智谱GLM-5.1极速<b class='flag-5'>适配</b>,高效支撑长程任务与代码生成

    摩尔线程正式开源MuJoCo Warp MUSA

    3月30日,摩尔线程正式开源MuJoCo Warp MUSA。这是具身智能领域首个基于MUSA架构的全功能GPU加速物理仿真后端,补齐了国产算力在强化学习仿真训练底层生态中的关键一环。
    的头像 发表于 04-01 10:40 2262次阅读
    <b class='flag-5'>摩尔</b><b class='flag-5'>线程</b>正式<b class='flag-5'>开源</b>MuJoCo Warp MUSA

    摩尔线程斩获6.6亿元合同订单

    3月30日晚间,摩尔线程(688795)智能科技(北京)股份有限公司(简称“摩尔线程”)披露重大合同公告,公司于近日与某客户签订了产品销售协议(以下简称“合同”),合同标的为
    发表于 03-31 07:42 1064次阅读

    摩尔线程MTT S5000全面适配Qwen3.5三款新模型

    第一时间做出极速响应,宣布已在旗舰级AI训推一体全功能GPU MTT S5000上,完成对这三款全新模型的全方位适配。   此次高效支持充分展示了摩尔线程MUSA生态的成熟度与完备性。
    的头像 发表于 02-26 16:23 752次阅读

    摩尔线程快速完成对Qwen3.5模型全面适配

    2月17日,摩尔线程宣布已在旗舰级AI训推一体全功能GPU MTT S5000上完成对阿里最新大模型Qwen3.5的全方位适配。此次支持充分展示了
    发表于 02-18 08:32 1118次阅读

    Day-0支持|摩尔线程完成MiniMax M2.5模型极速适配

    2月14日,摩尔线程在其旗舰级AI训推一体全功能GPU MTT S5000上,成功实现了对MiniMax新一代大模型MiniMax M2.5的Day-0极速适配。 在此次适配工作中,
    发表于 02-15 08:01 1584次阅读

    摩尔线程MTT S5000率先完成对GLM-5的适配

    2月11日,智谱正式发布新一代大模型GLM-5。摩尔线程基于SGLang推理框架,在旗舰级AI训推一体全功能GPU MTT S5000上,Day-0完成了全流程适配与验证。 凭借MUS
    的头像 发表于 02-12 10:34 970次阅读
    <b class='flag-5'>摩尔</b><b class='flag-5'>线程</b>MTT S5000率先<b class='flag-5'>完成</b>对GLM-5的<b class='flag-5'>适配</b>

    Day-0支持|摩尔线程MTT S5000率先完成对GLM-5的适配

    2月11日,智谱正式发布新一代大模型GLM-5。摩尔线程基于SGLang推理框架,在旗舰级AI训推一体全功能GPU MTT S5000上,Day-0完成了全流程适配与验证。 凭借MUS
    发表于 02-12 09:15 1609次阅读
    Day-0支持|<b class='flag-5'>摩尔</b><b class='flag-5'>线程</b>MTT S5000率先<b class='flag-5'>完成</b>对GLM-5的<b class='flag-5'>适配</b>

    摩尔线程正式开源TileLang-MUSA项目

    近日,摩尔线程正式开源TileLang-MUSA项目,实现对TileLang编程语言的完整支持。该项目已成功在摩尔线程多代全功能GPU上
    的头像 发表于 02-11 16:57 1683次阅读

    摩尔线程发布Torch-MUSA v2.7.0版本

    近日,摩尔线程正式发布PyTorch深度学习框架的MUSA扩展——Torch-MUSA v2.7.0,新版本在功能集成、性能优化与硬件支持方面实现进一步突破。Torch-MUSA在短短一个月
    的头像 发表于 12-04 09:05 1271次阅读

    摩尔线程亮相GOTC 2025全球开源技术峰会

    摩尔线程高级副总裁杨上山在主论坛发表《摩尔线程全功能GPU原生支持开源生态》的主题演讲,系统阐述了摩尔
    的头像 发表于 11-04 10:43 2281次阅读

    摩尔线程率先支持腾讯混元-A13B模型

    近日,腾讯正式开源基于专家混合(MoE)架构的大语言模型混元-A13B。同日,摩尔线程团队凭借技术前瞻性,率先完成该模型在全功能GPU的深度适配
    的头像 发表于 07-04 14:10 1004次阅读

    摩尔线程MTT S4000完成DeepSeek R1-671B大模型适配验证

    我国人工智能技术产业近来取得显著进步,多款新发布的大模型已达到国际先进水平。我国AI芯片企业也在积极行动,和各国产大模型开展适配,共同构建智能计算产业生态。作为国家权威技术验证平台,中国信息通信
    的头像 发表于 05-10 09:49 1472次阅读