0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

摩尔线程吴庆详解 MUSA 软件栈:以技术创新释放 KUAE 集群潜能,引领 GPU 计算新高度

电子麦克风 来源:电子发烧友网 作者:张迎辉 2025-07-28 13:47 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

WAIC 2025前夕,在摩尔线程技术分享日上,摩尔线程GPU 计算软件开发总监吴庆,发表了题为《摩尔线程 MUSA 软件栈助力 KUAE 集群释放无限潜能》的演讲。他从专业视角出发,深入剖析了 MUSA 软件栈在驱动 KUAE 集群高效运转方面的核心技术与创新成果。

摩尔线程GPU 计算软件开发总监吴庆在WAIC 期间的技术分享 (来源:电子发烧友网拍摄)


一、MUSA 驱动和运行时库:KUAE 集群的坚实底座​

首先是驱动的重要性。在推理场景中,Kernel 延时如同悬在高效运算头上的 “达摩克利斯之剑”,对运算效率影响极大。而摩尔线程的 MUSA 驱动和运行时库就像是一位技艺精湛的调度大师,凭借自身高效的任务调度能力,将用户的 Kernel launch 开销大幅缩减,为 KUAE 集群筑牢了根基。

吴庆详细介绍,MUSA 实现即时任务下发,通过独特的软硬协同方式,将核函数启动延迟成功降低到业界平均水平的 1/2。打个比方,这就如同在酷热的仲夏,人们能够借助手机远程提前开启暴晒在户外车辆的空调,待上车时便能立刻享受清凉。MUSA 正是巧妙地将调度开销前置,在上一个 Kernel 执行尚未结束时,就提前有条不紊地完成下一个 Kernel 的配置,由此最大程度减少了 Kernel 间的调度延时,让运算衔接更加紧密流畅。​

在批量任务下发方面,吴庆表示,MUSA 将近千次的计算和通信任务下发开销巧妙优化为单次。他举例解释道,这类似于汽车座椅的一键记忆功能,驾驶者只需轻松操作一次,就能一次性打包调节好多个复杂步骤,后续使用时无需再重复繁琐操作。在实际应用中,这种优化带来的端到端收益因不同应用场景而有所差异,最高可达好几倍,极大节省了 GPU 的等待时间,提升了整体运算效率。

谈及引擎间依赖解析能力,吴庆强调,GPU 拥有多引擎可配置的特性,MUSA 借助硬件解析引擎间的依赖进行同步,这一创新之处在于无需再回到 host,从而使任务流之间的依赖解析延时大幅降低至 1.5μs,相较于业界头部算力卡表现更为出色。此外,吴庆还介绍了调优工具接口 MUPTI,它能够像贴心助手一般,帮助开发者深入优化 MUSA 应用程序;而 GPU 错误转存功能(GCD)则在程序遭遇出错情况时,迅速生成详细信息,大大提升了问题定位的效率,为程序稳定运行保驾护航。​

二、MUSA 算子库生态:性能与广度兼备​

吴庆在演讲中着重提到,算子库的效率在分布式集群的训练过程中扮演着关键角色,恰似汽车的引擎决定着汽车的动力表现。MUSA 算子库在研发过程中,始终秉持着追求极致性能的理念,同时兼顾覆盖广度和兼容性,致力于为用户提供丰富多元的选择。​

MUSA 算子库生态涵盖三大算子库。吴庆首先介绍了 muDNN,它堪称是开箱即用的标准算子库,功能十分全面,完整覆盖常见的前向和反向算子,对完整的 XMMA、Tensor Core 全精度及所有量化模式等均提供支持。在性能数据上,其矩阵乘算子效率可达 98%,Flash Attention 算子效率能达到 95%,这些数据远超行业平均水平,彰显出强大的运算实力。在讲解 FP8 GEMM 算子效率时,吴庆形象地比喻道,Per-Tensor scale 如同整面墙刷一种颜色,操作过程简单直接;而 Per-Block scale 则像给墙上的小方块刷不同颜色,复杂度明显更高。但摩尔线程通过深度的软硬协同优化,成功使 Per-Block 与 Per-Tensor FP8 GEMM 计算效率差距控制在不到 2%,极大提升了复杂场景下的运算性能。​

接着,吴庆介绍了 MUTLASS,它作为高性能线性代数模板库,已经在 Github 开源。MUTLASS 支持平湖架构所有特性,并且贴心地提供 Attention 最优化示例,这一举措极大降低了用户自定义算子的开发工作量,让开发者能够更便捷地进行相关开发工作。最后,吴庆透露,即将发布的 MUSA AI Tensor Engine 是面向大语言模型的开源推理算子库,它提供友好的 Python API,未来还将支持丰富后端,能够助力开发者快速搭建自定义推理引擎,为大语言模型领域的开发工作带来更多便利与可能。​

三、高性能通信技术:避免通信抢占计算核心资源​

在大模型分布式训练领域,通信问题一直是制约发展的主要瓶颈,犹如交通拥堵阻碍城市高效运转。吴庆在演讲中指出,摩尔线程在 MTT S5000 上支持 MTLINK 2.0,并创新性地配备 GPU 异步通信引擎,成功实现了通信技术与计算的高度并行,为解决这一瓶颈问题提供了有效方案。

图:摩尔线程的异步通信引擎技术支持通过MTLink进行C2C数据通信


吴庆回顾道,早在之前,摩尔线程的技术团队就敏锐洞察到通信与计算抢占 SM 计算单元这一行业痛点,经过深入研究与技术攻关,最终在 GPU 上成功增加了异步通信引擎。以 MTT S5000 服务器为例,每节点配备 8 张 GPU,通过 MTLINK 2.0 实现全互连,每张 GPU 与其他 7 张 GPU 直连。并且,每个 GPU 的异步通信引擎原生支持多种 reduce 操作和数据类型,还能借助 Zero Copy 技术避免本地 D2D 拷贝,直接进行跨卡通信,大大提升了通信效率。​

在通信性能方面,吴庆详细列举了相关数据。基于全互联(FC8)拓扑的高效通信算法,在单机 8 卡 All Reduce 场景中,将延迟从 Ring 算法的 53us 大幅降至 7.8us,缩减近 1/7;带宽方面,单机 8 卡 All Reduce 带宽利用率接近 85%,跨节点通信中,All Reduce 带宽达 194GB/s,RDMA 通信带宽利用率更是高达 97%。不仅如此,异步通信引擎的通信优化将通信部分巧妙卸载到单独引擎,不占用 MPC 计算资源,在无数据依赖时能够实现完全 overlap。吴庆特别提到,结合 MT Transformer Engine,这一优化使 Llama 模型端到端计算通信性能提升约 10%,切实为大模型分布式训练的高效运行提供了有力支撑。​

四、展望未来:首届MUSA开发者大会即将启幕

分享日最后,摩尔线程还宣布将于今年10月举办首届MUSA开发者大会,进一步推动国产GPU生态建设。从芯片架构到集群系统,从技术突破到行业落地,摩尔线程正以“AI工厂”为蓝图,引领国产算力基础设施迈向AGI时代的新高度。(完)

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5100

    浏览量

    134474
  • MUSA
    +关注

    关注

    0

    文章

    5

    浏览量

    2157
  • 摩尔线程
    +关注

    关注

    2

    文章

    256

    浏览量

    6223
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    摩尔线程发布Torch-MUSA v2.7.0版本

    近日,摩尔线程正式发布PyTorch深度学习框架的MUSA扩展库——Torch-MUSA v2.7.0,新版本在功能集成、性能优化与硬件支持方面实现进一步突破。Torch-
    的头像 发表于 12-04 09:05 605次阅读

    摩尔线程亮相GOTC 2025全球开源技术峰会

    摩尔线程高级副总裁杨上山在主论坛发表《摩尔线程全功能GPU原生支持开源生态》的主题演讲,系统阐述了摩尔
    的头像 发表于 11-04 10:43 1632次阅读

    摩尔线程发布Torch-MUSA v2.1.1版本

    近日,摩尔线程发布其面向PyTorch深度学习框架的MUSA扩展库——Torch-MUSA v2.1.1。该版本在v2.1.0的基础上,进一步扩展了对大规模深度学习模型训练与推理的支持
    的头像 发表于 09-10 11:02 735次阅读

    摩尔线程副总裁王华:AI工厂全技术重构算力基建,开启国产 GPU 黄金时代

    摩尔线程在世界人工智能大会(WAIC 2025)前夕举办“算力进化,精度革命”为主题的技术分享会,创新性提出“AI工厂” 理念。这一系统性
    的头像 发表于 08-02 14:21 4664次阅读
    <b class='flag-5'>摩尔</b><b class='flag-5'>线程</b>副总裁王华:AI工厂全<b class='flag-5'>栈</b><b class='flag-5'>技术</b>重构算力基建,开启国产 <b class='flag-5'>GPU</b> 黄金时代

    摩尔线程亮相WAIC 2025:“AI工厂”理念驱动算力进化,全AI应用赋能千行百业

    7月26日-29日,2025世界人工智能大会(WAIC)在上海举办。摩尔线程全功能GPU为核心的“云边端”全AI产品和解决方案精彩亮相
    的头像 发表于 07-28 11:34 1447次阅读
    <b class='flag-5'>摩尔</b><b class='flag-5'>线程</b>亮相WAIC 2025:<b class='flag-5'>以</b>“AI工厂”理念驱动算力进化,全<b class='flag-5'>栈</b>AI应用赋能千行百业

    摩尔线程“AI工厂”:系统级创新定义新一代AI基础设施

    2025年7月25日,上海——在世界人工智能大会(WAIC 2025)开幕前夕,摩尔线程“算力进化,精度革命”为主题举办技术分享会,并创新
    发表于 07-28 10:34 2418次阅读
    <b class='flag-5'>摩尔</b><b class='flag-5'>线程</b>“AI工厂”:<b class='flag-5'>以</b>系统级<b class='flag-5'>创新</b>定义新一代AI基础设施

    摩尔线程发布Torch-MUSA v2.0.0版本 支持原生FP8和PyTorch 2.5.0

    近日,摩尔线程正式发布Torch-MUSA v2.0.0版本,这是其面向PyTorch深度学习框架的MUSA扩展库的重要升级。新版本基于MUSA
    的头像 发表于 05-11 16:41 1277次阅读

    摩尔线程GPU率先支持Qwen3全系列模型

    近日,阿里云正式发布Qwen3系列的8款开源混合推理模型。摩尔线程团队在模型发布当天,率先完成了Qwen3全系列模型在全功能GPU上的高效支持。这一成果充分展现了MUSA架构及全功能
    的头像 发表于 05-07 15:24 839次阅读

    2.5MW全球首发,绿能慧充引领行业新高度

    ,它以双兆瓦级系统架构与全场景兼容能力,革新大功率充电技术标准,引领行业新高度。01智能投切全场景功率适配产品单机功率达2.5MW,通过智能投切技术动态分配功率,
    的头像 发表于 04-25 12:18 972次阅读
    2.5MW全球首发,绿能慧充<b class='flag-5'>引领</b>行业<b class='flag-5'>新高度</b>!

    摩尔线程GPU成功适配Deepseek-V3-0324大模型

    架构和全功能GPU的强大技术实力,摩尔线程迅速响应并完成了对DeepSeek-V3的无缝升级,实现了零报错、零兼容性问题的光速部署,充分展现了摩尔
    的头像 发表于 03-31 11:34 1109次阅读
    <b class='flag-5'>摩尔</b><b class='flag-5'>线程</b><b class='flag-5'>GPU</b>成功适配Deepseek-V3-0324大模型

    摩尔线程GPU原生FP8计算助力AI训练

    并行训练和推理,显著提升了训练效率与稳定性。摩尔线程是国内率先原生支持FP8计算精度的国产GPU企业,此次开源不仅为AI训练和推理提供了全新的国产化解决方案,更对推动国产
    的头像 发表于 03-17 17:05 1218次阅读
    <b class='flag-5'>摩尔</b><b class='flag-5'>线程</b><b class='flag-5'>GPU</b>原生FP8<b class='flag-5'>计算</b>助力AI训练

    黑芝麻智能引领人形机器人技术迈向新高度

    ,基于黑芝麻智能领先的芯片及算法方案,致力于为“天问”赋予更强大的智能“大脑”与“小脑”。同时,双方也正在围绕人形机器人量产的芯片解决方案展开深入合作,共同引领人形机器人技术迈向新高度
    的头像 发表于 03-12 18:00 1538次阅读

    摩尔线程全面支持DeepSeek开源周成果

    DeepSeek开源周正式收官,作为国内率先原生支持FP8计算精度的国产GPU企业,摩尔线程迅速响应,并在短时间内,成功实现对DeepSeek各个开源项目的全面支持,涵盖FlashML
    的头像 发表于 03-04 10:06 846次阅读

    摩尔线程完成DeepSeek开源库FlashMLA和DeepGEMM适配

    自DeepSeek启动“开源周”以来,已陆续开源三个代码库。摩尔线程基于全新MUSA Compute Capability 3.1计算架构,可提供原生FP8
    的头像 发表于 02-27 14:40 1123次阅读

    锂电池充放电老化柜:技术创新引领新能源产业质量检测新高度

    设备,正以其技术创新引领新能源产业质量检测的新高度,成为行业内的热点话题。 技术革新,提升检测精度与效率 锂电池充放电老化柜是一种专门用于对锂电池进行充放电老化测试和评估的设备。它通过
    的头像 发表于 01-16 16:53 720次阅读