0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

摩尔线程开源高性能线性代数模板库MUTLASS

摩尔线程 来源:摩尔线程 2024-11-13 11:53 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

近日,摩尔线程宣布开源高性能线性代数模板库MUTLASS,以便开发者能够更高效针对摩尔线程全功能GPU的MUSA Core及Tensor Core等单元进行编程,加速基于国产GPU的算子开发以及算法创新。

在数值计算和深度学习领域,矩阵乘法(GEMM)及其变种(如FlashAttention、Convolution)是构建复杂上层应用的基石。然而,为了追求更高的算子融合效率或者更创新的算法,开发者们往往需要超越标准化计算接口的限制,如标准BLAS接口以及芯片厂商的计算库接口,以实现高性能的定制化算子。

MUTLASS(MUSA Templates for Linear Algebra Subroutines)正是为满足这一需求而设计。作为摩尔线程专为MUSA架构优化的高性能计算库,MUTLASS是基于开源模板库CUTLASS进行的MUSA适配和定制化开发、优化,针对矩阵乘法及相关变种,MUTLASS提供了一系列高性能的C++模板组件,并采用了与muDNN库类似的分层分解及数据搬运策略,以确保性能的充分发挥。

在本次开源的版本中,摩尔线程适配了CuTe后端库,为其增加了第三代MUSA架构的MMA计算原语,支持TF32/FP16/BF16/INT8等多种数据精度,并以此为基础,初步实现了矩阵乘法、默认实例库、性能测试器及相关工具包的支持。

借助MUTLASS,开发者们既可以灵活复用不同层级的模板组件,也可以按需修改各种模板组件的实现细节,以较低的开发成本实现定制化的高性能算子,从而在摩尔线程全功能GPU上充分释放性能,并尝试更多的算法创新。

摩尔线程将持续优化MUTLASS的性能,并不断引入新的功能。我们诚邀广大开发者体验MUTLASS,并提供宝贵的反馈意见,共同促进MUTLASS在性能和功能上的持续完善,携手推动基于国产GPU的生态建设。

关于摩尔线程

摩尔线程成立于2020年10月,以全功能GPU为核心,致力于向全球提供加速计算的基础设施和一站式解决方案,为各行各业的数智化转型提供强大的AI计算支持。

我们的目标是成为具备国际竞争力的GPU领军企业,为融合人工智能和数字孪生的数智世界打造先进的加速计算平台。我们的愿景是为美好世界加速。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5110

    浏览量

    134512
  • 开源
    +关注

    关注

    3

    文章

    4049

    浏览量

    45597
  • 摩尔线程
    +关注

    关注

    2

    文章

    258

    浏览量

    6262

原文标题:开源MUTLASS|摩尔线程加速基于国产GPU的算子开发以及算法创新

文章出处:【微信号:moorethreads,微信公众号:摩尔线程】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    炎核开源开放平台上架推出OpenSparseBlas高性能稀疏计算

    在科学计算与工程仿真领域,高效处理大规模稀疏矩阵运算是提升整体计算效能的关键。为此,我们在炎核开源开放平台上架推出 OpenSparseBlas——一个专为稀疏矩阵/向量计算而打造的高性能稀疏计算
    的头像 发表于 12-15 15:18 204次阅读

    摩尔线程高开468% 中一签赚27万 国产GPU第一股摩尔线程高开468%

    “国产GPU第一股”上市了!今天是万众瞩目的摩尔线程正式上市的日子;摩尔线程A股总股本47002.8217万股,本次公开发行的股票数量为7000万股,均为新股,无老股转让,其中,本次上
    的头像 发表于 12-05 11:03 1253次阅读
    <b class='flag-5'>摩尔</b><b class='flag-5'>线程</b>高开468% 中一签赚27万 国产GPU第一股<b class='flag-5'>摩尔</b><b class='flag-5'>线程</b>高开468%

    摩尔线程发布Torch-MUSA v2.7.0版本

    近日,摩尔线程正式发布PyTorch深度学习框架的MUSA扩展——Torch-MUSA v2.7.0,新版本在功能集成、性能优化与硬件支持方面实现进一步突破。Torch-MUSA在短
    的头像 发表于 12-04 09:05 709次阅读

    摩尔线程亮相GOTC 2025全球开源技术峰会

    摩尔线程高级副总裁杨上山在主论坛发表《摩尔线程全功能GPU原生支持开源生态》的主题演讲,系统阐述了摩尔
    的头像 发表于 11-04 10:43 1781次阅读

    国家信息中心与摩尔线程达成战略合作

    10月21日上午,国家信息中心与摩尔线程在北京举行战略合作协议签约仪式。国家信息中心主任徐强,摩尔线程创始人、董事长兼首席执行官张建中出席签约仪式。国家信息中心副主任周民与
    的头像 发表于 10-23 15:52 383次阅读

    摩尔线程发布大模型训练仿真工具SimuMax v1.0

    近日,摩尔线程正式发布并开源大模型分布式训练仿真工具SimuMax 1.0版本。该版本在显存和性能仿真精度上实现突破性提升,同时引入多项关键功能,进一步增强了模型兼容性、灵活性与用户体
    的头像 发表于 09-11 18:19 3385次阅读
    <b class='flag-5'>摩尔</b><b class='flag-5'>线程</b>发布大模型训练仿真工具SimuMax v1.0

    摩尔线程发布Torch-MUSA v2.1.1版本

    近日,摩尔线程发布其面向PyTorch深度学习框架的MUSA扩展——Torch-MUSA v2.1.1。该版本在v2.1.0的基础上,进一步扩展了对大规模深度学习模型训练与推理的支持能力,并在编译优化、计算
    的头像 发表于 09-10 11:02 757次阅读

    摩尔线程发布云电脑驱动MT vGPU 2.7.0

    3月18日,摩尔线程正式发布云电脑驱动MT vGPU 2.7.0。新版本在国内首次实现了国产GPU云电脑对DirectX 12的支持,同时显著提升图形渲染性能与兼容性。通过全功能GPU四大引擎的深度协同,
    的头像 发表于 03-19 15:56 787次阅读

    摩尔线程GPU原生FP8计算助力AI训练

    近日,摩尔线程正式开源MT-MegatronLM与MT-TransformerEngine两大AI框架。通过深度融合FP8混合训练策略和高性能算子
    的头像 发表于 03-17 17:05 1249次阅读
    <b class='flag-5'>摩尔</b><b class='flag-5'>线程</b>GPU原生FP8计算助力AI训练

    摩尔线程支持阿里云通义千问QwQ-32B开源模型

    近日,阿里云团队正式开源全新推理模型——通义千问QwQ-32B。摩尔线程在该模型发布后2小时内,迅速且高效完成了对千问QwQ-32B的支持。
    的头像 发表于 03-07 17:48 1154次阅读
    <b class='flag-5'>摩尔</b><b class='flag-5'>线程</b>支持阿里云通义千问QwQ-32B<b class='flag-5'>开源</b>模型

    摩尔线程全面支持DeepSeek开源周成果

    DeepSeek开源周正式收官,作为国内率先原生支持FP8计算精度的国产GPU企业,摩尔线程迅速响应,并在短时间内,成功实现对DeepSeek各个开源项目的全面支持,涵盖FlashML
    的头像 发表于 03-04 10:06 871次阅读

    摩尔线程支持DeepSeek开源通信DeepEP和并行算法DualPipe

    DeepSeek开源周第四日,摩尔线程宣布已成功支持DeepSeek开源通信DeepEP和并行算法DualPipe,并发布相关
    的头像 发表于 02-28 15:58 868次阅读

    摩尔线程完成DeepSeek开源FlashMLA和DeepGEMM适配

    自DeepSeek启动“开源周”以来,已陆续开源三个代码摩尔线程基于全新MUSA Compute Capability 3.1计算架构,
    的头像 发表于 02-27 14:40 1168次阅读

    摩尔线程图形显卡MTT S80实现DeepSeek模型部署

    摩尔线程“全功能”图形显卡MTT S80,不仅游戏渲染性能强大,能玩《黑神话:悟空》,现在还能本地部署DeepSeek R1蒸馏模型。搭配最新发布的MUSA SDK RC3.1.1版本,开发者直接用
    的头像 发表于 02-21 15:46 4084次阅读
    <b class='flag-5'>摩尔</b><b class='flag-5'>线程</b>图形显卡MTT S80实现DeepSeek模型部署

    摩尔线程宣布成功部署DeepSeek蒸馏模型推理服务

    。 据悉,DeepSeek开源模型在多语言理解与复杂推理任务中一直表现出卓越的性能,其V3、R1等系列模型更是备受业界关注。而此次摩尔线程所实现的DeepSeek蒸馏模型推理服务部署,
    的头像 发表于 02-06 13:49 1201次阅读