0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

使用CUTLASS实现高性能矩阵乘法

星星科技指导员 来源:NVIDIA 作者:Matthew Nicely 2022-04-15 10:03 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

CUTLASS 是 CUDA C ++模板抽象的集合,用于在 CUDA 的所有级别和规模上实现高性能矩阵乘法( GEMM )。它结合了分层分解和数据移动的策略,类似于用于实现cuBLAS的策略。

CUTLASS 将这些“运动部件”分解为 C ++模板类抽象的可重用和模块化的软件组件。这些线程范围、扭曲范围、块范围和设备范围的原语可以通过自定义平铺大小、数据类型和其他算法策略进行专门化和调优。由此产生的灵活性简化了它们在定制内核和应用程序中作为构建块的使用。

为了支持多种应用程序, CUTLASS 为混合精度计算提供了广泛的支持,提供了专门的数据移动,并为以下各项提供了多重累积抽象:

半精度浮点(FP16)、 BFloat16 (BF16)和张量浮点 32 (TF32)数据类型。

单精度浮点(FP32)数据类型。

双精度浮点(FP64)数据类型。

整数数据类型(4b和8b)。

二进制数据类型(1b)。

此外, CUTLASS 演示了针对 NVIDIA Volta 、 Turing 和 Ampere 体系结构上实现的可编程高通Tensor 核的扭曲同步矩阵乘法操作。

CUTLASS 实现了高性能卷积(隐式 GEMM )。隐式 GEMM 是作为 GEMM 的卷积运算的公式。这允许 Cutslass 通过重用高度优化的 warp-wide GEMM 组件和以下组件来构建卷积。

关于作者

Matthew Nicely 于 2019 年 3 月加入 NVIDIA ,之前曾在美国 AL-Huntsville 的美国陆军航空和导弹研究开发与工程中心工作。在那里,他专注于 CUDA 算法开发和 Jetson 系列的优化。在 NVIDIA ,他曾在联邦部门工作,协助 CUDA 的开发和优化,以及在各种 NVIDIA 工具集上为客户提供教育和概念验证,最近转为 math libraries 产品经理。 2019 年,他获得了博士学位。计算机工程学位,专注于 GPU 的算法优化。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5687

    浏览量

    110117
  • CUDA
    +关注

    关注

    0

    文章

    128

    浏览量

    14545
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    探索MX7541A:高性能CMOS 12位乘法数模转换器

    探索MX7541A:高性能CMOS 12位乘法数模转换器 在电子设计领域,数模转换器(DAC)是连接数字世界和模拟世界的关键桥梁。今天,我们将深入探讨Maxim公司的MX7541A,一款高性能
    的头像 发表于 04-22 16:45 195次阅读

    CD4527B:高性能CMOS BCD速率乘法器的技术剖析与应用探索

    CD4527B:高性能CMOS BCD速率乘法器的技术剖析与应用探索 在电子设计领域,高性能的CMOS BCD速率乘法器一直是实现精确脉冲速
    的头像 发表于 04-18 14:55 110次阅读

    CD4089B:高性能CMOS二进制速率乘法器的设计与应用

    CD4089B:高性能CMOS二进制速率乘法器的设计与应用 在电子设计领域,对于能够实现精确脉冲速率控制和多样化运算功能的器件需求始终存在。CD4089B作为一款高性能的CMOS二进制
    的头像 发表于 04-18 14:45 103次阅读

    LTC7545A:高性能12位乘法DAC的卓越之选

    LTC7545A:高性能12位乘法DAC的卓越之选 在电子设计领域,数模转换器(DAC)是连接数字世界与模拟世界的关键桥梁。今天,我们要深入探讨的是Linear Technology
    的头像 发表于 04-16 13:55 105次阅读

    AD5546/AD5556:高性能16/14位乘法DAC的设计与应用

    AD5546/AD5556:高性能16/14位乘法DAC的设计与应用 在电子设计领域,数模转换器(DAC)是连接数字世界和模拟世界的关键桥梁。今天,我们将深入探讨AD5546/AD5556这两款
    的头像 发表于 04-14 13:45 110次阅读

    高性能12位乘法DAC——AD5441的技术剖析与应用

    高性能12位乘法DAC——AD5441的技术剖析与应用 在电子工程师的日常工作中,数字 - 模拟转换器(DAC)是不可或缺的关键组件。今天,我们来深入剖析一款高性能的12位乘法DAC—
    的头像 发表于 04-13 16:40 112次阅读

    CDCVF25084:高性能时钟乘法器的深度剖析

    CDCVF25084:高性能时钟乘法器的深度剖析 在电子设计领域,时钟信号的处理至关重要,它直接影响着整个系统的稳定性和性能。今天,我们就来深入探讨德州仪器(Texas Instruments
    的头像 发表于 02-10 13:50 234次阅读

    如何在NVIDIA CUDA Tile中编写高性能矩阵乘法

    本博文是系列课程的一部分,旨在帮助开发者学习 NVIDIA CUDA Tile 编程,掌握构建高性能 GPU 内核的方法,并以矩阵乘法作为核心示例。
    的头像 发表于 01-22 16:43 5297次阅读
    如何在NVIDIA CUDA Tile中编写<b class='flag-5'>高性能</b><b class='flag-5'>矩阵</b><b class='flag-5'>乘法</b>

    深入剖析ADL5391:高性能模拟乘法器的卓越之选

    深入剖析ADL5391:高性能模拟乘法器的卓越之选 在电子工程师的设计工具箱中,模拟乘法器是实现各种复杂信号处理功能的关键组件。今天,我们要深入探讨一款来自Analog Devices
    的头像 发表于 01-15 15:05 417次阅读

    深入剖析AD632:高性能四象限乘法器/除法器

    深入剖析AD632:高性能四象限乘法器/除法器 在电子工程师的日常设计中,高性能的模拟信号处理芯片是不可或缺的工具。今天,我们就来详细探讨一下Analog Devices公司的AD632——一款内部
    的头像 发表于 01-15 15:00 325次阅读

    高性能四象限模拟乘法器AD734:精准与高速的完美结合

    高性能四象限模拟乘法器AD734:精准与高速的完美结合 在电子设计领域,高性能模拟乘法器一直是实现复杂信号处理和精确控制的关键组件。今天,我
    的头像 发表于 01-15 14:55 356次阅读

    高性能模拟乘法器AD834:特点、应用与设计要点

    高性能模拟乘法器AD834:特点、应用与设计要点 引言 在电子工程师的日常工作中,高性能模拟乘法器是实现各种复杂信号处理和计算的关键元件。A
    的头像 发表于 01-15 14:55 353次阅读

    AD539:高性能宽带双声道线性乘法/除法器的深度剖析

    AD539:高性能宽带双声道线性乘法/除法器的深度剖析 在电子工程师的日常设计工作中,寻找高性能、多功能的模拟器件至关重要。AD539作为一款低失真模拟乘法器,具有双信号通道和线性增益
    的头像 发表于 01-15 14:45 420次阅读

    AD532:高性能单芯片乘法器/除法器的卓越之选

    AD532:高性能单芯片乘法器/除法器的卓越之选 在电子设计领域,乘法器和除法器是实现复杂运算和信号处理的关键组件。而AD532作为一款预微调的单芯片
    的头像 发表于 01-15 14:45 452次阅读

    关于E203内核高性能乘法器优化(一)

    一、简介 对于cpu各类测试程序,设计一个高性能的硬件乘法器模块无疑是提分最快的法案,本文将从乘法算法开始,到rtl设计进行详细的解释说明,并附带一部分源码。 二、乘法算法
    发表于 10-23 06:09