英伟达推出 cuSPARSELt,版本0 .2.0 ,它提高了激活函数、偏差向量和批处理稀疏 GEMM 的性能。
NVIDIA CUSPASSELT 是一个高性能 CUDA 库,专用于一般矩阵运算,其中至少有一个操作数是稀疏矩阵:
在这个等式中, OP(A) 和 OP(B) 指的是原位操作,例如转置和非转置。
cuSPARSELt API 在算法/操作选择、尾声和矩阵特性(包括内存布局、对齐和数据类型)方面提供了灵活性。
主要特征
NVIDIA Sparse MMA 张量核支持
混合精度计算支持:
FP16 I / O 、 FP32 张量核累加。
BFLOAT16 I / O , FP32 张量核累积。
INT8 I / O , INT32 张量核计算。
FP32 I / O , TF32 张量核心计算。
TF32 I / O , TF32 张量核心计算。
矩阵修剪和压缩功能
自动调谐功能
关于作者
Matthew Nicely 于 2019 年 3 月加入 NVIDIA ,之前曾在美国 AL-Huntsville 的美国陆军航空和导弹研究开发与工程中心工作。在那里,他专注于 CUDA 算法开发和 Jetson 系列的优化。在 NVIDIA ,他曾在联邦部门工作,协助 CUDA 的开发和优化,以及在各种 NVIDIA 工具集上为客户提供教育和概念验证,最近转为 math libraries 产品经理。 2019 年,他获得了博士学位。计算机工程学位,专注于 GPU 的算法优化。
审核编辑:郭婷
-
NVIDIA
+关注
关注
14文章
5682浏览量
110101
发布评论请先 登录
嵌入式开发常用函数速查表
Molex控制杆激活接线端子技术解析与应用指南
NVIDIA宣布开源Aerial软件
提高RISC-V在Drystone测试中得分的方法
求助,关于RT-Thread 最新版本timer.c rt_timer_check函数问题求解
NVIDIA桌面GPU系列扩展新产品
NVIDIA从云到边缘加速OpenAI gpt-oss模型部署,实现150万TPS推理
NVIDIA cuSPARSELt v0.2.0提高激活函数
评论