0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA cuSPARSELt v0.2.0提高激活函数

星星科技指导员 来源:NVIDIA 作者:Matthew Nicely 2022-04-15 10:08 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

英伟达推出 cuSPARSELt,版本0 .2.0 ,它提高了激活函数、偏差向量和批处理稀疏 GEMM 的性能。

NVIDIA CUSPASSELT 是一个高性能 CUDA 库,专用于一般矩阵运算,其中至少有一个操作数是稀疏矩阵:

D=\alpha op(A)*op(B)+\beta op(C)

在这个等式中, OP(A) 和 OP(B) 指的是原位操作,例如转置和非转置。

cuSPARSELt API算法/操作选择、尾声和矩阵特性(包括内存布局、对齐和数据类型)方面提供了灵活性。

主要特征

NVIDIA Sparse MMA 张量核支持

混合精度计算支持:

FP16 I / O 、 FP32 张量核累加。

BFLOAT16 I / O , FP32 张量核累积。

INT8 I / O , INT32 张量核计算。

FP32 I / O , TF32 张量核心计算。

TF32 I / O , TF32 张量核心计算。

矩阵修剪和压缩功能

自动调谐功能

关于作者

Matthew Nicely 于 2019 年 3 月加入 NVIDIA ,之前曾在美国 AL-Huntsville 的美国陆军航空和导弹研究开发与工程中心工作。在那里,他专注于 CUDA 算法开发和 Jetson 系列的优化。在 NVIDIA ,他曾在联邦部门工作,协助 CUDA 的开发和优化,以及在各种 NVIDIA 工具集上为客户提供教育和概念验证,最近转为 math libraries 产品经理。 2019 年,他获得了博士学位。计算机工程学位,专注于 GPU 的算法优化。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5682

    浏览量

    110101
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    嵌入式开发常用函数速查表

    在嵌入式开发中,掌握常用函数的用法可以大大提高开发效率。无论是单片机初学者还是有一定经验的工程师,熟悉函数库和调用方式都是必备技能。今天,我们为大家整理一份嵌入式开发常用函数速查表,覆
    的头像 发表于 01-19 09:06 452次阅读
    嵌入式开发常用<b class='flag-5'>函数</b>速查表

    超擎数智为您深度解析NVIDIA Quantum-X800 InfiniBand平台

    NVIDIA
    专精特新
    发布于 :2026年01月08日 19:47:03

    LUA例程-常用的回调函数使用说明

    详细说明LUA脚本函数功能和对应的应用实例。对于LUA脚本编程有很大的帮助和提高技能。
    发表于 11-24 16:43 0次下载

    Molex控制杆激活接线端子技术解析与应用指南

    Molex控制杆激活接线端子简化了电线端接、缩短了组装时间并确保安全的电源连接。 这些简单易用、可靠的块即使在极端灰尘或温度环境下也能长期运行。控制杆激活接线端子有多种安装选项,以提高承载高达72A
    的头像 发表于 11-17 14:41 669次阅读

    NVIDIA宣布开源Aerial软件

    NVIDIA 开源其 Aerial 软件,并将 NVIDIA Sionna 研究套件和 Aerial 测试平台引入 NVIDIA DGX Spark 平台,为研究人员提供强大的工具和便捷的访问途径,以加速 AI 原生无线创新。
    的头像 发表于 11-03 15:14 1122次阅读

    激活函数ReLU的理解与总结

    激活函数的作用 神经网络中使用激活函数来加入非线性因素,提高模型的表达能力。 如果不用激励函数
    发表于 10-31 06:16

    提高RISC-V在Drystone测试中得分的方法

    性能:内存的读写速度、延迟和带宽等都会影响到 Drystone 的性能。 指令集优化:对RISC-V指令集的优化也会影响性能。例如,对于特定的应用或计算任务,可以通过定制指令集来提高性能。 编译器优化
    发表于 10-21 13:58

    求助,关于RT-Thread 最新版本timer.c rt_timer_check函数问题求解

    关于系统定时器超时处理函数rt_timer_check,V5.1.0版本和原来v4.1.1版本有个区别在于,进入超时回调函数t-&gt;timeout_func(t-&
    发表于 09-25 07:00

    NVIDIA桌面GPU系列扩展新产品

    NVIDIA 桌面 GPU 系列扩展,推出 NVIDIA RTX PRO 4000 SFF Edition GPU 和 RTX PRO 2000 Blackwell GPU,可提高工程、内容创作和 3D 可视化等应用的性能。
    的头像 发表于 08-18 11:50 1626次阅读

    NVIDIA从云到边缘加速OpenAI gpt-oss模型部署,实现150万TPS推理

    Token (TPS)。 这两个 gpt-oss 模型是具有链式思维和工具调用能力的文本推理大语言模型 (LLM),采用了广受欢迎的混合专家模型 (MoE) 架构和 SwigGLU 激活函数。其注意力层使用 RoPE 技术
    的头像 发表于 08-15 20:34 2478次阅读
    <b class='flag-5'>NVIDIA</b>从云到边缘加速OpenAI gpt-oss模型部署,实现150万TPS推理

    NVIDIA与合作伙伴推动物理AI发展

    借助 NVIDIA RTX PRO Blackwell GPU 加速的高级蓝图、视觉语言模型和合成数据生成扩展,可提高生产力并改善各环境的安全性。
    的头像 发表于 08-13 14:34 1566次阅读

    NVIDIA Jetson AGX Thor开发者套件概述

    TFLOPS 的 AI 计算性能,从而轻松运行最新的生成式 AI模型,且功耗不超过 130 W。与 NVIDIA Jetson AGX Orin 相比,其 AI 计算性能提高至7.5 倍,能效提高至3.5 倍。
    的头像 发表于 08-11 15:03 2060次阅读

    使用NVIDIA Cosmos模型提高未来智能汽车安全性

    本文是洞悉 Omniverse 系列文章。“洞悉 Omniverse” 重点介绍开发者、3D 从业者与企业如何使用 OpenUSD 和 NVIDIA Omniverse 的最新进展深入改变他们的工作流。
    的头像 发表于 07-14 11:46 1306次阅读

    NVIDIA Isaac Sim与NVIDIA Isaac Lab的更新

    在 COMPUTEX 2025 上,NVIDIA 宣布了机器人仿真参考应用 NVIDIA Isaac Sim 和机器人学习框架 NVIDIA Isaac Lab 的更新,以加速各种形态机器人的开发。
    的头像 发表于 05-28 10:06 2366次阅读

    借助NVIDIA技术加速半导体芯片制造

    NVIDIA Blackwell GPU、NVIDIA Grace CPU、高速 NVIDIA NVLink 网络架构和交换机,以及诸如 NVIDIA cuDSS 和
    的头像 发表于 05-27 13:59 1263次阅读