0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

使用Nsight Compute进行高级内核评测

星星科技指导员 来源:NVIDIA 作者:NVIDIA 2022-04-13 09:20 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

Nsight Compute 的这一版本扩展了现有的重播模式,提供了范围重播的高要求功能。 Range Replay 捕获并重放分析应用程序中 CUDA API 调用和内核启动的完整范围。度量与整个范围相关联,而不是单个内核。这允许该工具在不序列化的情况下执行内核,并支持出于正确性或性能原因而需要并发运行的评测内核。范围由起点和终点标记组成;并包括所有 CUDA API 调用和从任何 CPU 线程在这些标记之间启动的内核。

范围标记可以使用以下任一方法定义:

分析器启动/停止 API

poYBAGJWJZyAM4wPAAD3mEfYmy4917.png

NVTX 系列图 1 。范围回放可视化:捕获范围后,每个过程都会收集整个范围的性能信息。

记忆分析

在 A100 上评测时,内存分析部分中的一个新二级缓存收回策略表可以帮助您了解各种 缓存逐出策略 的访问次数和达到的命中率。在同一部分中,二级缓存表现在有一个新的 ECC 行,用于显示通过在 GPU 上启用硬件纠错代码而创建的流量。

poYBAGJWJY2AX77tAAHDYYpGHeU478.png

图 2 。内存工作负载分析表的改进: ECC 和二级缓存逐出策略信息。

引导分析

Nsight Compute 现在通过在打开报表时在摘要和详细信息页面之间动态选择,可以更轻松地在多结果集合中选择初始分析目标。规则被扩展以检测非融合浮点指令作为优化机会。最后,但并非最不重要的一点是,当触发未恢复的内存访问规则时,它们会显示一个包含五个最有价值实例的表,从而更容易在源页面上检查和解决它们。

pYYBAGJWJaiAFQ_AAAJeY82_dps659.png

图 3 。打开多结果报告现在会显示摘要页面,允许您对结果进行排序并决定优化顺序。

pYYBAGJWJbWAF8QkAAHXhz-C6j4326.png

图 4 。这两种未恢复的内存访问规则都以更简洁、更有序的格式呈现结果。

其他改进

进一步的改进包括 Occupancy Calculator 自动更新。源页面中 Register Dependency 列还有一个新的“执行的线程指令”度量和注册名工具提示,以及 NVLink 更新。

关于作者

Chaitrali Joshi 是 NVIDIA 的产品营销经理,专注于电信 5G 系统的设计和开发。她对网络空间有着深入的了解,是移动通信系统和云栈方面的专家。在英特尔之前,她是一名领导,向开发人员宣传电信技术和边缘计算技术。她获得了加利福尼亚大学计算机科学硕士学位,戴维斯专注于软件定义的网络和多址边缘计算( MEC )。

Jackson Marusarz 是 NVIDIA 计算开发工具的产品经理。他关注如何使用工具使所有开发人员能够轻松高效地评测、调试和优化 CUDA 代码。杰克逊拥有 Boulder 科罗拉多大学计算机工程硕士学位。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5696

    浏览量

    110119
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5272

    浏览量

    136075
  • 代码
    +关注

    关注

    30

    文章

    4977

    浏览量

    74388
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    博通集成BK7239N评测

    BK7239N评测 BK7239N是博通集成推出的一款高度集成的双频Wi-Fi 6芯片,以下是综合评测信息: 1. 性能表现 搭载240MHz ARM Cortex-M33内核,配备512KB
    发表于 04-14 14:50

    Visionfive的串口调试与编译内核

    ; | | | |__| | |_) |__/ | | |____) | |_) || |_____/| .__/ ___|_| |_|_____/|____/_____|| ||_|等到开机完成,会出现这样的界面,在这里我们可以用电脑键盘输入用户名和密码来进行登录。 编译 Linux
    发表于 04-01 07:35

    衷心感谢《瑞萨生态工作室》 ,授予我“优秀评测奖”!

    衷心感谢电子发烧友平台, 感谢瑞萨生态工作室授予我“优秀评测奖”! 这份荣誉不仅是对我评测工作的肯定,更是对我持续输出专业、真实、有温度内容的莫大鼓励。 一路走来,离不开平台的支持与广大读者的关注
    发表于 01-19 15:56

    请问UART内核在接收数据时有哪些具体操作?UART内核在接收数据完成后会进行哪些处理?

    UART内核在接收数据时有哪些具体操作?UART内核在接收数据完成后会进行哪些处理?
    发表于 12-25 07:15

    将蜂鸟E203的内核移植到fpga之后该怎么进行二次开发呢?

    你们好!请问一下我将蜂鸟E203的内核移植到fpga之后该怎么进行二次开发呢?比如我想点亮板子上的led?驱动摄像头进行图像识别?这些该如何进行呢?蜂鸟有类似freedom studi
    发表于 11-10 07:09

    在Ubuntu 虚拟机中使用verilator对蜂鸟E203内核进行仿真

    在Ubuntu 虚拟机中使用verilator对蜂鸟E203内核进行仿真 蜂鸟E203是一款基于RISC-V架构的嵌入式处理器核,在开发中需要进行仿真操作来验证其功能性。本教程将介绍如何利用
    发表于 10-27 08:22

    没有开发板的情况,在Vivado上进行蜂鸟E203的基础内核的drystone跑分

    工程 这里我们主要也是参考了论坛中的这篇文章来创建了一个Vivado的工程,这样我们一个可以方便阅读内核代码,另一方面,这也是我们进行仿真的第一步。 创建后整个内核的架构大概如下图: 唯一有一点
    发表于 10-27 06:35

    【OK3506-S12Mini试用评测】编译你的第一个内核模块

    OK3506 开发板内核模块编译与加载 一、前言 在嵌入式 Linux 系统开发中,内核模块(Kernel Module) 是一种可动态加载到内核中的驱动或功能扩展,不需要重新编译整个内核
    发表于 10-24 21:00

    没有开发板的情况下,在Vivado上进行蜂鸟E203的基础内核的drystone跑分

    工程 这里我们主要也是参考了论坛中的这篇文章来创建了一个Vivado的工程,这样我们一个可以方便阅读内核代码,另一方面,这也是我们进行仿真的第一步。 创建后整个内核的架构大概如下图: 唯一有一点
    发表于 10-24 07:36

    如何对蜂鸟e203内核乘除法器进行优化

    组成: Booth编码器:将待乘数转化为带符号位的二进制数进行计算。 Wallace树加速器:对Booth编码后的结果进行部分积的计算和累加操作。 除法器 蜂鸟E203采用了流水线式除法器,这种除法器通过将
    发表于 10-24 06:47

    蜂鸟E203内核优化方法

    对蜂鸟E203内核进行优化可以考虑以下几个方面: 编译器优化:使用适合蜂鸟E203的编译器选项和指令集,优化编译器的选项和参数,开启对硬件的特定支持,比如使用-O2等优化选项,以提高代码执行效率
    发表于 10-21 07:55

    【匠芯创D133CBS KunLun Pi开发板试用体验】开箱评测

    【匠芯创D133CBS KunLun Pi开发板试用体验】开箱评测 匠芯创D133CBS KunLun Pi开发板是一款基于RISC-V架构的高性能人机交互开发平台,面向工业HMI、智能家居等应用场
    发表于 09-11 13:44

    强实时运动控制内核MotionRT750(一):驱动安装、内核配置与使用

    强实时运动控制内核MotionRT750的驱动安装与内核配置
    的头像 发表于 07-03 15:48 3903次阅读
    强实时运动控制<b class='flag-5'>内核</b>MotionRT750(一):驱动安装、<b class='flag-5'>内核</b>配置与使用

    【米尔-RK3562开发板试用评测】EtherCat移植、编译

    一、内核编译 上一篇把环境搭建好后,要重新配置一下内核,并进行单独的编译。 在单独编译 linux内核 首先进行配置
    发表于 05-28 14:49

    【RA-Eco-RA4M2开发板评测】2+uart方式

    【RA-Eco-RA4M2开发板评测】+uart方式前期,没有仿真器可用,五一假期发展了一个能在e2 studio环境下使用的工具EZ-Cube3,使用EZ-Cube3选择E2 lite工具进行调试
    发表于 05-04 16:32