0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

通过NSight Compute 2021.3优化GPU利用率

星星科技指导员 来源:NVIDIA 作者:NVIDIA 2022-04-13 09:38 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

NVIDIA 发布了最新的 NSight 计算 2021.3,它具有用于测量和建模占用率、源代码和汇编代码相关性的新功能,以及用于识别访问缓存造成的瓶颈的分层屋顶线模型。

占用率计算器

NSight Compute 2021. 3 添加了一个新的占用率计算器活动,帮助您了解内核的硬件资源利用率,并建模调整如何影响占用率。

占用率是每个 SM 的活动扭曲与活动扭曲理论最大数量的比率。占用率低可能表示内核太小、工作负载不平衡或资源争用。所有这些都会限制 GPU 上具有特定可用资源集的内核的性能。

pYYBAGJWKZWAN3dkAAE9rEm4Y0c918.png

图 1 NSight 计算占用计算器的显示

命令行源页面

此版本添加了一个高要求的功能,允许直接从命令行从 GUI 中的源页面访问信息。通过使用--page source标志,用户可以在命令行上看到源代码行、 PTX 行或程序集行以及这些行的收集指标。

在分析收集的数据以及编写脚本和后期处理结果以进行进一步报告和分析时,此功能提供了额外的灵活性。

pYYBAGJWKZqAcxGGAAFKiXuxXQ0498.png

图 2 命令行源输出功能的示例。

分层屋顶线

屋顶线图表现在支持分层屋顶线,除了设备内存之外,还为 L1 和 L2 缓存添加屋顶线。您可以查看它们的内核与每个内存级别的带宽限制有多接近,以确定它们的内核是否存在与访问内存相关的瓶颈。

pYYBAGJWKaGAI4WbAAA-5Gri-ms804.png

图 3 NSight 计算显示屋顶线层次结构比较。

其他增强功能

进一步的功能包括更多可配置的基线比较、从 CLI 直接访问源代码级信息以及附加的 SSH 功能。

关于作者

Jackson Marusarz 是 NVIDIA 计算开发工具的产品经理。他关注如何使用工具使所有开发人员能够轻松高效地评测、调试和优化 CUDA 代码。杰克逊拥有 Boulder 科罗拉多大学计算机工程硕士学位。

Chaitrali Joshi 是 NVIDIA 的产品营销经理,专注于电信 5G 系统的设计和开发。她对网络空间有着深入的了解,是移动通信系统和云栈方面的专家。在英特尔之前,她是一名领导,向开发人员宣传电信技术和边缘计算技术。她获得了加利福尼亚大学计算机科学硕士学位,戴维斯专注于软件定义的网络和多址边缘计算( MEC )。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5496

    浏览量

    109097
  • 内存
    +关注

    关注

    9

    文章

    3173

    浏览量

    76118
  • 计算器
    +关注

    关注

    16

    文章

    440

    浏览量

    38720
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    华为发布AI容器技术Flex:ai,算力平均利用率提升30%

    决方案。   当前,AI产业正处于高速发展的黄金时期,海量算力需求如潮水般涌来。然而,算力资源利用率偏低的问题却成为了产业发展的关键桎梏。具体表现为,小模型任务常常独占整卡,导致大量资源闲置;大模型任务又因单机算力不足而难以支撑;更有大量缺乏GPU
    的头像 发表于 11-26 08:31 7137次阅读

    从CPU、GPU到NPU,美格智能持续优化异构算力计算效能

    的科技企业也在近期表示,将通过软件层创新大幅提升算力资源利用率。作为高算力AI模组和端侧AI领域的领先企业,美格智能长期专注于端侧AI算力的优化与提升,通过深耕SoC架
    的头像 发表于 11-21 16:05 725次阅读
    从CPU、<b class='flag-5'>GPU</b>到NPU,美格智能持续<b class='flag-5'>优化</b>异构算力计算效能

    设备利用率算不清?智能管理系统自动分析数据,生成可视化报表帮你降本

    当设备数据自动流转生成可视化报表,企业才算真正掌握降本增效主动权。曾经 Excel 里的利用率 “糊涂账”,变成清晰可追溯的 “明白钱”。制造业竞争日益激烈的今天,谁能让设备数据说话,谁就能在成本控制上占先机。
    的头像 发表于 09-12 10:04 403次阅读
    设备<b class='flag-5'>利用率</b>算不清?智能管理系统自动分析数据,生成可视化报表帮你降本

    从 “被动维修” 到 “主动管理”:这套系统让设备利用率提升 30%

    从 “被动维修” 到 “主动管理”,是设备管理模式的转变,更是数字化转型的关键一步。在激烈的市场竞争中,能让设备稳定高效运行的企业,才能在效率与成本上占据优势。这套提升设备利用率 30% 的系统,为企业高质量发展提供了有效路径。
    的头像 发表于 09-04 10:04 541次阅读
    从 “被动维修” 到 “主动管理”:这套系统让设备<b class='flag-5'>利用率</b>提升 30%

    如何在Ray分布式计算框架下集成NVIDIA Nsight Systems进行GPU性能分析

    在大语言模型的强化学习训练过程中,GPU 性能优化至关重要。随着模型规模不断扩大,如何高效地分析和优化 GPU 性能成为开发者面临的主要挑战之一。
    的头像 发表于 07-23 10:34 2044次阅读
    如何在Ray分布式计算框架下集成NVIDIA <b class='flag-5'>Nsight</b> Systems进行<b class='flag-5'>GPU</b>性能分析

    海光DCU率先展开文心系列模型的深度技术合作 FLOPs利用率(MFU)达47%

    列模型的深度技术适配,预训练模型FLOPs利用率(MFU)达到47%,在多个文本与多模态基准测试中取得SOTA水平。此次合作标志着国产算力基础设施与大模型技术的协同创新进入新阶段。 技术突破:异构计算架构赋能MoE模型高效训练 海光DCU基于GPGPU通用架构,通过飞桨深
    的头像 发表于 07-01 14:35 1930次阅读

    拼版怎么拼好,板厂经常说利用率太低,多收费用?

    做板的时候,板厂经常说我拼版利用率太低,要多收取费用,哪位大神知道怎么算利用率
    发表于 05-14 13:42

    mes工厂管理系统:如何让设备利用率提升50%?

    在制造业竞争日益激烈的今天,设备利用率直接决定了企业的盈利能力。许多工厂管理者都在思考同一个问题:如何在不增加设备投资的情况下,让现有产能发挥出最大价值?MES工厂管理系统正是解决这一难题的金钥匙
    的头像 发表于 05-09 15:55 505次阅读
    mes工厂管理系统:如何让设备<b class='flag-5'>利用率</b>提升50%?

    提升AI训练性能:GPU资源优化的12个实战技巧

    的行业调查数据显示,仅有7%的企业能在高负载期间实现超过85%的GPU利用率,这一数据凸显了当前AI基础设施资源优化方面存在的显著缺
    的头像 发表于 05-06 11:17 1179次阅读
    提升AI训练性能:<b class='flag-5'>GPU</b>资源<b class='flag-5'>优化</b>的12个实战技巧

    DeepSeek MoE架构下的网络负载如何优化?解锁90%网络利用率的关键策略

    、All-to-All等),网络面临高并发、低延迟、无损传输的严苛需求。然而,传统以太网的网络利用率长期徘徊在35%~40%,成为制约AI算力释放的关键瓶颈。
    的头像 发表于 04-28 12:04 693次阅读
    DeepSeek MoE架构下的网络负载如何<b class='flag-5'>优化</b>?解锁90%网络<b class='flag-5'>利用率</b>的关键策略

    三星平泽晶圆代工产线恢复运营,6月冲刺最大产能利用率

    据媒体最新报道,韩国三星电子的晶圆代工部门已正式解除位于平泽园区的晶圆代工生产线的停机状态,并计划在今年6月将产能利用率提升至最高水平。这一举措标志着三星在应对市场波动、调整产能策略方面迈出了重要一步。
    的头像 发表于 02-18 15:00 1051次阅读

    源网荷储充一体化,提高能源利用率和电网消纳能力

    是基于物联网和大数据技术的充电设施管理系统,可实现对充电桩的监控、调度和管理提高充电桩的利用率和充电效率,提升用户充电体验和服务质量
    的头像 发表于 01-10 09:24 1671次阅读
    源网荷储充一体化,提高能源<b class='flag-5'>利用率</b>和电网消纳能力

    利用Arm Kleidi技术实现PyTorch优化

    Neoverse 平台上的 PyTorch 推理表现。Kleidi 技术可以通过 Arm Compute Library (ACL) 和 KleidiAI 库获取。
    的头像 发表于 12-23 09:19 1620次阅读
    <b class='flag-5'>利用</b>Arm Kleidi技术实现PyTorch<b class='flag-5'>优化</b>

    自动排产系统:如何实现生产计划优化的关键策略

    自动排产系统通过集成和分析数据、考虑多种约束条件制定最优计划、实时监控和调整生产计划、优化资源配置和利用以及提高生产效率和响应速度等方式来实现生产计划优化。这些
    的头像 发表于 12-20 09:11 1363次阅读
    自动排产系统:如何实现生产计划<b class='flag-5'>优化</b>的关键策略

    《CST Studio Suite 2024 GPU加速计算指南》

    监控/利用率、选择可用GPU卡子集等内容。 6. 故障排除:针对NVIDIA驱动安装、多GPU设置、GPU模式、硬件识别、CUDA错误、TCC模式等问题给出了相应的解决方法。
    发表于 12-16 14:25