0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Nvidia GPU的风扇和电源报错解决方案

454398 来源:网络整理 作者:胡里糊涂 2020-10-05 07:36 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

问题

最近在Ubuntu上使用Nvidia GPU训练模型的时候,没有问题,过一会再训练出现非常卡顿,使用nvidia-smi查看发现,显示GPU的风扇和电源报错:

解决方案

自动风扇控制

在nvidia论坛有人给出了解决方案,即问题的根源可能是风扇转速不足使GPU过热导致的。

首先开启GPU的persistent mode,再设置风扇的功率,重启即可生效。其中250代表的是风扇的最大功率限制,可以将其设置为最大,这样过热的时候风扇就会自动加大功率。

sudo nvidia-smi -pm 1

sudo nvidia-smi -pl 250

手动风扇控制

此外,还可以将GPU风扇的手动风速控制打开。方法为:

首先,使用sudo nvidia-xconfig --enable-all-gpus命令打开所有gpu在xserver中的设置(不使用sudo可能无权限写入新配置)

然后修改配置文件:sudo vim /etc/X11/xorg.conf,在其中的DeviceSection中加入Option “Coolbits” “4”如下图所示:

如果机器上有多块gpu,在第一步命令执行后,会在这个xorg.conf中出现多个DeviceSection,都依次执行第三步操作

重启机器后,命令行执行nvidia-settings,会打开设置界面,在其中的会显示所有GPU的设置选项,每个GPU控制选项下面都有一个Thermal settings,进入后打开enable GPU Fan Setting即可对风扇进行手动风速调整了。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5496

    浏览量

    109085
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5099

    浏览量

    134451
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    NVIDIA RTX PRO 2000 Blackwell GPU性能测试

    越来越多的应用正在使用 AI 加速,而无论工作站的大小或形态如何,都有越来越多的用户需要 AI 性能。NVIDIA RTX PRO 2000 Blackwell 是全新 NVIDIA
    的头像 发表于 11-28 09:39 3625次阅读
    <b class='flag-5'>NVIDIA</b> RTX PRO 2000 Blackwell <b class='flag-5'>GPU</b>性能测试

    上位机报错2033问题处理方案

    解决方案三个维度,系统性地分析该问题的处理流程。 一、错误机理深度解析 报错2033的本质是内存地址访问冲突,通常发生在以下场景: 1. 指针越界操作:当程序试图通过指针访问未被分配的内存区域时(如数组越界或空指针解引用),
    的头像 发表于 11-13 17:40 519次阅读

    NVIDIA Isaac Lab多GPU多节点训练指南

    NVIDIA Isaac Lab 是一个适用于机器人学习的开源统一框架,基于 NVIDIA Isaac Sim 开发,其模块化高保真仿真适用于各种训练环境,可提供各种物理 AI 功能和由 GPU 驱动的物理仿真,缩小仿真与现实世
    的头像 发表于 09-23 17:15 1974次阅读
    <b class='flag-5'>NVIDIA</b> Isaac Lab多<b class='flag-5'>GPU</b>多节点训练指南

    Supermicro开始大批量交付NVIDIA Blackwell Ultra系统和机架即插即用数据中心级解决方案

    Supermicro, Inc.(纳斯达克股票代码:SMCI)是人工智能、云、存储和 5G/边缘的整体 IT 解决方案提供商,今天宣布其 NVIDIA Blackwell Ultra 解决方案已全面
    的头像 发表于 09-17 17:00 627次阅读

    NVIDIA RTX PRO 4500 Blackwell GPU测试分析

    今天我们带来全新 NVIDIA Blackwell 架构 GPU —— NVIDIA RTX PRO 4500 Blackwell 的测试,对比上一代产品 NVIDIA RTX 450
    的头像 发表于 08-28 11:02 2869次阅读
    <b class='flag-5'>NVIDIA</b> RTX PRO 4500 Blackwell <b class='flag-5'>GPU</b>测试分析

    NVIDIA桌面GPU系列扩展新产品

    NVIDIA 桌面 GPU 系列扩展,推出 NVIDIA RTX PRO 4000 SFF Edition GPU 和 RTX PRO 2000 Blackwell
    的头像 发表于 08-18 11:50 995次阅读

    亚马逊基于NVIDIA技术实现创新型制造解决方案

    基于 NVIDIA 技术构建的创新型制造解决方案,使机械臂能够实现设备自主检测,并能将新产品无缝整合到生产线中。
    的头像 发表于 08-18 11:44 1635次阅读

    Ansys使用NVIDIA技术优化CFD仿真解决方案

    领先的解决方案提供商正在使用 OpenUSD、RTX 和 NVIDIA Blackwell 实现实时物理数字孪生。
    的头像 发表于 08-05 16:08 1209次阅读

    风扇灯PCBA方案开发原理及介绍

    致力于成为无刷马达驱动行业的“小巨人”,为智能制造提供高性价比解决方案。——深圳其利天下随着人们对高品质生活的不断追求,风扇灯需求量激增,成为家电行业中不可忽视的一部分。下面,我们一起探讨风扇灯在家
    的头像 发表于 06-11 15:05 549次阅读
    <b class='flag-5'>风扇</b>灯PCBA<b class='flag-5'>方案</b>开发原理及介绍

    利用NVIDIA技术构建从数据中心到边缘的智慧医院解决方案

    全球领先的电子制造商正在利用 NVIDIA 技术,构建从数据中心到边缘的智慧医院解决方案
    的头像 发表于 05-22 09:50 727次阅读

    使用NVIDIA RTX PRO Blackwell系列GPU加速AI开发

    NVIDIA GTC 推出新一代专业级 GPU 和 AI 赋能的开发者工具—同时,ChatRTX 更新现已支持 NVIDIA NIM,RTX Remix 正式结束测试阶段,本月的 NVIDIA
    的头像 发表于 03-28 09:59 1071次阅读

    0xmd公司通过NVIDIA GPU打造医疗AI解决方案

    本案例中,0xmd 公司通过 NVIDIA GPU 打造医疗 AI 解决方案,覆盖影像分析和文本解读等领域。
    的头像 发表于 01-14 16:23 898次阅读

    NVIDIA技术助力Pantheon Lab数字人实时交互解决方案

    本案例中,Pantheon Lab(万想科技)专注于数字人技术解决方案,通过 NVIDIA 技术实现数字人实时对话与客户互动交流。借助 NVIDIA GPU
    的头像 发表于 01-14 11:19 920次阅读

    NVIDIA和GeForce RTX GPU专为AI时代打造

    NVIDIA 和 GeForce RTX GPU 专为 AI 时代打造。
    的头像 发表于 01-06 10:45 1244次阅读

    《CST Studio Suite 2024 GPU加速计算指南》

    的各个方面,包括硬件支持、操作系统支持、许可证、GPU计算的启用、NVIDIA和AMD GPU的详细信息以及相关的使用指南和故障排除等内容。 1. 硬件支持 - NVIDIA
    发表于 12-16 14:25