0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Nvidia GPU的风扇和电源报错解决方案

454398 来源:网络整理 作者:胡里糊涂 2020-10-05 07:36 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

问题

最近在Ubuntu上使用Nvidia GPU训练模型的时候,没有问题,过一会再训练出现非常卡顿,使用nvidia-smi查看发现,显示GPU的风扇和电源报错:

解决方案

自动风扇控制

在nvidia论坛有人给出了解决方案,即问题的根源可能是风扇转速不足使GPU过热导致的。

首先开启GPU的persistent mode,再设置风扇的功率,重启即可生效。其中250代表的是风扇的最大功率限制,可以将其设置为最大,这样过热的时候风扇就会自动加大功率。

sudo nvidia-smi -pm 1

sudo nvidia-smi -pl 250

手动风扇控制

此外,还可以将GPU风扇的手动风速控制打开。方法为:

首先,使用sudo nvidia-xconfig --enable-all-gpus命令打开所有gpu在xserver中的设置(不使用sudo可能无权限写入新配置)

然后修改配置文件:sudo vim /etc/X11/xorg.conf,在其中的DeviceSection中加入Option “Coolbits” “4”如下图所示:

如果机器上有多块gpu,在第一步命令执行后,会在这个xorg.conf中出现多个DeviceSection,都依次执行第三步操作

重启机器后,命令行执行nvidia-settings,会打开设置界面,在其中的会显示所有GPU的设置选项,每个GPU控制选项下面都有一个Thermal settings,进入后打开enable GPU Fan Setting即可对风扇进行手动风速调整了。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5685

    浏览量

    110111
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5271

    浏览量

    136060
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    NVIDIA向Kubernetes社区捐赠动态资源分配GPU驱动程序

    此外,NVIDIA 在 KubeCon Europe 大会上宣布推出适用于 GPU 加速工作负载的机密容器解决方案NVIDIA KAI Scheduler 更新,以及用于实现大规模
    的头像 发表于 04-01 09:10 710次阅读

    MAX17409:高性能GPU电源控制利器

    ™降压VID电源控制器,为高性能GPU供电提供了理想解决方案。下面我将详细介绍这款控制器的特点、工作原理、设计要点以及应用信息,希望能为各位工程师的设计工作提供有价值的参考。 文件下载: MAX17409.pdf 1. 产品概述
    的头像 发表于 03-17 14:20 179次阅读

    借助NVIDIA CUDA Tile IR后端推进OpenAI Triton的GPU编程

    NVIDIA CUDA Tile 是基于 GPU 的编程模型,其设计目标是为 NVIDIA Tensor Cores 提供可移植性,从而释放 GPU 的极限性能。CUDA Tile 的
    的头像 发表于 02-10 10:31 515次阅读

    揭秘TEE深度休眠唤醒“低概率报错”:从概念到解决方案的全解析

    在嵌入式与物联网设备的底层技术领域,TEE(可信执行环境) 是保障系统安全的关键组件之一。但在 RK3562、RK3588 等芯片的深度休眠唤醒场景中,却出现了一类 “低概率却影响致命” 的报错问题。今天我们就从概念入手,一步步拆解问题、剖析解决方案
    的头像 发表于 02-09 16:37 331次阅读
    揭秘TEE深度休眠唤醒“低概率<b class='flag-5'>报错</b>”:从概念到<b class='flag-5'>解决方案</b>的全解析

    NVIDIA RTX PRO 5000 Blackwell GPU的深度评测

    NVIDIA RTX PRO 5000 Blackwell 是 NVIDIA RTX 5000 Ada Generation 的升级迭代产品,其各项核心指标均针对 GPU 加速工作流的高性能
    的头像 发表于 01-06 09:51 3981次阅读
    <b class='flag-5'>NVIDIA</b> RTX PRO 5000 Blackwell <b class='flag-5'>GPU</b>的深度评测

    NVIDIA RTX PRO 4000 Blackwell GPU性能测试

    Generation 的全面超越。那么,这款划时代的专业 GPU 在真实应用场景中的表现究竟如何?今天,我们将通过深度实测,为您揭晓 NVIDIA RTX PRO 4000 Blackwell 相较于前代产品的性能跃迁。
    的头像 发表于 12-29 15:30 1830次阅读
    <b class='flag-5'>NVIDIA</b> RTX PRO 4000 Blackwell <b class='flag-5'>GPU</b>性能测试

    在Python中借助NVIDIA CUDA Tile简化GPU编程

    NVIDIA CUDA 13.1 版本新增了基于 Tile 的GPU 编程模式。它是自 CUDA 发明以来 GPU 编程最核心的更新之一。借助 GPU tile kernels,可以用
    的头像 发表于 12-13 10:12 1413次阅读
    在Python中借助<b class='flag-5'>NVIDIA</b> CUDA Tile简化<b class='flag-5'>GPU</b>编程

    NVIDIA RTX PRO 2000 Blackwell GPU性能测试

    越来越多的应用正在使用 AI 加速,而无论工作站的大小或形态如何,都有越来越多的用户需要 AI 性能。NVIDIA RTX PRO 2000 Blackwell 是全新 NVIDIA
    的头像 发表于 11-28 09:39 6979次阅读
    <b class='flag-5'>NVIDIA</b> RTX PRO 2000 Blackwell <b class='flag-5'>GPU</b>性能测试

    上位机报错2033问题处理方案

    解决方案三个维度,系统性地分析该问题的处理流程。 一、错误机理深度解析 报错2033的本质是内存地址访问冲突,通常发生在以下场景: 1. 指针越界操作:当程序试图通过指针访问未被分配的内存区域时(如数组越界或空指针解引用),
    的头像 发表于 11-13 17:40 1061次阅读

    NVIDIA RTX PRO 4500 Blackwell GPU测试分析

    今天我们带来全新 NVIDIA Blackwell 架构 GPU —— NVIDIA RTX PRO 4500 Blackwell 的测试,对比上一代产品 NVIDIA RTX 450
    的头像 发表于 08-28 11:02 4349次阅读
    <b class='flag-5'>NVIDIA</b> RTX PRO 4500 Blackwell <b class='flag-5'>GPU</b>测试分析

    NVIDIA桌面GPU系列扩展新产品

    NVIDIA 桌面 GPU 系列扩展,推出 NVIDIA RTX PRO 4000 SFF Edition GPU 和 RTX PRO 2000 Blackwell
    的头像 发表于 08-18 11:50 1635次阅读

    亚马逊基于NVIDIA技术实现创新型制造解决方案

    基于 NVIDIA 技术构建的创新型制造解决方案,使机械臂能够实现设备自主检测,并能将新产品无缝整合到生产线中。
    的头像 发表于 08-18 11:44 2140次阅读

    Ansys使用NVIDIA技术优化CFD仿真解决方案

    领先的解决方案提供商正在使用 OpenUSD、RTX 和 NVIDIA Blackwell 实现实时物理数字孪生。
    的头像 发表于 08-05 16:08 1668次阅读

    风扇灯PCBA方案开发原理及介绍

    致力于成为无刷马达驱动行业的“小巨人”,为智能制造提供高性价比解决方案。——深圳其利天下随着人们对高品质生活的不断追求,风扇灯需求量激增,成为家电行业中不可忽视的一部分。下面,我们一起探讨风扇灯在家
    的头像 发表于 06-11 15:05 549次阅读
    <b class='flag-5'>风扇</b>灯PCBA<b class='flag-5'>方案</b>开发原理及介绍

    利用NVIDIA技术构建从数据中心到边缘的智慧医院解决方案

    全球领先的电子制造商正在利用 NVIDIA 技术,构建从数据中心到边缘的智慧医院解决方案
    的头像 发表于 05-22 09:50 1170次阅读