问题
最近在Ubuntu上使用Nvidia GPU训练模型的时候,没有问题,过一会再训练出现非常卡顿,使用nvidia-smi查看发现,显示GPU的风扇和电源报错:

解决方案
自动风扇控制
在nvidia论坛有人给出了解决方案,即问题的根源可能是风扇转速不足使GPU过热导致的。
首先开启GPU的persistent mode,再设置风扇的功率,重启即可生效。其中250代表的是风扇的最大功率限制,可以将其设置为最大,这样过热的时候风扇就会自动加大功率。
sudo nvidia-smi -pm 1
sudo nvidia-smi -pl 250
手动风扇控制
此外,还可以将GPU风扇的手动风速控制打开。方法为:
首先,使用sudo nvidia-xconfig --enable-all-gpus命令打开所有gpu在xserver中的设置(不使用sudo可能无权限写入新配置)
然后修改配置文件:sudo vim /etc/X11/xorg.conf,在其中的DeviceSection中加入Option “Coolbits” “4”如下图所示:

如果机器上有多块gpu,在第一步命令执行后,会在这个xorg.conf中出现多个DeviceSection,都依次执行第三步操作
重启机器后,命令行执行nvidia-settings,会打开设置界面,在其中的会显示所有GPU的设置选项,每个GPU控制选项下面都有一个Thermal settings,进入后打开enable GPU Fan Setting即可对风扇进行手动风速调整了。
-
NVIDIA
+关注
关注
14文章
5685浏览量
110111 -
gpu
+关注
关注
28文章
5271浏览量
136060
发布评论请先 登录
NVIDIA向Kubernetes社区捐赠动态资源分配GPU驱动程序
MAX17409:高性能GPU的电源控制利器
借助NVIDIA CUDA Tile IR后端推进OpenAI Triton的GPU编程
揭秘TEE深度休眠唤醒“低概率报错”:从概念到解决方案的全解析
NVIDIA RTX PRO 5000 Blackwell GPU的深度评测
NVIDIA RTX PRO 4000 Blackwell GPU性能测试
在Python中借助NVIDIA CUDA Tile简化GPU编程
NVIDIA RTX PRO 2000 Blackwell GPU性能测试
上位机报错2033问题处理方案
NVIDIA RTX PRO 4500 Blackwell GPU测试分析
NVIDIA桌面GPU系列扩展新产品
亚马逊基于NVIDIA技术实现创新型制造解决方案
Ansys使用NVIDIA技术优化CFD仿真解决方案
风扇灯PCBA方案开发原理及介绍
Nvidia GPU的风扇和电源报错解决方案
评论