问题
最近在Ubuntu上使用Nvidia GPU训练模型的时候,没有问题,过一会再训练出现非常卡顿,使用nvidia-smi查看发现,显示GPU的风扇和电源报错:

解决方案
自动风扇控制
在nvidia论坛有人给出了解决方案,即问题的根源可能是风扇转速不足使GPU过热导致的。
首先开启GPU的persistent mode,再设置风扇的功率,重启即可生效。其中250代表的是风扇的最大功率限制,可以将其设置为最大,这样过热的时候风扇就会自动加大功率。
sudo nvidia-smi -pm 1
sudo nvidia-smi -pl 250
手动风扇控制
此外,还可以将GPU风扇的手动风速控制打开。方法为:
首先,使用sudo nvidia-xconfig --enable-all-gpus命令打开所有gpu在xserver中的设置(不使用sudo可能无权限写入新配置)
然后修改配置文件:sudo vim /etc/X11/xorg.conf,在其中的DeviceSection中加入Option “Coolbits” “4”如下图所示:

如果机器上有多块gpu,在第一步命令执行后,会在这个xorg.conf中出现多个DeviceSection,都依次执行第三步操作
重启机器后,命令行执行nvidia-settings,会打开设置界面,在其中的会显示所有GPU的设置选项,每个GPU控制选项下面都有一个Thermal settings,进入后打开enable GPU Fan Setting即可对风扇进行手动风速调整了。
-
NVIDIA
+关注
关注
14文章
5496浏览量
109085 -
gpu
+关注
关注
28文章
5099浏览量
134451
发布评论请先 登录
NVIDIA RTX PRO 2000 Blackwell GPU性能测试
上位机报错2033问题处理方案
NVIDIA Isaac Lab多GPU多节点训练指南
Supermicro开始大批量交付NVIDIA Blackwell Ultra系统和机架即插即用数据中心级解决方案
NVIDIA RTX PRO 4500 Blackwell GPU测试分析
NVIDIA桌面GPU系列扩展新产品
亚马逊基于NVIDIA技术实现创新型制造解决方案
Ansys使用NVIDIA技术优化CFD仿真解决方案
风扇灯PCBA方案开发原理及介绍

Nvidia GPU的风扇和电源报错解决方案
评论