最近有台四卡服务器在使用时,经常出现以下错误:
Unable to determine the device handle for GPU 0000:05:00.0: GPU is lost. Reboot the system to recover this GPU
据调查,此现象通常出现于batch size过大时,改小再运行,就会出现这个问题。
解决方案:
初步断定是GPU频繁启停问题,所以进行永久化:
sudo nvidia-smi -pm 1
目前测试良好。
|
1 2 3 4 5 6 7 |
sipl@sipl:~$ sudo nvidia-smi -pm 1 [sudo] password for sipl: Enabled persistence mode for GPU 00000000:05:00.0. Enabled persistence mode for GPU 00000000:06:00.0. Enabled persistence mode for GPU 00000000:09:00.0. Enabled persistence mode for GPU 00000000:0A:00.0. All done. |
此操作每次重启后失效,所以建议写进/etc/rc.local设置开机自启。






最新评论
站长您好,亚马逊云咨询推广资源,望建立联系,可邮件,谢谢。
换友情链接吗?
看你的站做的挺不错的
恭喜!!太强了,硕博连读啊
雁过留毛,人过留名。
看不懂但大受震撼
每天都在战争,希望2026和平.
ZeroTier 看过多篇帖子,目前群辉、飞牛os、win11 、安卓、ubuntu ≥18.04 顺利通过,这篇相对于简单 实用、特来感谢 🙄