最近有台四卡服务器在使用时,经常出现以下错误:
Unable to determine the device handle for GPU 0000:05:00.0: GPU is lost. Reboot the system to recover this GPU
据调查,此现象通常出现于batch size
过大时,改小再运行,就会出现这个问题。
解决方案:
初步断定是GPU
频繁启停问题,所以进行永久化:
sudo nvidia-smi -pm 1
目前测试良好。
1 2 3 4 5 6 7 |
sipl@sipl:~$ sudo nvidia-smi -pm 1 [sudo] password for sipl: Enabled persistence mode for GPU 00000000:05:00.0. Enabled persistence mode for GPU 00000000:06:00.0. Enabled persistence mode for GPU 00000000:09:00.0. Enabled persistence mode for GPU 00000000:0A:00.0. All done. |
此操作每次重启后失效,所以建议写进/etc/rc.local
设置开机自启。
最新评论
看看可不可用
还有macapp.org.cn macwk.cn
大佬,IOS17.1能用吗?
没安装桌面的时候就有网,安了就没有了
可是安装好了没有网啊,怎么办大佬
您好,我这边需要跟您沟通下亚马逊云科技文章合作事宜,您看可以加个微信,详聊一下嘛
感谢分享。。。
试一下好用不,顺便感谢下