最近有台四卡服务器在使用时,经常出现以下错误:
Unable to determine the device handle for GPU 0000:05:00.0: GPU is lost. Reboot the system to recover this GPU
据调查,此现象通常出现于batch size
过大时,改小再运行,就会出现这个问题。
解决方案:
初步断定是GPU
频繁启停问题,所以进行永久化:
sudo nvidia-smi -pm 1
目前测试良好。
1 2 3 4 5 6 7 |
sipl@sipl:~$ sudo nvidia-smi -pm 1 [sudo] password for sipl: Enabled persistence mode for GPU 00000000:05:00.0. Enabled persistence mode for GPU 00000000:06:00.0. Enabled persistence mode for GPU 00000000:09:00.0. Enabled persistence mode for GPU 00000000:0A:00.0. All done. |
此操作每次重启后失效,所以建议写进/etc/rc.local
设置开机自启。
aaaaa 我
我的也是
好
我的也是
我备用机6s可以随便搞,15.1的系统,但是这机器太难受了
slideserver估计是官网挂了,我用他们的最新版,安装ipa会有问题
答辩加油 顺利毕业
自己回复一下自己,亲测可以,我捣鼓了好久,用虚拟机跑mac再安装slideserver,最后也有问题,安装ipa会卡死,换成altstore直接一次成功