马春杰杰博客
致力于深度学习经验分享!

Unable to determine the device handle for GPU 0000:05:00.0: GPU is lost. Reboot the system to recover this GPU

最近有台四卡服务器在使用时,经常出现以下错误:

Unable to determine the device handle for GPU 0000:05:00.0: GPU is lost. Reboot the system to recover this GPU

据调查,此现象通常出现于batch size过大时,改小再运行,就会出现这个问题。

解决方案:

初步断定是GPU频繁启停问题,所以进行永久化:

sudo nvidia-smi -pm 1

目前测试良好。

此操作每次重启后失效,所以建议写进/etc/rc.local设置开机自启。

 

如果你对这篇文章有什么疑问或建议,欢迎下面留言提出,我看到会立刻回复!

打赏
未经允许不得转载:马春杰杰 » Unable to determine the device handle for GPU 0000:05:00.0: GPU is lost. Reboot the system to recover this GPU
超级便宜的原生ChatGPT4.0

留个评论吧~ 抢沙发 评论前登陆可免验证码!

私密评论
  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址(选填,便于回访^_^)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

登录

忘记密码 ?

切换登录

注册