马春杰杰博客
致力于深度学习经验分享!

Unable to determine the device handle for GPU 0000:05:00.0: GPU is lost. Reboot the system to recover this GPU

最近有台四卡服务器在使用时,经常出现以下错误:

Unable to determine the device handle for GPU 0000:05:00.0: GPU is lost. Reboot the system to recover this GPU

据调查,此现象通常出现于batch size过大时,改小再运行,就会出现这个问题。

解决方案:

初步断定是GPU频繁启停问题,所以进行永久化:

sudo nvidia-smi -pm 1

目前测试良好。

此操作每次重启后失效,所以建议写进/etc/rc.local设置开机自启。

 

赞(322) 打赏
版权声明:本文采用知识共享 署名4.0国际许可协议 [BY-NC-SA] 进行授权
文章名称:《Unable to determine the device handle for GPU 0000:05:00.0: GPU is lost. Reboot the system to recover this GPU》
文章链接:https://www.machunjie.com/linux/1542.html
本站资源仅供个人学习交流,请于下载后24小时内删除,不允许用于商业用途,否则法律问题自行承担。

评论 抢沙发

觉得文章有用就打赏一下文章作者

非常感谢你的打赏,我们将继续提供更多优质内容,让我们一起创建更加美好的网络世界!

支付宝扫一扫

微信扫一扫

:smile: :sad: :arrow: :cool: :confused: :cry: :eek: :evil: :exclaim: :idea: :lol: :mad: :mrgreen: :neutral: :question: :razz: :redface: :rolleyes: :surprised: :wink: :biggrin: :twisted: