我这显卡是不是坏了

查看 53|回复 6
作者:sty   
$ nvidia-smi
Unable to determine the device handle for GPU0000:01:00.0: Unknown Error
之前用一个 7b 的模型做推理,连续用了 20 多个小时。后面就不间断出现这个错误了,但是一重启就好了,是不是显卡硬件坏了?
GoRoad   
不是工业级的显卡,长时间用可能会出现各种问题,要是重启后能正常,那大概率还没坏 可能是过热之类了
sty
OP
  
@GoRoad 一周多了,每天都得重启,更新了一下驱动也没用。有没有可能是某些区块坏了,要跑一段时间才能碰到坏的区块
DigitalG   
“不间断”,是间隔多久?重启就好的话,我遇到过,有可能是 nvidia driver 自动更新导致的。可以看看 driver 版本是不是比那了,或者去系统日志里看看。再配置关闭自动更新。
HojiOShi   
用的啥显卡,是不是矿卡啊。
sty
OP
  
@DigitalG 坏了之后,driver 我自己更新过了。在使用的时候没报错,比如我跑 3 个小时的训练,能跑完。反而是空闲的时候就报上面这个错。一天 1 到 2 次吧,每天都有
sty
OP
  
@HojiOShi 3090ti ,买了三年多了不咋用,最近 3 个月开始用的
您需要登录后才可以回帖 登录 | 立即注册

返回顶部