群晖/PVE/ Linux 系统死机如何最小代价的排查问题,每次运行五天后不定时死机。悬赏一包玉溪,采纳后我会 @,先在此谢过了。

查看 232|回复 28
作者:ajaxgoldfish   
本来攒了个 nas 之后挺高兴的,没想到总是死机,每次死机周期还挺长,已经好几次持续数月了。
死机现象
  • 硬盘灯不闪,但是亮
  • 路由器显示设备离线
  • 插屏幕和键鼠没用,没反应
  • 电源灯还亮

    硬件
  • 双 16g 内存,粤虎 ddr4 2666
  • cpu 8100t
  • 系统,尝试过 pve ,群晖,这两个均是一样的现象
  • 系统日志,和 dmesge 均没有有效日志,每次死机的日志都是不同的上下位。
  • 电源 150w 。
  • 硬盘 16t hc550

    尝试过的方法
  • 更新 bios 微码
  • 换系统,从 pve 换到物理机直接装群晖
  • 跑 memtest86 测试,均通过

    实在是没招儿了,求助各位专家,如果先换硬件的话先换什么呢
  • alfawei   
    内存条换一个看看
    群晖不管黑白都非常非常稳定
    memorybox   
    第一反应是内存; 两根内存留一根,挨个试试?
    Puteulanus   
    蹲一个,我朋友那的 x86 软路由也是隔一段时间随机死,为了避免死机都设置成每天定时重启了,现在比较怀疑的是内存,其次是电源,因为工控机 CPU 取不下来(狗头)
    ajaxgoldfish
    OP
      
    @memorybox 嗯嗯,目前准备拔一根试试
    ScotGu   
    早年间把 PCIE3.0*8 的万兆网卡 插到 PCIE3.0 X4 (物理槽是 X8 的),也挂过。
    happyn   
    如果是 PVE 的话,我碰上过网卡负载大的时候自动重启的问题,解决方法参考这里:
    https://forum.proxmox.com/threads/e1000-driver-hang.58284/page-8#post-390709
    zhixiao   
    我之前也有过会死机的情况,后来发现主板纽扣电池没电了,换了个就再也没出现了
    caltong   
    内存没问题的话就换主板吧,顺带买张诊断卡,到时候方便排查具体卡点。
    ningfan120   
    NAS 的话,还要考虑有没有那个应用持续吃内存,把内存爆掉了,然后就会死机了。
    您需要登录后才可以回帖 登录 | 立即注册

    返回顶部