于是去年年底购入了 16 块,16TB 的 toshiba ,型号 MN08ACA16T/jp 。
日本国内质保 3 年,免费换新。
售后挺好的。但是噩梦来了。
去年 9 月购入,然后装机,上机架,系统设置,一气呵成。
15 盘 RAID10 ,+1 备用盘。合计 109T 可用空间。
然后做了 1 个月测试,没发现问题。
然后将业务数据移动到新服务器上。
正常开始跑业务。
也就是公司内部的作画 psd ,摄影 ae 做影片到处 mov 等数据在传输。
接下来 11 月开始卡了。
各种卡,表现为 smbd 或者 flush 进程 100%。
硬盘 io 全为 0.
甚至 dmesg 都出现内核恐慌了。
分析了下就是写入硬盘,然后没了。
等待 30-300s 随机时间,硬盘写入恢复。
怀疑写入遇到坏块了。
smartctl 测试走起。
好家伙,16 块盘,有 6 块报坏块。
不得不说,日本经销商态度可以。
马上 [私密马赛,私密马赛,私密马赛]
我们给你换。
换货邮费还是经销商全包。
甚至提供先发货,我再退货的服务。
换货之后
陆续小卡,恢复时间很短,基本上 10s 内。
而且 SMART 也不报错,smartctl -t long 测试也能无错通过。
我就放置了。
24 年 1 月 12 日,
又开始了,超级大卡。
这次恢复时间居然超出了 600s ,
所有含写入的进程都在内核恐慌。
dmesg 拉了 300 多行.
关键是这个一卡,公司业务全部要暂停,
硬盘写入读取完全无响应。
同事翘脚抱怨,我就只能打哈哈调试。
之后从 12 日开始到今天 18 日,
每天都有十来次卡顿,
30s-120s 才能恢复。
关键是 SMART 不报错。
日嘛,头都大了。
你要是报错,我就把你提出来找经销商换新啊。
你啥错误都不报,smartctl test 还能正常无错通过。
但是就是卡,简直要了我的狗命。
老板问,为啥服务器又卡了。
我,硬盘可能又坏块,要坏了。
老板,那找厂家换吧。
我,硬盘没报错,暂时还不能保修换新。
老板,你 TM 拿我开心啊,给我去解决这个问题。
我,打工人乖乖退下。
mb 东芝硬盘,
现在虽然偶尔卡顿,但是每天业务还在进行。
我又不能现在卸载硬盘来跑个完整的写入测试。
求问各路大佬有没有什么办法。
任何方法都可以尝试。
真心求问。