聊一聊程序员遇见的生产环境事故以及如何处理定位的?

查看 235|回复 17
ppboyhai
OP
  
@guanzhangzhang 超级赞
proxychains   
RAID 卡开了 write back, 但是时间就阵列卡电池没电了, 服务器无法连接后, 尝试强制关机. 结果数据丢了.
不过还好找回了一部分. 从那以后打死不开 write back. :(
proxychains   
@proxychains 时间久阵列卡电池没电了. 抱歉打错了字
rrfeng   
redis 用的太狠,网卡打爆了……死活查不到为啥 get 超时。
Pantheoon   
redis 锁不是原子的,加上锁以后没有自动删掉,导致后面同样的一个 key 再也加不上,这个问题搞了一天,找 dba 拉了很多 redis 执行的数据,最后发现有几个 key 线上没有设置超时时间,再一看代码,那个 redis lock set key 和 expire 是两条命令
demoBastard   
每天内存不断增大,但是不是栈内内存而是堆外内存,线上排查。。。
adoal   
上级信息管理部门买的蜜罐服务器忘了把我们的 Oracle RAC 服务器的 IP 地址排除出去,然后抢了其中一个拿来搞伪装…于是我们业务系统有半数访问堵死,半数正常。夜里 10 点,供应商的国内技术支持人员都不在岗,转给另一半球大头朝下倒立着的老外工程师远程连线排查。
ppboyhai
OP
  
@demoBastard 线上排查 有尝试过阿里的 arthas 工具么
您需要登录后才可以回帖 登录 | 立即注册

返回顶部