聊一聊程序员遇见的生产环境事故以及如何处理定位的?

查看 179|回复 17
作者:ppboyhai   
这么多年程序员生涯各位大佬都遇见哪些生产事故?是否经历过事故后客户无休止电话轰炸与追问,是如何顶住压力解决生产事故的,都来唠嗑
首先说说我这边,曾经某一个周六,三个生产环境同一天崩溃,压力瞬间铺面而来,老板接到客户的电话一个接着一个。那瞬间真是需要莫大的心里承受能力。
三个生产环境的崩溃分别是:
1 、生产服务器遇到了 DDOS 攻击
2 、生产数据库参数被某某修改,查询贼拉拉慢,各种请求超时
3 、前端 Nginx 转发异常,请求各种不通
各位大佬还遇见哪些生产环境事故,是自己动手解决的还是呼叫炮火支援的

生产, 事故, 遇见, 程序员

ppboyhai
OP
  
推出这个主题,主要还是想交流下经验,看是否有必要在 github 上开通个项目,来聊一聊职业生涯中的那种突发事件与解决方案
chenqh   
count(*)数据量太多卡住了
chenqh   
请求远程 http 请求没有重试,网络波动超时了
chenqh   
tornado redis 没用异步,lock 把,结果因为 lock 执行的时间太长把进程卡住了
ppboyhai
OP
  
@chenqh 这个很典型
xyloading   
机房断电,iptables 规则被重置,导致服务网络通讯异常
chenqh   
再来个 celery 如果使用 redis 做 broker 的话,如果长时间没有消息的话, celery worker 就不再工作了
guanzhangzhang   
https://zhangguanzhang.github.io/ 😁我日常遇到和处理的问题基本都会写成博客,不喜欢写那种纯理论的文章
ppboyhai
OP
  
@xyloading 这个是内伤,哈哈哈
您需要登录后才可以回帖 登录 | 立即注册

返回顶部