之前我是比较主动的,针对于已经发生的问题,甚至是隐患,都会主动想办法解决,避免更大的故障。但是最近由于生产迁移 kafka 时,对 kafka 的客户端基础包不了解,以及对业务方使用上不了解(虽然已经对操作进行了评估),导致了 2 次故障。事后想其实不迁移也不是不行,并没有非常明显的证据表明非迁移不可(唯一风险可能就是集群的每台机器 CPU 使用率都在 90%以上)。这两次故障对我的技术上和对于运维的认识有一些冲击,我不再想主动解决问题了,而是更倾向于生产系统能不动就千万别动,真的迫不得已或者故障已经发生再去处理吧。因为系统确实越来越复杂,个人、甚至叫上了各方负责人也不一定能评估出风险,还不如先不动。 故障, Kafka, 迁移, 主动