运维平时工作到底是需要小心一些,还是要大胆主动一些?

查看 71|回复 5
作者:zhoudaiyu   
之前我是比较主动的,针对于已经发生的问题,甚至是隐患,都会主动想办法解决,避免更大的故障。但是最近由于生产迁移 kafka 时,对 kafka 的客户端基础包不了解,以及对业务方使用上不了解(虽然已经对操作进行了评估),导致了 2 次故障。事后想其实不迁移也不是不行,并没有非常明显的证据表明非迁移不可(唯一风险可能就是集群的每台机器 CPU 使用率都在 90%以上)。这两次故障对我的技术上和对于运维的认识有一些冲击,我不再想主动解决问题了,而是更倾向于生产系统能不动就千万别动,真的迫不得已或者故障已经发生再去处理吧。因为系统确实越来越复杂,个人、甚至叫上了各方负责人也不一定能评估出风险,还不如先不动。

故障, Kafka, 迁移, 主动

Tumblr   
该小心的时候要小心,该大胆的时候要大胆。
对于一些可能明显影响到业务的变更,组内讨论之后让领导拍板。
brom111   
说句实话 问题你可以提,但是解决不一定非要解决。把风险说好,让你们总监他们去评估呗。
alexsz   
能不动就不动----少走 10 年弯路 😁
gxy2825   
猜测 OP 不是在比较大型的公司,我司也类似这思路,运维不太会去主动推进一些中间件、架构上的改变或者升级,基本都是开发侧评估确实快到非升不可的时候由开发去推进,运维只是配合
gxy2825   
@gxy2825 个人偏激一点的看法是运维属于做了很多事不容易让人看到功劳,一旦出错了就会被各方指责(当然开发也类似)
您需要登录后才可以回帖 登录 | 立即注册

返回顶部