最近在看 K8s 的发布链路,发现一个挺现实的问题:发布失败以后,每个人下手的位置不太一样。 有人先翻 CI ,看是不是镜像没打出来;有人先看 Helm / Argo CD ,确认资源有没有真正下到集群;也有人直接 kubectl describe pod ,先扫 Events 、Pod 状态、Deployment ;还有人第一反应是去看业务日志。 我有点纠结的是:第一步到底该先确认发布动作有没有真正执行成功,还是直接进集群看 Pod 为什么没起来。 大家平时遇到这种发布失败,一般第一步看哪里? 有固定顺序吗,还是看报错现象临时判断? k8s, 发布, 故障
kubernetes 资源是互相联系的,从顶层看起,比如 deployment >> replicaset >> pod >> container ,既要看 kubernetes 事件,也要看日志。 不要无脑给 ai 所有权限让 ai 全权控制你的 k8s 集群,出了问题你没法甩锅给 ai 。可以把你认为可疑的但又不理解的信息丢给 ai 。