K8s 发布失败后,大家第一眼先看哪?

查看 81|回复 10
作者:EthanWalkerTech   
最近在看 K8s 的发布链路,发现一个挺现实的问题:发布失败以后,每个人下手的位置不太一样。
有人先翻 CI ,看是不是镜像没打出来;有人先看 Helm / Argo CD ,确认资源有没有真正下到集群;也有人直接 kubectl describe pod ,先扫 Events 、Pod 状态、Deployment ;还有人第一反应是去看业务日志。
我有点纠结的是:第一步到底该先确认发布动作有没有真正执行成功,还是直接进集群看 Pod 为什么没起来。
大家平时遇到这种发布失败,一般第一步看哪里?
有固定顺序吗,还是看报错现象临时判断?

k8s, 发布, 故障

owt5008137   
打开 AI ,帮我诊断。。。(🐶
cheng6563   
k8s 发布不就是跑命令吗,所以 claude code 一把嗦。
pollux   
不是先看日志吗?
beyondstars   
kubernetes 资源是互相联系的,从顶层看起,比如 deployment >> replicaset >> pod >> container ,既要看 kubernetes 事件,也要看日志。
不要无脑给 ai 所有权限让 ai 全权控制你的 k8s 集群,出了问题你没法甩锅给 ai 。可以把你认为可疑的但又不理解的信息丢给 ai 。
Mystery0   
不是应该看报错信息吗
momocraft   
想想怎么让自己不用想
hackroad   
每个动作不应该埋点日志?失败了通知对应的动作?
seers   
当然是从最底下开始一层层往上了,从现象倒推是最快的
weiwenhao   
原则上是先看失败日志,一般都是让 cladue 直接操作 kubectl 帮我分析,cladue 都会让我审批我看命令是查询相关的就直接通过。
您需要登录后才可以回帖 登录 | 立即注册

返回顶部