我的 k8s 集群又双叒叕挂了😅

作者：BeautifulSoap 发布时间：2023-8-14 20:02:05

不知道自己的集群是第几次挂了😪而且每次总有不同的原因导致集群挂掉
这次是自己一台 2T 的服务器（主节点之一）剩余空间在低于 200G 的时候，触发了节点的 disk pressure （ k8s 默认剩余 10%就触发。。。。。）。然后这台服务器上所有 pods 状态都变为 Eviction 全部被驱逐，然后就成了 pod 被驱逐，又创建的循环。等注意到的时候，集群已经出现了 5000 多个 Eviction 的 pods 。（ PS：这时候我的集群都还有反应
更改 kubelet 参数，将触发的限制从磁盘剩余 10%改成 10GiB 后本以为就恢复了，但是不知为什么更改之后集群直接就挂了（ kubectl 提示服务未运行）。因为我是多主节点，于是连上另一台主节点想看看什么情况，另一台主节点上输入 kubectl get nodes 后直接卡死，没法获得信息，并且这台主节点机器还 cpu 占用 100%（得亏我这台主节点 vps 是跑在 OVH 上的，要是其他提供商这样占用 cpu 估计直接就把我机器封了）。说好的 k8s 多主节点高可用呢？怎么你一台主节点炸了整个集群都炸了？
然后看看 2T 的主节点执行 log ，似乎是 etcd 不明原因启动错误，折腾半天才好。自建 k8s 集群后这一年多最大感觉就是累感不爱，k8s 这东西的复杂真不是人类可以掌握，不是专心运维的话坑太多，这玩意存在在世上真的能让更多人变得幸福吗

节点, 集群, k8s, eviction