我的 k8s 集群又双叒叕挂了😅

查看 101|回复 11
作者:BeautifulSoap   
不知道自己的集群是第几次挂了😪而且每次总有不同的原因导致集群挂掉
这次是自己一台 2T 的服务器(主节点之一)剩余空间在低于 200G 的时候,触发了节点的 disk pressure ( k8s 默认剩余 10%就触发。。。。。)。然后这台服务器上所有 pods 状态都变为 Eviction 全部被驱逐,然后就成了 pod 被驱逐,又创建的循环。等注意到的时候,集群已经出现了 5000 多个 Eviction 的 pods 。( PS:这时候我的集群都还有反应
更改 kubelet 参数,将触发的限制从磁盘剩余 10%改成 10GiB 后本以为就恢复了,但是不知为什么更改之后集群直接就挂了( kubectl 提示服务未运行)。因为我是多主节点,于是连上另一台主节点想看看什么情况,另一台主节点上输入 kubectl get nodes 后直接卡死,没法获得信息,并且这台主节点机器还 cpu 占用 100%(得亏我这台主节点 vps 是跑在 OVH 上的,要是其他提供商这样占用 cpu 估计直接就把我机器封了)。说好的 k8s 多主节点高可用呢?怎么你一台主节点炸了整个集群都炸了?
然后看看 2T 的主节点执行 log ,似乎是 etcd 不明原因启动错误,折腾半天才好。自建 k8s 集群后这一年多最大感觉就是累感不爱,k8s 这东西的复杂真不是人类可以掌握,不是专心运维的话坑太多,这玩意存在在世上真的能让更多人变得幸福吗

节点, 集群, k8s, eviction

OceanBreeze   
不是专业运维,用云服务的版本不好么
BeautifulSoap
OP
  
@OceanBreeze 这是我个人的 n 台服务器/vps 组的集群,用来跑各种 bt/梯子/自建网盘的。云服务的 k8s 托管费用太高不至于上
choury   
etcd 挂了,请求肯定卡死了,cpu 满了要看是那个进程占用的,如果是 apiserver 的话,应该要限制下 qps ,防止这种情况下各种请求无脑重试
yulgang   


😁
BeautifulSoap
OP
  
@yulgang 😭
Abirdcfly   


proxychains   
@Abirdcfly but no 'H' found in 'kubernetes' :(
azusematsuri   
自建 k8s 运维练手攒攒经验挺好的
不过你这个需求实在是杀鸡用牛刀了
ExplodingFKL   
不上监控的吗? prometheus 、alertmanager 搞起来
您需要登录后才可以回帖 登录 | 立即注册

返回顶部