线上 leaderelection lost 导致 Kubernetes 组件异常退出的问题排查

简介: 记录了一次线上 controller-manager、kube-scheduler 频繁异常重启,报错 leaderelection lost 的问题排查

问题描述

在线上集群中,遇到了 kube-scheduler,kube-controller-manager 频繁的异常退出重启,报错信息如下:

image.png


排查处理流程

选举失败一般是从几个方向去考虑排查:

  • 组件资源占用,给到组件过低的资源可能会导致选举失败
  • ETCD 存在问题,比如 etcd 挂载的磁盘性能过差,etcd组件异常等均有可能导致
  • 网络问题,网络延迟高或不稳定也会导致问题


资源占用

首先我们排查资源占用问题,在 Erda 平台找到对应 Pod 的历史监控数据,从资源占用上来看,并没有瓶颈,资源分配的很充足。

image.png


ETCD

排查 ETCD,并没有异常退出出现,而且查看 Pod 的事件也正常,这时候我们对 ETCD 进行一下写入测试

ETCDCTL_API=3 /usr/local/bin/etcdctl  --endpoints='-'--cert='-'--key='-'--cacert='-' check perf

image.png

从结果上看起来写入速度是可以的。


网络排查

我们排查下网络问题,查看两个组件的资源锁的信息,发现 renew 是正常的。

kubectl get leases -n kube-system 

这时候我们考虑有可能是网络波动造成的,选举有如下两个参数需要注意:

  • leader-elect-lease-duration:重新选举的超时时间,在该时间内,如果持锁的实例没有进行租约续期,则重新进行选主
  • leader-elect-renew-deadline:如果在该时间内没有租约续期,则丢失持锁者的身份
--leader-elect-lease-duration=15s
--leader-elect-renew-deadline=10s

我们更改为 30s 跟 20s,由于是静态 Pod 拉起的组件,我们进入 yaml 所在路径,增加上述两个启动参数

cd /etc/kubernetes/manifests


经过几天的观察,并没有再出现异常重启的情况。

相关实践学习
容器服务Serverless版ACK Serverless 快速入门:在线魔方应用部署和监控
通过本实验,您将了解到容器服务Serverless版ACK Serverless 的基本产品能力,即可以实现快速部署一个在线魔方应用,并借助阿里云容器服务成熟的产品生态,实现在线应用的企业级监控,提升应用稳定性。
云原生实践公开课
课程大纲 开篇:如何学习并实践云原生技术 基础篇: 5 步上手 Kubernetes 进阶篇:生产环境下的 K8s 实践 相关的阿里云产品:容器服务 ACK 容器服务 Kubernetes 版(简称 ACK)提供高性能可伸缩的容器应用管理能力,支持企业级容器化应用的全生命周期管理。整合阿里云虚拟化、存储、网络和安全能力,打造云端最佳容器化应用运行环境。 了解产品详情: https://www.aliyun.com/product/kubernetes
目录
相关文章
|
1月前
|
存储 Kubernetes 负载均衡
Kubernetes的“厨房”:架构是菜谱,组件是厨具,资源对象是食材(下)
本文深入探讨了Kubernetes(K8s)的架构、核心组件以及资源对象。Kubernetes作为一个开源的容器编排系统,通过其独特的架构设计和丰富的组件,实现了对容器化应用程序的高效管理和扩展。通过本文的介绍,读者可以深入了解Kubernetes的架构、核心组件以及资源对象,从而更好地应用和管理容器化应用程序。Kubernetes的灵活性和可扩展性使得它成为容器编排领域的领先者,为企业提供了强大的容器运行环境。
|
3月前
|
存储 Kubernetes 监控
K8S核心组件介绍
K8S核心组件介绍
|
12天前
|
JSON Kubernetes 网络架构
Kubernetes CNI 网络模型及常见开源组件
【4月更文挑战第13天】目前主流的容器网络模型是CoreOS 公司推出的 Container Network Interface(CNI)模型
|
1月前
|
Kubernetes API 调度
Kubernetes的“厨房”:架构是菜谱,组件是厨具,资源对象是食材(上)
本文深入探讨了Kubernetes(K8s)的架构、核心组件以及资源对象。Kubernetes作为一个开源的容器编排系统,通过其独特的架构设计和丰富的组件,实现了对容器化应用程序的高效管理和扩展。通过本文的介绍,读者可以深入了解Kubernetes的架构、核心组件以及资源对象,从而更好地应用和管理容器化应用程序。Kubernetes的灵活性和可扩展性使得它成为容器编排领域的领先者,为企业提供了强大的容器运行环境。
|
5月前
|
Prometheus Kubernetes 网络协议
kubernetes dns 解析超时问题排查
kubernetes dns 解析超时问题排查
143 0
|
4月前
|
Kubernetes Cloud Native 数据安全/隐私保护
云原生|kubernetes |部署k8s图形化管理组件 kuboard v3
云原生|kubernetes |部署k8s图形化管理组件 kuboard v3
94 0
|
4月前
|
自然语言处理 Kubernetes 监控
Kubernetes 问题排查全景图
Kubernetes 问题排查全景图
35 0
|
4月前
|
存储 Kubernetes Cloud Native
Kubernetes异常?别担心,100个命令来解救你
Kubernetes异常?别担心,100个命令来解救你
32 1
|
4月前
|
Kubernetes Linux Go
基于Goland和dlv远程调试Kubernetes组件
基于Goland和dlv远程调试Kubernetes组件
150 0
|
5月前
|
Kubernetes 调度 Docker
【K8S 系列】k8s 学习一,Kubernetes 基本介绍及核心组件
【K8S 系列】k8s 学习一,Kubernetes 基本介绍及核心组件
143 0

推荐镜像

更多