记录一次k8s APIService 包含的借口异常导致删除Pod一直处于terminating状态

本文涉及的产品
容器服务 Serverless 版 ACK Serverless,317元额度 多规格
容器服务 Serverless 版 ACK Serverless,952元额度 多规格
简介: 主要是APIService 中某个api一直处于False状态,具体的是报EndpointsNotFound,通过排查解决。

问题现象:

k8s 执行 delete操作发现pod一直处于terminating

问题排查

执行:kubectl get APIService
发现:

v1beta1.events.k8s.io           Local        True                        13d
v1beta1.extensions              Local        True                        13d
v1beta1.metrics.k8s.io     kube-system/metrics-server  False (EndpointsNotFound)   71s

有个新增的APIService 处于不正常状态,然后删除重建问题依旧,查看报错:

kubectl describe APIService 

v1beta1.metrics.k8s.io 
Name:         v1beta1.metrics.k8s.io
Namespace:    
Labels:       <none>
Annotations:  <none>
API Version:  apiregistration.k8s.io/v1
Kind:         APIService
Metadata:
  Creation Timestamp:  2021-10-11T03:01:28Z
  Resource Version:    4057041
  Self Link:           /apis/apiregistration.k8s.io/v1/apiservices/v1beta1.metrics.k8s.io
  UID:                 805aac80-69b7-4c41-bd00-b7e72f1f5fcb
Spec:
  Group:                     metrics.k8s.io
  Group Priority Minimum:    100
  Insecure Skip TLS Verify:  true
  Service:
    Name:            metrics-server
    Namespace:       kube-system
    Port:            443
  Version:           v1beta1
  Version Priority:  100
Status:
  Conditions:
    Last Transition Time:  2021-10-11T03:01:28Z
    Message:               cannot find endpoints for service/metrics-server in "kube-system"
    Reason:                EndpointsNotFound
    Status:                False
    Type:                  Available
Events:                    <none>

原因:
cannot find endpoints for service/metrics-server in "kube-system"
查看下集群中的endpoints:
执行:
kubectl get endpoints

elasticsearch-logging     10.244.1.7:9300,10.244.1.8:9300,10.244.1.7:9200 + 1 more...   13d
kube-controller-manager   <none>                                                        13d
kube-dns                  10.244.0.6:53,10.244.3.5:53,10.244.0.6:9153 + 3 more...       13d
kube-scheduler            <none>                                                        13d
node-exporter             10.244.0.4:9100,10.244.1.6:9100,10.244.2.2:9100 + 5 more...   13d

这里没有发现service/metrics-server,说明service和pod的关联出现了问题:
查看下service

apiVersion: v1
kind: Service
metadata:
  name: metrics-server
  namespace: kube-system
spec:
  ports:
  - name: https
    port: 443
    protocol: TCP
    targetPort: https

居然没有selector 这就是问题所在service根本没有跟pod进行绑定:
最终修改service.yaml重新部署

apiVersion: v1
kind: Service
metadata:
  name: metrics-server
  namespace: kube-system
spec:
  ports:
  - name: https
    port: 443
    protocol: TCP
    targetPort: https
  selector:
    app: metric-server

然后查看下endpoints:

kubectl  get endpoints -n kube-system 
NAME                      ENDPOINTS                                                     AGE
elasticsearch-logging     10.244.1.7:9300,10.244.1.8:9300,10.244.1.7:9200 + 1 more...   13d
kube-controller-manager   <none>                                                        13d
kube-dns                  10.244.0.6:53,10.244.3.5:53,10.244.0.6:9153 + 3 more...       13d
kube-scheduler            <none>                                                        13d
metrics-server            10.244.6.10:443                                               13s
node-exporter             10.244.0.4:9100,10.244.1.6:9100,10.244.2.2:9100 + 5 more...   13d

已经发现了metrics-server 问题结局。

问题原因:

主要是APIService不正常导致一直在处在状态APIService执行不下去,最终排查到是metrics-server 中的service绑定异常导致的。

名词解释:

endpoint是k8s集群中的一个资源对象,存储在etcd中,用来记录一个service对应的所有pod的访问地址。

相关实践学习
容器服务Serverless版ACK Serverless 快速入门:在线魔方应用部署和监控
通过本实验,您将了解到容器服务Serverless版ACK Serverless 的基本产品能力,即可以实现快速部署一个在线魔方应用,并借助阿里云容器服务成熟的产品生态,实现在线应用的企业级监控,提升应用稳定性。
容器应用与集群管理
欢迎来到《容器应用与集群管理》课程,本课程是“云原生容器Clouder认证“系列中的第二阶段。课程将向您介绍与容器集群相关的概念和技术,这些概念和技术可以帮助您了解阿里云容器服务ACK/ACK Serverless的使用。同时,本课程也会向您介绍可以采取的工具、方法和可操作步骤,以帮助您了解如何基于容器服务ACK Serverless构建和管理企业级应用。 学习完本课程后,您将能够: 掌握容器集群、容器编排的基本概念 掌握Kubernetes的基础概念及核心思想 掌握阿里云容器服务ACK/ACK Serverless概念及使用方法 基于容器服务ACK Serverless搭建和管理企业级网站应用
目录
相关文章
|
3天前
|
Kubernetes Java 应用服务中间件
Kubernetes 上搭建一个 Nginx 的 Pod,并确保传入的 API 请求被均匀地分发到两个 Java 业务 Pod 上
Kubernetes 上搭建一个 Nginx 的 Pod,并确保传入的 API 请求被均匀地分发到两个 Java 业务 Pod 上
6 0
|
7天前
|
Kubernetes Shell API
技术笔记:K8s中大量Pod是Evicted状态,这是咋回事?
技术笔记:K8s中大量Pod是Evicted状态,这是咋回事?
14 0
|
16天前
|
Kubernetes API 调度
Pod无法调度到可用的节点上(K8s)
完成k8s单节点部署后,创建了一个pod进行测试,后续该pod出现以下报错: Warning FailedScheduling 3h7m (x3 over 3h18m) default-scheduler 0/1 nodes are available: 1 node(s) had untolerated taint {node-role.kubernetes.io/control-plane: }. preemption: 0/1 nodes are available: 1 Preemption is not helpful for scheduling..
62 0
|
2月前
|
Kubernetes 算法 调度
k8s群集调度之 pod亲和 node亲和 标签指定
k8s群集调度之 pod亲和 node亲和 标签指定
|
1月前
|
Kubernetes 微服务 容器
Aspire项目发布到远程k8s集群
Aspire项目发布到远程k8s集群
392 2
Aspire项目发布到远程k8s集群
|
21天前
|
Kubernetes Cloud Native 微服务
微服务实践之使用 kube-vip 搭建高可用 Kubernetes 集群
微服务实践之使用 kube-vip 搭建高可用 Kubernetes 集群
211 3
|
6天前
|
Kubernetes 网络协议 Docker
k8s 开船记-故障公告:自建 k8s 集群在阿里云上大翻船
k8s 开船记-故障公告:自建 k8s 集群在阿里云上大翻船
|
6天前
|
Kubernetes Ubuntu jenkins
超详细实操教程!在现有K8S集群上安装JenkinsX,极速提升CI/CD体验!
超详细实操教程!在现有K8S集群上安装JenkinsX,极速提升CI/CD体验!
|
7天前
|
Kubernetes 应用服务中间件 nginx
K8s高可用集群二进制部署-V1.20
2.4 部署Etcd集群 以下在节点1上操作,为简化操作,待会将节点1生成的所有文件拷贝到节点2和节点3. 1. 创建工作目录并解压二进制包 mkdir /opt/etcd/{bin,cfg,ssl} -p tar zxvf etcd-v3.4.9-linux-amd64.tar.gz mv etcd-v3.4.9-linux-amd64/{etcd,etcdctl} /opt/etcd/bin/
|
12天前
|
Kubernetes 算法 API
K8S 集群认证管理
【6月更文挑战第22天】Kubernetes API Server通过REST API管理集群资源,关键在于客户端身份认证和授权。