记录一次k8s APIService 包含的借口异常导致删除Pod一直处于terminating状态-阿里云开发者社区

开发者社区> housezhang> 正文

记录一次k8s APIService 包含的借口异常导致删除Pod一直处于terminating状态

简介: 主要是APIService 中某个api一直处于False状态,具体的是报EndpointsNotFound,通过排查解决。
+关注继续查看

问题现象:

k8s 执行 delete操作发现pod一直处于terminating

问题排查

执行:kubectl get APIService
发现:

v1beta1.events.k8s.io           Local        True                        13d
v1beta1.extensions              Local        True                        13d
v1beta1.metrics.k8s.io     kube-system/metrics-server  False (EndpointsNotFound)   71s

有个新增的APIService 处于不正常状态,然后删除重建问题依旧,查看报错:

kubectl describe APIService 

v1beta1.metrics.k8s.io 
Name:         v1beta1.metrics.k8s.io
Namespace:    
Labels:       <none>
Annotations:  <none>
API Version:  apiregistration.k8s.io/v1
Kind:         APIService
Metadata:
  Creation Timestamp:  2021-10-11T03:01:28Z
  Resource Version:    4057041
  Self Link:           /apis/apiregistration.k8s.io/v1/apiservices/v1beta1.metrics.k8s.io
  UID:                 805aac80-69b7-4c41-bd00-b7e72f1f5fcb
Spec:
  Group:                     metrics.k8s.io
  Group Priority Minimum:    100
  Insecure Skip TLS Verify:  true
  Service:
    Name:            metrics-server
    Namespace:       kube-system
    Port:            443
  Version:           v1beta1
  Version Priority:  100
Status:
  Conditions:
    Last Transition Time:  2021-10-11T03:01:28Z
    Message:               cannot find endpoints for service/metrics-server in "kube-system"
    Reason:                EndpointsNotFound
    Status:                False
    Type:                  Available
Events:                    <none>

原因:
cannot find endpoints for service/metrics-server in "kube-system"
查看下集群中的endpoints:
执行:
kubectl get endpoints

elasticsearch-logging     10.244.1.7:9300,10.244.1.8:9300,10.244.1.7:9200 + 1 more...   13d
kube-controller-manager   <none>                                                        13d
kube-dns                  10.244.0.6:53,10.244.3.5:53,10.244.0.6:9153 + 3 more...       13d
kube-scheduler            <none>                                                        13d
node-exporter             10.244.0.4:9100,10.244.1.6:9100,10.244.2.2:9100 + 5 more...   13d

这里没有发现service/metrics-server,说明service和pod的关联出现了问题:
查看下service

apiVersion: v1
kind: Service
metadata:
  name: metrics-server
  namespace: kube-system
spec:
  ports:
  - name: https
    port: 443
    protocol: TCP
    targetPort: https

居然没有selector 这就是问题所在service根本没有跟pod进行绑定:
最终修改service.yaml重新部署

apiVersion: v1
kind: Service
metadata:
  name: metrics-server
  namespace: kube-system
spec:
  ports:
  - name: https
    port: 443
    protocol: TCP
    targetPort: https
  selector:
    app: metric-server

然后查看下endpoints:

kubectl  get endpoints -n kube-system 
NAME                      ENDPOINTS                                                     AGE
elasticsearch-logging     10.244.1.7:9300,10.244.1.8:9300,10.244.1.7:9200 + 1 more...   13d
kube-controller-manager   <none>                                                        13d
kube-dns                  10.244.0.6:53,10.244.3.5:53,10.244.0.6:9153 + 3 more...       13d
kube-scheduler            <none>                                                        13d
metrics-server            10.244.6.10:443                                               13s
node-exporter             10.244.0.4:9100,10.244.1.6:9100,10.244.2.2:9100 + 5 more...   13d

已经发现了metrics-server 问题结局。

问题原因:

主要是APIService不正常导致一直在处在状态APIService执行不下去,最终排查到是metrics-server 中的service绑定异常导致的。

名词解释:

endpoint是k8s集群中的一个资源对象,存储在etcd中,用来记录一个service对应的所有pod的访问地址。

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
异常信息: ResultSet can not re-read row data for column 2
解决方法:下面的解决方案是网上高人说的:                    (1)如果采用jdbc-odbc驱动,那么就必须按照查询顺序来一次读取(不论有没有image或text类型)           (2)如果采用微软提供的ms sql server jdbc driver,...
550 0
State Processor API:如何读取,写入和修改 Flink 应用程序的状态
Apache Flink 1.9.0引入了状态处理器(`State Processor`)API,它是基于DataSet API的强大扩展,允许读取,写入和修改Flink的保存点和检查点(checkpoint)中的状态。
752 0
hive 异常 (Attempt to do update or delete on table terminal that does not use an )
    hive 异常 (Attempt to do update or delete on table terminal that does not use an )   hive > delete from terminal where 1=1 ;  出现以下    ...
1429 0
State Processor API:如何读取,写入和修改 Flink 应用程序的状态
Apache Flink 1.9.0引入了状态处理器(`State Processor`)API,它是基于DataSet API的强大扩展,允许读取,写入和修改Flink的保存点和检查点(checkpoint)中的状态。
1578 0
第一次偶然出现的“System.Data.Entity.dll”类型的异常
在 System.Data.EntityCommandExecutionException 中第一次偶然出现的“System.Data.Entity.dll”类型的异常   出现该错误,请检查ORM的映射与实际数据库表是否完全一致,包括导航属性的别名等。    
521 0
《C++语言基础》实践参考——平方根中的异常
返回:贺老师课程教学链接 项目要求 【项目1-平方根中的异常】 编写一个程序,求输入数的平方根。设置异常处理,当输入负数时采用异常处理机制给出提示。 [参考解答] #include&lt;iostream&gt; #include&lt;cmath&gt; using namespace std; double squareroot(double &amp;a
767 0
Asp.Net Web API 2第七课——Web API异常处理
原文:Asp.Net Web API 2第七课——Web API异常处理 前言 阅读本文之前,您也可以到Asp.Net Web API 2 系列导航进行查看 http://www.cnblogs.com/aehyok/p/3446289.
806 0
在 System.Data.OleDb.OleDbException 中第一次偶然出现的“System.Data.dll”类型的异常
C#使用OleDB操作ACCESS插入数据时提示: 在 System.Data.OleDb.OleDbException 中第一次偶然出现的“System.Data.dll”类型的异常 这个错误是在执行: int rlt = updateCmd.ExecuteNonQuery(); 时产生的,但这个信息是在控制台中输出的,而抛出的异常信息通常是:标准表达式中数据类型不匹配。
870 0
+关注
22
文章
0
问答
文章排行榜
最热
最新
相关电子书
更多
《2021云上架构与运维峰会演讲合集》
立即下载
《零基础CSS入门教程》
立即下载
《零基础HTML入门教程》
立即下载