metrics-server - unable to fully collect metrics-阿里云开发者社区

metrics-server - unable to fully collect metrics

2023-11-08 557

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： metrics-server - unable to fully collect metrics

部署 metrics-server 的前提条件

要保证 apiserver 所在节点和 metrics-serevr 的 pod 之间网络可以互通 [ kubeadm 部署的集群会部署相应的 work 节点组件 ]

要保证 apiserver 配置中开启了聚合配置 [ kubeadm 部署的集群，默认开启了聚合 ]

部署 metrics-server 需要注意的地方

修改镜像的 tag

官方下载下来的镜像是国外仓库的，国内很难拉取

sed -i 's#k8s.gcr.io#registry.cn-hangzhou.aliyuncs.com/google_containers#g' components.yaml

修改前

image: k8s.gcr.io/metrics-server-amd64:v0.3.6

修改后

image: registry.cn-hangzhou.aliyuncs.com/google_containers/metrics-server-amd64:v0.3.6

修改启动参数

修改前

官方只有两个启动参数

args:
  - --cert-dir=/tmp
  - --secure-port=4443

修改后

metric-resolution : 从 kubelet 采集数据的周期，默认为 60s

kubelet-preferred-address-types : 优先使用 InternalIP 来访问 kubelet，这样可以避免节点名称没有 DNS 解析记录时，通过节点名称调用节点 kubelet API 失败的情况

默认为 Hostname,InternalDNS,InternalIP,ExternalDNS,ExternalIP

kubelet-insecure-tls : 不要验证 kubelet 提供的服务证书

- args:
  - --cert-dir=/tmp
  - --secure-port=4443
  - --metric-resolution=10s
  - --kubelet-preferred-address-types=InternalIP,Hostname,InternalDNS,ExternalDNS,ExternalIP
  - --kubelet-insecure-tls

不完整的报错合集

没有配置 --kubelet-preferred-address-types=InternalIP,Hostname,InternalDNS,ExternalDNS,ExternalIP

metrics-server 会有类似如下的报错

E0907 14:29:51.774592       1 manager.go:102] unable to fully collect metrics: [unable to fully scrape metrics from source kubelet_summary:<node_name>: unable to 
fetch metrics from Kubelet <node_name> (<node_name>): Get https://<node_name>:10250/stats/summary/: dial tcp: lookup <node_name> on 10.96.0.10:53: no such host, unable to fully scr
ape metrics from source kubelet_summary:<node_name>: unable to fetch metrics from Kubelet <node_name> (<node_name>): Get https://<node_name>:10250/stats/summary/: dial tcp: lookup 
<node_name> on 10.96.0.10:53: no such host, unable to fully scrape metrics from source kubelet_summary:<node_name>: unable to fetch metrics from Kubelet <node_name> (<node_name>): 
Get https://<node_name>:10250/stats/summary/: dial tcp: lookup <node_name> on 10.96.0.10:53: no such host, unable to fully scrape metrics from source kubelet_summary:<node_name>: unable to fetch metrics from Kubelet <node_name> (<node_name>): Get https://<node_name>:10250/stats/summary/: dial tcp: lookup <node_name> on 10.96.0.10:53: no such host]
E0907 14:30:10.517886       1 reststorage.go:112] unable to fetch node metrics for node "<node_name>": no metrics known for node "<node_name>"

当然，也可以在 metrics-server 里面增加 hosts 解析

没有配置 --kubelet-insecure-tls

x509: certificate signed by unknown authority

apiserver 节点与 metrics-server pod 之间网络不通

metrics-server 会有类似如下的报错

unable to fully collect metrics: unable to fully scrape metrics from source kubelet_summary:<node_name>: unable to get CPU for container "metrics-server" in pod kube-system/metrics-server-7db5b7cb7c-pkcjb on node "<node_name>", discarding data: missing cpu usage metric

在 apiserver 里可以看到类似如下的报错

v1beta1.metrics.k8s.io failed with: failing or missing response from https://172.30.1.16:4443/apis/metrics.k8s.io/v1beta1: Get "https://172.30.1.16:4443/apis/metrics.k8s.io/v1beta1": context deadline exceeded
v1beta1.metrics.k8s.io failed with: failing or missing response from https://172.30.1.16:4443/apis/metrics.k8s.io/v1beta1: Get "https://172.30.1.16:4443/apis/metrics.k8s.io/v1beta1": dial tcp 172.30.1.16:4443: i/o timeout

个人场景

前期使用的二进制部署的 k8s 集群，当时的规划是 master 节点不运行 pod，于是没有安装 flannel 插件
整体部署中，flannel 采用了 pod 的形式部署，如果 master 节点要部署 flannel，等同于 master 节点需要复用 work 节点，与原先的期望不符合

于是在 master 节点复用 node 节点的情况下，将节点标记为不可调度并驱逐所有负载

将节点标记为不可调度

kubectl cordon <node name>

驱逐节点 pod ，保留 daemonset 类型的 pod

kubectl drain <node name> --ignore-daemonsets

相关实践学习

深入解析Docker容器化技术

Docker是一个开源的应用容器引擎，让开发者可以打包他们的应用以及依赖包到一个可移植的容器中，然后发布到任何流行的Linux机器上，也可以实现虚拟化，容器是完全使用沙箱机制，相互之间不会有任何接口。Docker是世界领先的软件容器平台。开发人员利用Docker可以消除协作编码时“在我的机器上可正常工作”的问题。运维人员利用Docker可以在隔离容器中并行运行和管理应用，获得更好的计算密度。企业利用Docker可以构建敏捷的软件交付管道，以更快的速度、更高的安全性和可靠的信誉为Linux和Windows Server应用发布新功能。在本套课程中，我们将全面的讲解Docker技术栈，从环境安装到容器、镜像操作以及生产环境如何部署开发的微服务应用。本课程由黑马程序员提供。     相关的阿里云产品：容器服务 ACK 容器服务 Kubernetes 版（简称 ACK）提供高性能可伸缩的容器应用管理能力，支持企业级容器化应用的全生命周期管理。整合阿里云虚拟化、存储、网络和安全能力，打造云端最佳容器化应用运行环境。了解产品详情: https://www.aliyun.com/product/kubernetes

metrics-server - unable to fully collect metrics

部署 metrics-server 的前提条件

部署 metrics-server 需要注意的地方

修改镜像的 tag

修改启动参数

不完整的报错合集

没有配置 --kubelet-preferred-address-types=InternalIP,Hostname,InternalDNS,ExternalDNS,ExternalIP

没有配置 --kubelet-insecure-tls

apiserver 节点与 metrics-server pod 之间网络不通

个人场景

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

metrics-server - unable to fully collect metrics

部署 metrics-server 的前提条件

部署 metrics-server 需要注意的地方

修改镜像的 tag

修改启动参数

不完整的报错合集

没有配置 --kubelet-preferred-address-types=InternalIP,Hostname,InternalDNS,ExternalDNS,ExternalIP

没有配置 --kubelet-insecure-tls

apiserver 节点与 metrics-server pod 之间网络不通

个人场景

热门文章

最新文章

相关电子书