使用Operator的方式部署Prometheus

本文涉及的产品
可观测可视化 Grafana 版,10个用户账号 1个月
可观测监控 Prometheus 版,每月50GB免费额度
简介: Operator是CoreOS公司开发,用于扩展kubernetes API或特定应用程序的控制器,它用来创建、配置、管理复杂的有状态应用,例如数据库,监控系统。其中Prometheus-Operator就是其中一个重要的项目。

一、介绍
Operator是CoreOS公司开发,用于扩展kubernetes API或特定应用程序的控制器,它用来创建、配置、管理复杂的有状态应用,例如数据库,监控系统。其中Prometheus-Operator就是其中一个重要的项目。
其架构图如下:

其中核心部分是Operator,它会去创建Prometheus、ServiceMonitor、AlertManager、PrometheusRule这4个CRD对象,然后会一直监控并维护这4个对象的状态。

Prometheus:作为Prometheus Server的抽象
ServiceMonitor:就是exporter的各种抽象
AlertManager:作为Prometheus AlertManager的抽象
PrometheusRule:实现报警规则的文件

上图中的 Service 和 ServiceMonitor 都是 Kubernetes 的资源,一个 ServiceMonitor 可以通过 labelSelector 的方式去匹配一类 Service,Prometheus 也可以通过 labelSelector 去匹配多个ServiceMonitor。
二、安装

注意集群版本的坑,自己先到Github上下载对应的版本。

我们使用源码来安装,首先克隆源码到本地:

git clone https://github.com/coreos/kube-prometheus.git

复制代码
我们进入kube-prometheus/manifests/setup,就可以直接创建CRD对象:

cd kube-prometheus/manifests/setup

kubectl apply -f .

复制代码
然后在上层目录创建资源清单:

cd kube-prometheus/manifests

kubectl apply -f .

复制代码
可以看到创建如下的CRD对象:

kubectl get crd | grep coreos

alertmanagers.monitoring.coreos.com 2019-12-02T03:03:37Z
podmonitors.monitoring.coreos.com 2019-12-02T03:03:37Z
prometheuses.monitoring.coreos.com 2019-12-02T03:03:37Z
prometheusrules.monitoring.coreos.com 2019-12-02T03:03:37Z
servicemonitors.monitoring.coreos.com 2019-12-02T03:03:37Z
复制代码
查看创建的pod:

kubectl get pod -n monitoring

NAME READY STATUS RESTARTS AGE
alertmanager-main-0 2/2 Running 0 2m37s
alertmanager-main-1 2/2 Running 0 2m37s
alertmanager-main-2 2/2 Running 0 2m37s
grafana-77978cbbdc-886cc 1/1 Running 0 2m46s
kube-state-metrics-7f6d7b46b4-vrs8t 3/3 Running 0 2m45s
node-exporter-5552n 2/2 Running 0 2m45s
node-exporter-6snb7 2/2 Running 0 2m45s
prometheus-adapter-68698bc948-6s5f2 1/1 Running 0 2m45s
prometheus-k8s-0 3/3 Running 1 2m27s
prometheus-k8s-1 3/3 Running 1 2m27s
prometheus-operator-6685db5c6-4tdhp 1/1 Running 0 2m52s
复制代码
查看创建的Service:

kubectl get svc -n monitoring

NAME TYPE CLUSTER-IP EXTERNAL-IP PORT(S) AGE
alertmanager-main ClusterIP 10.68.97.247 9093/TCP 3m51s
alertmanager-operated ClusterIP None 9093/TCP,9094/TCP,9094/UDP 3m41s
grafana ClusterIP 10.68.234.173 3000/TCP 3m50s
kube-state-metrics ClusterIP None 8443/TCP,9443/TCP 3m50s
node-exporter ClusterIP None 9100/TCP 3m50s
prometheus-adapter ClusterIP 10.68.109.201 443/TCP 3m50s
prometheus-k8s ClusterIP 10.68.9.232 9090/TCP 3m50s
prometheus-operated ClusterIP None 9090/TCP 3m31s
prometheus-operator ClusterIP None 8080/TCP 3m57s
复制代码
我们看到我们常用的prometheus和grafana都是clustorIP,我们要外部访问可以配置为NodePort类型或者用ingress。比如配置为ingress:
prometheus-ingress.yaml
apiVersion: extensions/v1beta1
kind: Ingress
metadata:
name: prometheus-ingress
namespace: monitoring
annotations:

kubernetes.io/ingress.class: "traefik"

spec:
rules:

  • host: prometheus.joker.com
    http:

    paths:
    - path:
      backend: 
        serviceName: prometheus-k8s 
        servicePort: 9090

复制代码
grafana-ingress.yaml
apiVersion: extensions/v1beta1
kind: Ingress
metadata:
name: grafana-ingress
namespace: monitoring
annotations:

kubernetes.io/ingress.class: "traefik"

spec:
rules:

  • host: grafana.joker.com
    http:

    paths:
    - path:
      backend: 
        serviceName: grafana
        servicePort: 3000
    

复制代码
但是我们这里由于没有域名进行备案,我们就用NodePort类型。修改后如下:

kubectl get svc -n monitoring

NAME TYPE CLUSTER-IP EXTERNAL-IP PORT(S) AGE
grafana NodePort 10.68.234.173 3000:39807/TCP 3h1m 3h1m
prometheus-k8s NodePort 10.68.9.232 9090:20547/TCP 3h1m
复制代码
然后就可以正常在浏览器访问了。
三、配置
3.1、监控集群资源
我们可以看到大部分的配置都是正常的,只有两三个没有管理到对应的监控目标,比如 kube-controller-manager 和 kube-scheduler 这两个系统组件,这就和 ServiceMonitor 的定义有关系了,我们先来查看下 kube-scheduler 组件对应的 ServiceMonitor 资源的定义:(prometheus-serviceMonitorKubeScheduler.yaml)
apiVersion: monitoring.coreos.com/v1
kind: ServiceMonitor
metadata:
labels:

k8s-app: kube-scheduler

name: kube-scheduler
namespace: monitoring
spec:
endpoints:

  • interval: 30s # 每30s获取一次信息
    port: http-metrics # 对应service的端口名

jobLabel: k8s-app
namespaceSelector: # 表示去匹配某一命名空间中的service,如果想从所有的namespace中匹配用any: true

matchNames:
- kube-system

selector: # 匹配的 Service 的labels,如果使用mathLabels,则下面的所有标签都匹配时才会匹配该service,如果使用matchExpressions,则至少匹配一个标签的service都会被选择

matchLabels:
  k8s-app: kube-scheduler

复制代码
上面是一个典型的 ServiceMonitor 资源文件的声明方式,上面我们通过selector.matchLabels在 kube-system 这个命名空间下面匹配具有k8s-app=kube-scheduler这样的 Service,但是我们系统中根本就没有对应的 Service,所以我们需要手动创建一个 Service:(prometheus-kubeSchedulerService.yaml)
apiVersion: v1
kind: Service
metadata:
namespace: kube-system
name: kube-scheduler
labels:

k8s-app: kube-scheduler

spec:
selector:

component: kube-scheduler

ports:

  • name: http-metrics
    port: 10251
    targetPort: 10251
    protocol: TCP

复制代码

10251是kube-scheduler组件 metrics 数据所在的端口,10252是kube-controller-manager组件的监控数据所在端口。

其中最重要的是上面 labels 和 selector 部分,labels 区域的配置必须和我们上面的 ServiceMonitor 对象中的 selector 保持一致,selector下面配置的是component=kube-scheduler,为什么会是这个 label 标签呢,我们可以去 describe 下 kube-scheduelr 这个 Pod:
$ kubectl describe pod kube-scheduler-master -n kube-system
Name: kube-scheduler-master
Namespace: kube-system
Node: master/10.151.30.57
Start Time: Sun, 05 Aug 2018 18:13:32 +0800
Labels: component=kube-scheduler

          tier=control-plane

......
复制代码
我们可以看到这个 Pod 具有component=kube-scheduler和tier=control-plane这两个标签,而前面这个标签具有更唯一的特性,所以使用前面这个标签较好,这样上面创建的 Service 就可以和我们的 Pod 进行关联了,直接创建即可:
$ kubectl create -f prometheus-kubeSchedulerService.yaml
$ kubectl get svc -n kube-system -l k8s-app=kube-scheduler
NAME TYPE CLUSTER-IP EXTERNAL-IP PORT(S) AGE
kube-scheduler ClusterIP 10.102.119.231 10251/TCP 18m
复制代码
创建完成后,隔一小会儿后去 prometheus 查看 targets 下面 kube-scheduler 的状态:
promethus kube-scheduler error
我们可以看到现在已经发现了 target,但是抓取数据结果出错了,这个错误是因为我们集群是使用 kubeadm 搭建的,其中 kube-scheduler 默认是绑定在127.0.0.1上面的,而上面我们这个地方是想通过节点的 IP 去访问,所以访问被拒绝了,我们只要把 kube-scheduler 绑定的地址更改成0.0.0.0即可满足要求,由于 kube-scheduler 是以静态 Pod 的形式运行在集群中的,所以我们只需要更改静态 Pod 目录下面对应的 YAML 文件即可:
$ ls /etc/kubernetes/manifests/
etcd.yaml kube-apiserver.yaml kube-controller-manager.yaml kube-scheduler.yaml
复制代码
将 kube-scheduler.yaml 文件中-command的--address地址更改成0.0.0.0:
containers:

  • command:
  • kube-scheduler
  • --leader-elect=true
  • --kubeconfig=/etc/kubernetes/scheduler.conf
  • --address=0.0.0.0

复制代码
修改完成后我们将该文件从当前文件夹中移除,隔一会儿再移回该目录,就可以自动更新了,然后再去看 prometheus 中 kube-scheduler 这个 target 是否已经正常了:
promethues-operator-kube-scheduler
大家可以按照上面的方法尝试去修复下 kube-controller-manager 组件的监控。
3.2、监控集群外资源
很多时候我们并不是把所有资源都部署在集群内的,经常有比如ectd,kube-scheduler等都部署在集群外。其监控流程和上面大致一样,唯一的区别就是在定义Service的时候,其EndPoints是需要我们自己去定义的。
3.2.1、监控kube-scheduler
(1)、定义Service和EndPoints
prometheus-KubeSchedulerService.yaml
apiVersion: v1
kind: Service
metadata:
name: kube-scheduler
namespace: kube-system
labels:

k8s-app: kube-scheduler

spec:
type: ClusterIP
clusterIP: None
ports:

  • name: http-metrics
    port: 10251
    targetPort: 10251
    protocol: TCP

apiVersion: v1
kind: Endpoints
metadata:
name: kube-scheduler
namespace: kube-system
labels:

k8s-app: kube-scheduler

subsets:

  • addresses:

    • ip: 172.16.0.33

    ports:

    • name: http-metrics
      port: 10251
      protocol: TCP

复制代码
(2)、定义ServiceMonitor
prometheus-serviceMonitorKubeScheduler.yaml
apiVersion: monitoring.coreos.com/v1
kind: ServiceMonitor
metadata:
name: kube-scheduler
namespace: monitoring
labels:

k8s-app: kube-scheduler

spec:
endpoints:

  • interval: 30s
    port: http-metrics

jobLabel: k8s-app
namespaceSelector:

matchNames:
- kube-system

selector:

matchLabels:
  k8s-app: kube-scheduler

复制代码
然后我们就可以看到其监控上了:
3.2.2、监控kube-controller-manager
(1)、配置Service和EndPoints,
prometheus-KubeControllerManagerService.yaml
apiVersion: v1
kind: Service
metadata:
name: kube-controller-manager
namespace: kube-system
labels:

k8s-app: kube-controller-manager

spec:
type: ClusterIP
clusterIP: None
ports:

  • name: http-metrics
    port: 10252
    targetPort: 10252
    protocol: TCP

apiVersion: v1
kind: Endpoints
metadata:
name: kube-controller-manager
namespace: kube-system
labels:

k8s-app: kube-controller-manager

subsets:

  • addresses:

    • ip: 172.16.0.33

    ports:

    • name: http-metrics
      port: 10252
      protocol: TCP

复制代码
(2)、配置ServiceMonitor
prometheus-serviceMonitorKubeControllerManager.yaml
apiVersion: monitoring.coreos.com/v1
kind: ServiceMonitor
metadata:
labels:

k8s-app: kube-controller-manager

name: kube-controller-manager
namespace: monitoring
spec:
endpoints:

  • interval: 30s
    metricRelabelings:

    • action: drop
      regex: etcd_(debugging|disk|request|server).*
      sourceLabels:

      • name

    port: http-metrics

jobLabel: k8s-app
namespaceSelector:

matchNames:
- kube-system

selector:

matchLabels:
  k8s-app: kube-controller-manager

复制代码

相关实践学习
容器服务Serverless版ACK Serverless 快速入门:在线魔方应用部署和监控
通过本实验,您将了解到容器服务Serverless版ACK Serverless 的基本产品能力,即可以实现快速部署一个在线魔方应用,并借助阿里云容器服务成熟的产品生态,实现在线应用的企业级监控,提升应用稳定性。
相关文章
|
8月前
|
Prometheus 监控 Kubernetes
如何用 Prometheus Operator 监控 K8s 集群外服务?
如何用 Prometheus Operator 监控 K8s 集群外服务?
|
8月前
|
Prometheus 监控 Kubernetes
Prometheus Operator 与 kube-prometheus 之二 - 如何监控 1.23+ kubeadm 集群
Prometheus Operator 与 kube-prometheus 之二 - 如何监控 1.23+ kubeadm 集群
|
3月前
|
Prometheus Kubernetes 监控
k8s部署针对外部服务器的prometheus服务
通过上述步骤,您不仅成功地在Kubernetes集群内部署了Prometheus,还实现了对集群外服务器的有效监控。理解并实施网络配置是关键,确保监控数据的准确无误传输。随着监控需求的增长,您还可以进一步探索Prometheus生态中的其他组件,如Alertmanager、Grafana等,以构建完整的监控与报警体系。
148 60
|
3月前
|
Prometheus Kubernetes 监控
k8s部署针对外部服务器的prometheus服务
通过上述步骤,您不仅成功地在Kubernetes集群内部署了Prometheus,还实现了对集群外服务器的有效监控。理解并实施网络配置是关键,确保监控数据的准确无误传输。随着监控需求的增长,您还可以进一步探索Prometheus生态中的其他组件,如Alertmanager、Grafana等,以构建完整的监控与报警体系。
280 62
|
3月前
|
自然语言处理 PyTorch 算法框架/工具
掌握从零到一的进阶攻略:让你轻松成为BERT微调高手——详解模型微调全流程,含实战代码与最佳实践秘籍,助你应对各类NLP挑战!
【10月更文挑战第1天】随着深度学习技术的进步,预训练模型已成为自然语言处理(NLP)领域的常见实践。这些模型通过大规模数据集训练获得通用语言表示,但需进一步微调以适应特定任务。本文通过简化流程和示例代码,介绍了如何选择预训练模型(如BERT),并利用Python库(如Transformers和PyTorch)进行微调。文章详细说明了数据准备、模型初始化、损失函数定义及训练循环等关键步骤,并提供了评估模型性能的方法。希望本文能帮助读者更好地理解和实现模型微调。
100 2
掌握从零到一的进阶攻略:让你轻松成为BERT微调高手——详解模型微调全流程,含实战代码与最佳实践秘籍,助你应对各类NLP挑战!
|
5月前
|
Prometheus Kubernetes 监控
快速部署 Prometheus 社区版
Prometheus 是一个开源的系统监控和报警系统,最初由 SoundCloud 开发,并在 2012 年作为开源项目发布。它现在是 Cloud Native Computing Foundation(CNCF)的一部分,与 Kubernetes 等其他知名项目一起,成为云原生生态系统的重要组成部分。本文介绍通过计算巢快速部署 Prometheus 社区版。
快速部署 Prometheus 社区版
|
5月前
|
Prometheus 监控 Cloud Native
|
6月前
|
JSON Prometheus 监控
Prometheus+Grafana 部署
Prometheus 和 Grafana 组成监控解决方案。Prometheus 是开源系统监控工具,Grafana 则用于数据可视化。要连接 Prometheus 数据源,登录 Grafana,点击设置,选择“连接”,添加新数据源,选择 Prometheus 类型,并填入 Prometheus 服务器的 HTTP 地址,如 `http://192.168.1.1:9090`,验证连接。之后,从 Grafana 官方仪表板库导入监控面板,如主机监控模板,以可视化系统状态。完成这些步骤后,便建立了有效的监控系统。
186 1
|
8月前
|
Prometheus Kubernetes 监控
|
8月前
|
Prometheus Kubernetes 监控
Prometheus Operator 与 kube-prometheus 之一 - 简介
Prometheus Operator 与 kube-prometheus 之一 - 简介