K8s环境下监控告警平台搭建及配置

简介: K8s环境下监控告警平台搭建及配置

Promethues是可以单机搭建的,参考prometheus入门

本文是就Promethues+Grafana在K8s环境下的搭建及配置


Prometheus度量指标监控平台简介


  • 启动minikube  minikube start
  • 安装helm

使用Helm Chart 安装 Prometheus Operator:

helm install prometheus-operator stable/prometheus-operator -n monitoring

报错:

WARNING: This chart is deprecated
Error: INSTALLATION FAILED: failed to install CRD crds/crd-alertmanager.yaml: resource mapping not found for name: "alertmanagers.monitoring.coreos.com" namespace: "" from "": no matches for kind "CustomResourceDefinition" in version "apiextensions.k8s.io/v1beta1"
ensure CRDs are installed first

根据 Kubernetes和微服务监控体系(搜索"降低我们的版本")

降低minikube版本: minikube start --kubernetes-version=v1.20.3

(这步可能会卡着不动等半天,耐心等待即可~)

微信截图_20230814205000.png

微信截图_20230814205012.png

解决该问题后继续:

kubectl create ns monitoring

helm install prometheus-operator stable/prometheus-operator -n monitoring

微信截图_20230814205024.png

微信截图_20230814205033.png

要等一会儿,全部pod才能都启动起来~

image.png

Promethues-Operator基本功能展示


访问prometheus内置浏览器


kubectl port-forward -n monitoring prometheus-prometheus-operator-prometheus-0 9090

kubectl port-forward 什么意思?

kubectl port-forward 是一个 Kubernetes 命令,用于将本地端口与 Kubernetes Pod 或 Service 的端口之间建立临时的网络转发连接。

当你在本地开发环境中需要直接访问运行在 Kubernetes 集群中的 Pod 或 Service 时,kubectl port-forward 命令可以帮助你在本地主机和 Kubernetes 集群之间建立一个网络通道。

使用 kubectl port-forward 命令时,你需要指定要转发的资源类型和名称,并指定本地端口和远程端口。例如,以下命令将本地的 8080 端口与名为 "my-pod" 的 Pod 的 80 端口进行转发:


kubectl port-forward my-pod 8080:80

这将在本地主机的 8080 端口上启动一个转发服务,将所有发送到该端口的请求转发到运行在 "my-pod" Pod 中的 80 端口。你可以使用本地浏览器或工具访问 localhost:8080 来与 Pod 进行交互。

类似地,你也可以使用 kubectl port-forward 命令转发到 Service 的端口。例如:

载请注明出处。

kubectl port-forward service/my-service 8080:80

这将将本地的 8080 端口与名为 "my-service" 的 Service 的 80 端口进行转发。

kubectl port-forward 命令对于在本地开发和调试过程中与 Kubernetes 集群中的资源进行交互非常有用。它可以方便地将远程服务映射到本地主机,以便你可以直接访问和测试它们。

微信截图_20230814205229.png

访问 http://localhost:9090/

微信截图_20230814205240.png

prometheus-operator 已经帮我们把相关的监控项配置好了

image.png

up指标

微信截图_20230814205339.png

node_load1指标

No datapoints found. , issue

微信截图_20230814205411.png

但好像没干啥就好了..

微信截图_20230814205422.png

查询对promethues web总的成功请求数

微信截图_20230814205500.png

查询对promethues metrics端点的成功请求率

微信截图_20230814205517.png

告警信息

http://localhost:9090/alerts

image.png

配置信息Configuration

微信截图_20230814205600.png

告警(alert)和聚合(record)规则Rules

image.png

监控目标Targets

微信截图_20230814205658.png

访问Alertmanger UI


kubectl port-forward -n monitoring alertmanager-prometheus-operator-alertmanager-0 9093

微信截图_20230814205737.png

告警信息

微信截图_20230814205747.png

状态和配置

微信截图_20230814205825.png

访问Grafana UI

微信截图_20230814205835.png

微信截图_20230814205845.png

微信截图_20230814205855.png

微信截图_20230814205953.png

Nodes节点监控

在上图搜索框输入"node"

微信截图_20230814210004.png

K8s/Compute Resources/Cluster监控

微信截图_20230814210037.png

image.png

K8s/Compute Resources/Pod监控

微信截图_20230814210055.png

定制Alertmanager邮件通知


安装FakeSMTP

git clone https://github.com/Nilhcem/FakeSMTP.git
cd FakeSMTP
mvn package
java -jar target/fakeSMTP-2.0-SNAPSHOT.jar -p 2525

微信截图_20230814210143.png

现在需要改为 java -jar target/fakeSMTP-2.1-SNAPSHOT.jar -p 2525

微信截图_20230814210153.png

点击 启动服务器

微信截图_20230814210234.png

Alertmanager缺省配置(Secret)


kubectl get secret -n monitoring alertmanager-prometheus-operator-alertmanager -o go-template='左括号 左括号 index .data "alertmanager.yaml" 右括号 右括号' | base64 --decode  (把汉字替换为对应符号,不这样hexo会解析出错)

微信截图_20230814210248.png

该命令用于从 Kubernetes 集群中的指定命名空间(-n monitoring)获取名为 alertmanager-prometheus-operator-alertmanager 的 Secret 对象,并提取其中名为 alertmanager.yaml 的数据字段的值。然后使用 base64 命令对该值进行解码,以便将其转换回原始的 YAML 格式。

换句话说,这个命令的目的是获取监控系统中 Alertmanager 的配置文件,并将其解码为可读的 YAML 格式,以便查看其中的配置详细信息。


因为这个配置是secret形式存储的

微信截图_20230814210337.png

Opaque类型,所以最后要用 base64 --decode 转为明文

其实可以通过下面的UI直观查看

Alertmanager缺省配置(UI)


微信截图_20230814210351.png

Alertmanager config更新


参考 github.com/helm/charts…

  • 增加 邮件smtp等配置
  • 增加静默配置(发送给null)
  • 增加抑制配置(inhibit)

Prometheus监控系统中,"静默配置"(inhibit configuration)用于在发生警报时控制通知的行为。通过静默配置,可以防止某些特定警报触发通知,以避免不必要的干扰或重复的通知。

静默配置定义了在特定条件下阻止警报通知的规则。这些规则通常基于警报标签和标签值的匹配。当触发一个警报时,系统将根据静默配置中的规则检查是否有匹配的规则存在。如果有匹配的规则,那么该警报将被静默,即不会触发通知。

通过使用静默配置,可以灵活地控制在某些情况下抑制警报通知,例如:

  • 阻止在维护窗口期间触发通知。
  • 抑制由特定部署环境引起的虚假警报。
  • 防止多个相关的警报同时触发大量通知。

在Prometheus中,静默配置可以通过修改Alertmanager的配置文件(alertmanager.yaml)来实现,具体的配置语法和规则定义可以参考Prometheus的官方文档。


在Prometheus中,将通知发送给null属于静默配置的一种。当将静默规则配置为将通知发送给null时,实际上是将该警报完全静默化,意味着不会有任何通知发送。

这种配置适用于那些不希望触发任何通知的警报。通常,这可能是对特定类型的警报或某些特定条件下的警报进行静默化的一种方式。通过将通知发送给null,可以确保该警报不会引起任何干扰或通知负担。

静默规则配置示例:

inhibit_rules:
  - source_match:
      severity: critical
    target_match:
      severity: warning
    equal: ['alertname', 'service']
    target_receivers:
      - 'null'

上述示例中的静默规则指定了在警报的严重性为critical,并且警报名称和服务名称相同时,将通知发送给null,即静默该警报。

更新后的配置在 github.com/spring2go/k…

微信截图_20230814210519.png

修改ip为本机地址


更新prometheus-operator release


helm upgrade prometheus-operator stable/prometheus-operator --values=shuang_alertmanager.yml -n monitoring

helm history prometheus-operator -n monitoring

微信截图_20230814210533.png

如果有问题,可以看pod日志进行排查~

kubectl logs -n monitoring alertmanager-prometheus-operator-alertmanager-0


校验配置更新成功


打开 http://localhost:9093/#/status, 通过UI校验看是否修改成功~

微信截图_20230814210614.png

启动FakeSMTP接收告警


此时已经收到了邮件

微信截图_20230814210633.png

其中 etcd这项告警 message = etcd cluster "kube-etcd": members are down (1).是因为用minikube,etcd节点本来就不足~

.+Overcommit本来应该要收到告警,但通过配置抑制掉了


相关实践学习
容器服务Serverless版ACK Serverless 快速入门:在线魔方应用部署和监控
通过本实验,您将了解到容器服务Serverless版ACK Serverless 的基本产品能力,即可以实现快速部署一个在线魔方应用,并借助阿里云容器服务成熟的产品生态,实现在线应用的企业级监控,提升应用稳定性。
云原生实践公开课
课程大纲 开篇:如何学习并实践云原生技术 基础篇: 5 步上手 Kubernetes 进阶篇:生产环境下的 K8s 实践 相关的阿里云产品:容器服务 ACK 容器服务 Kubernetes 版(简称 ACK)提供高性能可伸缩的容器应用管理能力,支持企业级容器化应用的全生命周期管理。整合阿里云虚拟化、存储、网络和安全能力,打造云端最佳容器化应用运行环境。 了解产品详情: https://www.aliyun.com/product/kubernetes
目录
相关文章
|
29天前
|
JSON Kubernetes Linux
Linux环境签发CA证书和K8s需要的证书
Linux环境签发CA证书和K8s需要的证书
29 0
|
1月前
|
缓存 Kubernetes Docker
容器服务ACK常见问题之容器服务ACK ingress websocket配置失败如何解决
容器服务ACK(阿里云容器服务 Kubernetes 版)是阿里云提供的一种托管式Kubernetes服务,帮助用户轻松使用Kubernetes进行应用部署、管理和扩展。本汇总收集了容器服务ACK使用中的常见问题及答案,包括集群管理、应用部署、服务访问、网络配置、存储使用、安全保障等方面,旨在帮助用户快速解决使用过程中遇到的难题,提升容器管理和运维效率。
|
2月前
|
存储 运维 Kubernetes
批处理及有状态等应用类型在 K8S 上应该如何配置?
批处理及有状态等应用类型在 K8S 上应该如何配置?
|
4月前
|
Kubernetes 安全 Cloud Native
云原生|kubernetes|pod或容器的安全上下文配置解析
云原生|kubernetes|pod或容器的安全上下文配置解析
112 0
|
4月前
|
Kubernetes Perl 容器
kubernetes 的Job 的并行执行 配置
在Kubernetes中,Job是一种用于批处理任务的Controller对象。如果你想要配置Job以支持并行执行,可以使用Job的`.spec.parallelism`字段。这个字段定义了Job中可以并行运行的Pod的最大数量。 下面是一个简单的Job定义,其中包含了`.spec.parallelism`字段: ```yaml apiVersion: batch/v1 kind: Job metadata: name: example-job spec: parallelism: 3 # 这里定义了并行运行的Pod的数量 completions: 5 # 定义了成功完成的
|
2月前
|
Kubernetes 监控 物联网
IoT 边缘集群基于 Kubernetes Events 的告警通知实现(二):进一步配置
IoT 边缘集群基于 Kubernetes Events 的告警通知实现(二):进一步配置
|
2月前
|
Kubernetes 容器 Perl
K8S 性能优化 - 大型集群 CIDR 配置
K8S 性能优化 - 大型集群 CIDR 配置
|
3月前
|
存储 Kubernetes 安全
Kubernetes Pod配置:从基础到高级实战技巧
Kubernetes Pod配置:从基础到高级实战技巧
153 0
|
3月前
|
Kubernetes Linux 数据安全/隐私保护
k8s安装环境准备:Virtualbox安装CentOS;复制多个CentOS虚拟机
k8s安装环境准备:Virtualbox安装CentOS;复制多个CentOS虚拟机
58 0
|
4月前
|
Kubernetes Docker 容器
Kubernetes学习笔记-Part.08 安装k8s环境
Part.01 Kubernets与docker Part.02 Docker版本 Part.03 Kubernetes原理 Part.04 资源规划 Part.05 基础环境准备 Part.06 Docker安装 Part.07 Harbor搭建 Part.08 K8s环境安装 Part.09 K8s集群构建 Part.10 容器回退
59 2