阿里云容器Kubernetes监控(四) - 使用钉钉实现Kubernetes监控告警

本文涉及的产品
容器服务 Serverless 版 ACK Serverless,952元额度 多规格
容器服务 Serverless 版 ACK Serverless,317元额度 多规格
容器镜像服务 ACR,镜像仓库100个 不限时长
简介: 前言 容器应用的监控和传统应用的监控有很大的不同,在本系列的前面几篇文章中提到了关于自顶向下的传统监控策略以及在容器中常用的自底向上的反向监控策略与问题以及阿里云是如何通过数据链路与逻辑链路分离的方式解决上述问题的,文章直达连接。

前言

容器应用的监控和传统应用的监控有很大的不同,在本系列的前面几篇文章中提到了关于自顶向下的传统监控策略以及在容器中常用的自底向上的反向监控策略与问题以及阿里云是如何通过数据链路与逻辑链路分离的方式解决上述问题的,文章直达连接

但是基于数据采集的监控对于告警而言,会有很大的时延,特别是对于容器的场景,一旦容器在采集间隔中Panic后被拉起,那么很有可能会造成对异常的告警静默。那么对于这种场景改通过什么方式来解决呢?在传统的应用中是通过接入层检测或者定期检测的方式进行保活,这种方式在Kubernetes中一样也可以通过配置来实现,那么怎么将这些内容通过告警的方式进行通知呢?

在回答这个问题之前,我们首先要先讲一下Kubernetes中的状态机制,在Kubernetes中有针对于不同场景的抽象,例如Deployment表示普通的部署、StatefulSet表示有状态的服务,DaemonSet表示在每个节点运行的后台服务等等,每个不同的抽象都可以通过相应的Yaml语法进行描述,当开发者将Yaml提交给Kubernetes后,相应的变更逻辑就会进行执行。如果此时我们通过Dashboard查看刚才我们不是的Yaml文件时,我们会发现,其中有很多的字段并不是原本就存在的,而是后来通过Kubernetes内部添加上的。例如:

lALPBY0V49ZFXNrNAzjNBQ8_1295_824_png_620x10000q90g

值得特别关注的是status这个字段,这个字段中包含了当前抽象的各种状态,以及目前预置的支持的状态条件。如果状态条件的status字段为True,那么说明此时处在当前的状态。例如此例中,这个Deployment就处在AvailableProgressing两个状态。这种机制有一个非常好的用途,当我们发现当前抽象异常的时候,可以通过查看status的内容来判断大致的问题进而进行解决。

有了这个机制,我们还需要的就是如何快速感知到状态的异常并进行处理。在Kubernetes中针对这个问题,提供了事件的机制,将事件和抽象进行绑定,将状态对应的影响和事件的类型进行分类,比如常规事件的类型是Normal而异常类型的事件为Warning。也就是说,一旦集群中出现了Warning类型的事件,那么此时就需要开发者接入进行甄别是否需要手动介入进行处理。

那么如何实时的获取集群中的异常事件呢?对于这种实时性较强的告警策略而言,ChatOps或许是最佳的方式,大部分阿里云容器服务的开发者都会有自己的钉钉群,将事件同步到群中即可实现故障的快速处理。

具体的操作步骤如下:

1.在钉钉群中加入钉钉机器人,并拷贝记录下webhook地址
lALPBY0V49ZGuhjNAm3NA74_958_621_png_620x10000q90g
lALPBY0V49ZGujbNAh_NAqE_673_543_png_620x10000q90g

2.在容器服务控制台中下发eventer组件

apiVersion: extensions/v1beta1
kind: Deployment
metadata:
  name: kube-eventer
  namespace: kube-system
spec:
  replicas: 1
  template:
    metadata:
      labels:
        task: monitoring
        k8s-app: kube-eventer
      annotations:
        scheduler.alpha.kubernetes.io/critical-pod: ''
    spec:
      serviceAccount: admin
      containers:
      - name: kube-eventer
        image: registry.cn-hangzhou.aliyuncs.com/acs/kube-eventer-amd64:v1.0.0-d9898e1-aliyun
        imagePullPolicy: IfNotPresent
        command:
        - /kube-eventer
        - --source=kubernetes:https://kubernetes.default
        - --sink=dingtalk:[your_webhook_url]&label=[your_cluster_id]&level=[可选参数:Normal或者Warning,默认值为:Warning]

3.部署成功后30s,eventer即开始生效,当事件等级超过阈值等级的时候即可收到如下告警。
lALPBY0V49ZHdYLNAlvNAoo_650_603_png_620x10000q90g

最后

由于eventer属于kubernetes的Heapster项目,Heapster项目目前被官方列入deprecated阶段,但是这并不妨碍eventer成为Kubernetes实时告警中的唯一选择,包含钉钉告警的代码仓库地址:https://github.com/AliyunContainerService/heapster,有兴趣的开发者可以一同参与。

相关实践学习
通过Ingress进行灰度发布
本场景您将运行一个简单的应用,部署一个新的应用用于新的发布,并通过Ingress能力实现灰度发布。
容器应用与集群管理
欢迎来到《容器应用与集群管理》课程,本课程是“云原生容器Clouder认证“系列中的第二阶段。课程将向您介绍与容器集群相关的概念和技术,这些概念和技术可以帮助您了解阿里云容器服务ACK/ACK Serverless的使用。同时,本课程也会向您介绍可以采取的工具、方法和可操作步骤,以帮助您了解如何基于容器服务ACK Serverless构建和管理企业级应用。 学习完本课程后,您将能够: 掌握容器集群、容器编排的基本概念 掌握Kubernetes的基础概念及核心思想 掌握阿里云容器服务ACK/ACK Serverless概念及使用方法 基于容器服务ACK Serverless搭建和管理企业级网站应用
目录
相关文章
|
16天前
|
弹性计算 人工智能 Serverless
阿里云ACK One:注册集群云上节点池(CPU/GPU)自动弹性伸缩,助力企业业务高效扩展
在当今数字化时代,企业业务的快速增长对IT基础设施提出了更高要求。然而,传统IDC数据中心却在业务存在扩容慢、缩容难等问题。为此,阿里云推出ACK One注册集群架构,通过云上节点池(CPU/GPU)自动弹性伸缩等特性,为企业带来全新突破。
|
1月前
|
专有云 Serverless 持续交付
亚太唯一,阿里云再度入选Gartner®容器管理魔力象限领导者
Gartner正式发布 2024《容器管理魔力象限》报告,阿里云再度成为中国唯一一家入选「领导者象限」的科技公司。
|
28天前
|
人工智能 专有云 Serverless
亚太唯一!阿里云再度入选Gartner®容器管理魔力象限领导者
亚太唯一!阿里云再度入选Gartner®容器管理魔力象限领导者
104 2
|
1月前
|
弹性计算 Kubernetes 网络协议
阿里云弹性网络接口技术的容器网络基础教程
阿里云弹性网络接口技术的容器网络基础教程
阿里云弹性网络接口技术的容器网络基础教程
|
2月前
|
存储 Kubernetes 关系型数据库
阿里云ACK备份中心,K8s集群业务应用数据的一站式灾备方案
阿里云ACK备份中心,K8s集群业务应用数据的一站式灾备方案
|
2月前
|
人工智能 运维 监控
阿里云ACK容器服务生产级可观测体系建设实践
阿里云ACK容器服务生产级可观测体系建设实践
|
1月前
|
运维 Kubernetes 数据处理
阿里云Argo X K8s玩转工作流引擎,实现大规模并行计算
Kubernetes已经成为事实的云原生操作系统,成为业务上云、容器化的标准。从过去无状态应用、企业核心应用,到现在AI时代的数据处理、AI训练、科学仿真等,越来越多的离线任务跑在K8s上。
|
存储 弹性计算 安全
成功案例-钉钉 | 学习笔记
快速学习 成功案例-钉钉
400 0
|
存储 弹性计算 安全
案例分享——钉钉|学习笔记
快速学习 案例分享——钉钉
373 0

相关产品

  • 容器服务Kubernetes版