阿里云容器Kubernetes监控(四) - 使用钉钉实现Kubernetes监控告警

本文涉及的产品
容器镜像服务 ACR,镜像仓库100个 不限时长
简介: 前言 容器应用的监控和传统应用的监控有很大的不同,在本系列的前面几篇文章中提到了关于自顶向下的传统监控策略以及在容器中常用的自底向上的反向监控策略与问题以及阿里云是如何通过数据链路与逻辑链路分离的方式解决上述问题的,文章直达连接。

前言

容器应用的监控和传统应用的监控有很大的不同,在本系列的前面几篇文章中提到了关于自顶向下的传统监控策略以及在容器中常用的自底向上的反向监控策略与问题以及阿里云是如何通过数据链路与逻辑链路分离的方式解决上述问题的,文章直达连接

但是基于数据采集的监控对于告警而言,会有很大的时延,特别是对于容器的场景,一旦容器在采集间隔中Panic后被拉起,那么很有可能会造成对异常的告警静默。那么对于这种场景改通过什么方式来解决呢?在传统的应用中是通过接入层检测或者定期检测的方式进行保活,这种方式在Kubernetes中一样也可以通过配置来实现,那么怎么将这些内容通过告警的方式进行通知呢?

在回答这个问题之前,我们首先要先讲一下Kubernetes中的状态机制,在Kubernetes中有针对于不同场景的抽象,例如Deployment表示普通的部署、StatefulSet表示有状态的服务,DaemonSet表示在每个节点运行的后台服务等等,每个不同的抽象都可以通过相应的Yaml语法进行描述,当开发者将Yaml提交给Kubernetes后,相应的变更逻辑就会进行执行。如果此时我们通过Dashboard查看刚才我们不是的Yaml文件时,我们会发现,其中有很多的字段并不是原本就存在的,而是后来通过Kubernetes内部添加上的。例如:

lALPBY0V49ZFXNrNAzjNBQ8_1295_824_png_620x10000q90g

值得特别关注的是status这个字段,这个字段中包含了当前抽象的各种状态,以及目前预置的支持的状态条件。如果状态条件的status字段为True,那么说明此时处在当前的状态。例如此例中,这个Deployment就处在AvailableProgressing两个状态。这种机制有一个非常好的用途,当我们发现当前抽象异常的时候,可以通过查看status的内容来判断大致的问题进而进行解决。

有了这个机制,我们还需要的就是如何快速感知到状态的异常并进行处理。在Kubernetes中针对这个问题,提供了事件的机制,将事件和抽象进行绑定,将状态对应的影响和事件的类型进行分类,比如常规事件的类型是Normal而异常类型的事件为Warning。也就是说,一旦集群中出现了Warning类型的事件,那么此时就需要开发者接入进行甄别是否需要手动介入进行处理。

那么如何实时的获取集群中的异常事件呢?对于这种实时性较强的告警策略而言,ChatOps或许是最佳的方式,大部分阿里云容器服务的开发者都会有自己的钉钉群,将事件同步到群中即可实现故障的快速处理。

具体的操作步骤如下:

1.在钉钉群中加入钉钉机器人,并拷贝记录下webhook地址
lALPBY0V49ZGuhjNAm3NA74_958_621_png_620x10000q90g
lALPBY0V49ZGujbNAh_NAqE_673_543_png_620x10000q90g

2.在容器服务控制台中下发eventer组件

apiVersion: extensions/v1beta1
kind: Deployment
metadata:
  name: kube-eventer
  namespace: kube-system
spec:
  replicas: 1
  template:
    metadata:
      labels:
        task: monitoring
        k8s-app: kube-eventer
      annotations:
        scheduler.alpha.kubernetes.io/critical-pod: ''
    spec:
      serviceAccount: admin
      containers:
      - name: kube-eventer
        image: registry.cn-hangzhou.aliyuncs.com/acs/kube-eventer-amd64:v1.0.0-d9898e1-aliyun
        imagePullPolicy: IfNotPresent
        command:
        - /kube-eventer
        - --source=kubernetes:https://kubernetes.default
        - --sink=dingtalk:[your_webhook_url]&label=[your_cluster_id]&level=[可选参数:Normal或者Warning,默认值为:Warning]

3.部署成功后30s,eventer即开始生效,当事件等级超过阈值等级的时候即可收到如下告警。
lALPBY0V49ZHdYLNAlvNAoo_650_603_png_620x10000q90g

最后

由于eventer属于kubernetes的Heapster项目,Heapster项目目前被官方列入deprecated阶段,但是这并不妨碍eventer成为Kubernetes实时告警中的唯一选择,包含钉钉告警的代码仓库地址:https://github.com/AliyunContainerService/heapster,有兴趣的开发者可以一同参与。

相关实践学习
深入解析Docker容器化技术
Docker是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的Linux机器上,也可以实现虚拟化,容器是完全使用沙箱机制,相互之间不会有任何接口。Docker是世界领先的软件容器平台。开发人员利用Docker可以消除协作编码时“在我的机器上可正常工作”的问题。运维人员利用Docker可以在隔离容器中并行运行和管理应用,获得更好的计算密度。企业利用Docker可以构建敏捷的软件交付管道,以更快的速度、更高的安全性和可靠的信誉为Linux和Windows Server应用发布新功能。 在本套课程中,我们将全面的讲解Docker技术栈,从环境安装到容器、镜像操作以及生产环境如何部署开发的微服务应用。本课程由黑马程序员提供。     相关的阿里云产品:容器服务 ACK 容器服务 Kubernetes 版(简称 ACK)提供高性能可伸缩的容器应用管理能力,支持企业级容器化应用的全生命周期管理。整合阿里云虚拟化、存储、网络和安全能力,打造云端最佳容器化应用运行环境。 了解产品详情: https://www.aliyun.com/product/kubernetes
目录
相关文章
|
24天前
|
存储 Kubernetes 网络安全
关于阿里云 Kubernetes 容器服务(ACK)添加镜像仓库的快速说明
本文介绍了在中国大陆地区因网络限制无法正常拉取 Docker 镜像的解决方案。作者所在的阿里云 Kubernetes 集群使用的是较旧版本的 containerd(1.2x),且无法直接通过 SSH 修改节点配置,因此采用了一种无需更改 Kubernetes 配置文件的方法。通过为 `docker.io` 添加 containerd 的镜像源,并使用脚本自动修改 containerd 配置文件中的路径错误(将错误的 `cert.d` 改为 `certs.d`),最终实现了通过多个镜像站点拉取镜像。作者还提供了一个可重复运行的脚本,用于动态配置镜像源。虽然该方案能缓解镜像拉取问题,
184 2
|
5月前
|
弹性计算 自然语言处理 Ubuntu
从0开始在阿里云上搭建基于通义千问的钉钉智能问答机器人
本文描述在阿里云上从0开始构建一个LLM智能问答钉钉机器人。LLM直接调用了阿里云百炼平台提供的调用服务。
从0开始在阿里云上搭建基于通义千问的钉钉智能问答机器人
|
5月前
|
运维 监控 网络协议
物联网设备状态监控全解析:从告警参数到静默管理的深度指南-优雅草卓伊凡
物联网设备状态监控全解析:从告警参数到静默管理的深度指南-优雅草卓伊凡
145 11
物联网设备状态监控全解析:从告警参数到静默管理的深度指南-优雅草卓伊凡
|
4月前
|
编解码 监控 算法
CDN+OSS边缘加速实践:动态压缩+智能路由降低30%视频流量成本(含带宽峰值监控与告警配置)
本方案通过动态压缩、智能路由及CDN与OSS集成优化,实现视频业务带宽成本下降31%,首帧时间缩短50%,错误率降低53%。结合实测数据分析与架构创新,有效解决冷启动延迟、跨区域传输及设备适配性问题,具备快速投入回收能力。
232 0
|
7月前
|
数据采集 运维 监控
数据采集监控与告警:错误重试、日志分析与自动化运维
本文探讨了数据采集技术从“简单采集”到自动化运维的演进。传统方式因反爬策略和网络波动常导致数据丢失,而引入错误重试、日志分析与自动化告警机制可显著提升系统稳定性与时效性。正方强调健全监控体系的重要性,反方则担忧复杂化带来的成本与安全风险。未来,结合AI与大数据技术,数据采集将向智能化、全自动方向发展,实现动态调整与智能识别反爬策略,降低人工干预需求。附带的Python示例展示了如何通过代理IP、重试策略及日志记录实现高效的数据采集程序。
301 7
数据采集监控与告警:错误重试、日志分析与自动化运维
|
7月前
|
Prometheus Kubernetes 监控
Kubernetes监控:Prometheus与AlertManager结合,配置邮件告警。
完成这些步骤之后,您就拥有了一个可以用邮件通知你的Kubernetes监控解决方案了。当然,所有的这些配置都需要相互照应,还要对你的Kubernetes集群状况有深入的了解。希望这份指南能帮助你创建出适合自己场景的监控系统,让你在首次发现问题时就能做出响应。
325 22
|
7月前
|
人工智能 运维 安全
更低成本、更高效、更安全!阿里云与钉钉联合推出协同办公AI解决方案
阿里云与钉钉携手推出了全新的“钉钉·AI Stack一体机”,以“低成本、高安全、零门槛”为核心,为用户提供基于钉钉,从模型部署到全员落地的AI解决方案,开启智能化办公的“一键加速”。
924 1
|
7月前
|
存储 监控 对象存储
ACK 容器监控存储全面更新:让您的应用运行更稳定、更透明
ACK 容器监控存储全面更新:让您的应用运行更稳定、更透明
163 0
ACK 容器监控存储全面更新:让您的应用运行更稳定、更透明
|
8月前
|
存储 监控 对象存储
ACK 容器监控存储全面更新:让您的应用运行更稳定、更透明
ACK 容器监控存储全面更新:让您的应用运行更稳定、更透明
121 1
|
7月前
|
存储 运维 Kubernetes
容器数据保护:基于容器服务 Kubernetes 版(ACK)备份中心实现K8s存储卷一键备份与恢复
阿里云ACK备份中心提供一站式容器化业务灾备及迁移方案,减少数据丢失风险,确保业务稳定运行。

相关产品

  • 容器服务Kubernetes版
  • 推荐镜像

    更多