阿里云容器Kubernetes监控(四) - 使用钉钉实现Kubernetes监控告警

本文涉及的产品
容器镜像服务 ACR,镜像仓库100个 不限时长
简介: 前言 容器应用的监控和传统应用的监控有很大的不同,在本系列的前面几篇文章中提到了关于自顶向下的传统监控策略以及在容器中常用的自底向上的反向监控策略与问题以及阿里云是如何通过数据链路与逻辑链路分离的方式解决上述问题的,文章直达连接。

前言

容器应用的监控和传统应用的监控有很大的不同,在本系列的前面几篇文章中提到了关于自顶向下的传统监控策略以及在容器中常用的自底向上的反向监控策略与问题以及阿里云是如何通过数据链路与逻辑链路分离的方式解决上述问题的,文章直达连接

但是基于数据采集的监控对于告警而言,会有很大的时延,特别是对于容器的场景,一旦容器在采集间隔中Panic后被拉起,那么很有可能会造成对异常的告警静默。那么对于这种场景改通过什么方式来解决呢?在传统的应用中是通过接入层检测或者定期检测的方式进行保活,这种方式在Kubernetes中一样也可以通过配置来实现,那么怎么将这些内容通过告警的方式进行通知呢?

在回答这个问题之前,我们首先要先讲一下Kubernetes中的状态机制,在Kubernetes中有针对于不同场景的抽象,例如Deployment表示普通的部署、StatefulSet表示有状态的服务,DaemonSet表示在每个节点运行的后台服务等等,每个不同的抽象都可以通过相应的Yaml语法进行描述,当开发者将Yaml提交给Kubernetes后,相应的变更逻辑就会进行执行。如果此时我们通过Dashboard查看刚才我们不是的Yaml文件时,我们会发现,其中有很多的字段并不是原本就存在的,而是后来通过Kubernetes内部添加上的。例如:

lALPBY0V49ZFXNrNAzjNBQ8_1295_824_png_620x10000q90g

值得特别关注的是status这个字段,这个字段中包含了当前抽象的各种状态,以及目前预置的支持的状态条件。如果状态条件的status字段为True,那么说明此时处在当前的状态。例如此例中,这个Deployment就处在AvailableProgressing两个状态。这种机制有一个非常好的用途,当我们发现当前抽象异常的时候,可以通过查看status的内容来判断大致的问题进而进行解决。

有了这个机制,我们还需要的就是如何快速感知到状态的异常并进行处理。在Kubernetes中针对这个问题,提供了事件的机制,将事件和抽象进行绑定,将状态对应的影响和事件的类型进行分类,比如常规事件的类型是Normal而异常类型的事件为Warning。也就是说,一旦集群中出现了Warning类型的事件,那么此时就需要开发者接入进行甄别是否需要手动介入进行处理。

那么如何实时的获取集群中的异常事件呢?对于这种实时性较强的告警策略而言,ChatOps或许是最佳的方式,大部分阿里云容器服务的开发者都会有自己的钉钉群,将事件同步到群中即可实现故障的快速处理。

具体的操作步骤如下:

1.在钉钉群中加入钉钉机器人,并拷贝记录下webhook地址
lALPBY0V49ZGuhjNAm3NA74_958_621_png_620x10000q90g
lALPBY0V49ZGujbNAh_NAqE_673_543_png_620x10000q90g

2.在容器服务控制台中下发eventer组件

apiVersion: extensions/v1beta1
kind: Deployment
metadata:
  name: kube-eventer
  namespace: kube-system
spec:
  replicas: 1
  template:
    metadata:
      labels:
        task: monitoring
        k8s-app: kube-eventer
      annotations:
        scheduler.alpha.kubernetes.io/critical-pod: ''
    spec:
      serviceAccount: admin
      containers:
      - name: kube-eventer
        image: registry.cn-hangzhou.aliyuncs.com/acs/kube-eventer-amd64:v1.0.0-d9898e1-aliyun
        imagePullPolicy: IfNotPresent
        command:
        - /kube-eventer
        - --source=kubernetes:https://kubernetes.default
        - --sink=dingtalk:[your_webhook_url]&label=[your_cluster_id]&level=[可选参数:Normal或者Warning,默认值为:Warning]

3.部署成功后30s,eventer即开始生效,当事件等级超过阈值等级的时候即可收到如下告警。
lALPBY0V49ZHdYLNAlvNAoo_650_603_png_620x10000q90g

最后

由于eventer属于kubernetes的Heapster项目,Heapster项目目前被官方列入deprecated阶段,但是这并不妨碍eventer成为Kubernetes实时告警中的唯一选择,包含钉钉告警的代码仓库地址:https://github.com/AliyunContainerService/heapster,有兴趣的开发者可以一同参与。

相关实践学习
通过Ingress进行灰度发布
本场景您将运行一个简单的应用,部署一个新的应用用于新的发布,并通过Ingress能力实现灰度发布。
容器应用与集群管理
欢迎来到《容器应用与集群管理》课程,本课程是“云原生容器Clouder认证“系列中的第二阶段。课程将向您介绍与容器集群相关的概念和技术,这些概念和技术可以帮助您了解阿里云容器服务ACK/ACK Serverless的使用。同时,本课程也会向您介绍可以采取的工具、方法和可操作步骤,以帮助您了解如何基于容器服务ACK Serverless构建和管理企业级应用。 学习完本课程后,您将能够: 掌握容器集群、容器编排的基本概念 掌握Kubernetes的基础概念及核心思想 掌握阿里云容器服务ACK/ACK Serverless概念及使用方法 基于容器服务ACK Serverless搭建和管理企业级网站应用
目录
相关文章
|
2月前
|
运维 监控 网络协议
物联网设备状态监控全解析:从告警参数到静默管理的深度指南-优雅草卓伊凡
物联网设备状态监控全解析:从告警参数到静默管理的深度指南-优雅草卓伊凡
73 11
物联网设备状态监控全解析:从告警参数到静默管理的深度指南-优雅草卓伊凡
|
4月前
|
数据采集 运维 监控
数据采集监控与告警:错误重试、日志分析与自动化运维
本文探讨了数据采集技术从“简单采集”到自动化运维的演进。传统方式因反爬策略和网络波动常导致数据丢失,而引入错误重试、日志分析与自动化告警机制可显著提升系统稳定性与时效性。正方强调健全监控体系的重要性,反方则担忧复杂化带来的成本与安全风险。未来,结合AI与大数据技术,数据采集将向智能化、全自动方向发展,实现动态调整与智能识别反爬策略,降低人工干预需求。附带的Python示例展示了如何通过代理IP、重试策略及日志记录实现高效的数据采集程序。
203 7
数据采集监控与告警:错误重试、日志分析与自动化运维
|
4月前
|
Prometheus Kubernetes 监控
Kubernetes监控:Prometheus与AlertManager结合,配置邮件告警。
完成这些步骤之后,您就拥有了一个可以用邮件通知你的Kubernetes监控解决方案了。当然,所有的这些配置都需要相互照应,还要对你的Kubernetes集群状况有深入的了解。希望这份指南能帮助你创建出适合自己场景的监控系统,让你在首次发现问题时就能做出响应。
174 22
|
5月前
|
Cloud Native Serverless 数据中心
阿里云ACK One:注册集群支持ACS算力——云原生时代的计算新引擎
阿里云ACK One:注册集群支持ACS算力——云原生时代的计算新引擎
156 10
|
5月前
|
Kubernetes 监控 Serverless
基于阿里云Serverless Kubernetes(ASK)的无服务器架构设计与实践
无服务器架构(Serverless Architecture)在云原生技术中备受关注,开发者只需专注于业务逻辑,无需管理服务器。阿里云Serverless Kubernetes(ASK)是基于Kubernetes的托管服务,提供极致弹性和按需付费能力。本文深入探讨如何使用ASK设计和实现无服务器架构,涵盖事件驱动、自动扩展、无状态设计、监控与日志及成本优化等方面,并通过图片处理服务案例展示具体实践,帮助构建高效可靠的无服务器应用。
|
5月前
|
边缘计算 调度 对象存储
部署DeepSeek但IDC GPU不足,阿里云ACK Edge虚拟节点来帮忙
介绍如何使用ACK Edge与虚拟节点满足DeepSeek部署的弹性需求。
|
5月前
|
Kubernetes 持续交付 开发工具
阿里云协同万兴科技落地ACK One GitOps方案,全球多机房应用自动化发布,效率提升50%
阿里云协同万兴科技落地ACK One GitOps方案,全球多机房应用自动化发布,效率提升50%
149 2
|
5月前
|
监控 Kubernetes Cloud Native
基于阿里云容器服务Kubernetes版(ACK)的微服务架构设计与实践
本文介绍了如何基于阿里云容器服务Kubernetes版(ACK)设计和实现微服务架构。首先概述了微服务架构的优势与挑战,如模块化、可扩展性及技术多样性。接着详细描述了ACK的核心功能,包括集群管理、应用管理、网络与安全、监控与日志等。在设计基于ACK的微服务架构时,需考虑服务拆分、通信、发现与负载均衡、配置管理、监控与日志以及CI/CD等方面。通过一个电商应用案例,展示了用户服务、商品服务、订单服务和支付服务的具体部署步骤。最后总结了ACK为微服务架构提供的强大支持,帮助应对各种挑战,构建高效可靠的云原生应用。
|
5月前
|
弹性计算 人工智能 资源调度
DeepSeek大解读系列公开课上新!阿里云专家主讲云上智能算力、Kubernetes容器服务、DeepSeek私有化部署
智猩猩「DeepSeek大解读」系列公开课第三期即将开讲,聚焦阿里云弹性计算助力大模型训练与部署。三位专家将分别讲解智能算力支撑、Kubernetes容器服务在AI场景的应用实践、以及DeepSeek一键部署和多渠道应用集成,分享云计算如何赋能大模型发展。欲观看直播,可关注【智猩猩GenAI视频号】预约。 (239字符)
|
5月前
|
边缘计算 调度 对象存储
部署DeepSeek但IDC GPU不足,阿里云ACK Edge虚拟节点来帮忙
部署DeepSeek但IDC GPU不足,阿里云ACK Edge虚拟节点来帮忙

相关产品

  • 容器服务Kubernetes版
  • 推荐镜像

    更多
    AI助理

    你好,我是AI助理

    可以解答问题、推荐解决方案等

    登录插画

    登录以查看您的控制台资源

    管理云资源
    状态一览
    快捷访问