SLS告警最佳实践—— K8s事件中心告警管理

本文涉及的产品
对象存储 OSS,20GB 3个月
日志服务 SLS,月写入数据量 50GB 1个月
文件存储 NAS,50GB 3个月
简介: K8S事件中心是SLS的日志应用之一,主要记录了集群的状态变更,包括创建Pod、运行Pod、删除Pod、组件异常等。K8S事件中心实时收集K8S中的所有事件并提供存储、查询、分析、可视化与告警能力。K8s事件中心默认也会提供仪表盘和告警,本文主要介绍下如何在ACK控制台和SLS控制台管理K8s事件中心的告警及其区别和使用场景。

K8s事件中心

K8S事件中心是SLS的日志应用之一,主要记录了集群的状态变更,包括创建Pod、运行Pod、删除Pod、组件异常等。K8S事件中心实时收集K8S中的所有事件并提供存储、查询、分析、可视化与告警能力。K8s事件中心默认也会提供仪表盘和告警,本文主要介绍下如何在ACK控制台和SLS控制台管理K8s事件中心的告警及其区别和使用场景。


K8s事件中心管理

K8s事件中心的告警配置可以ACK控制台开启,也可以在SLS控制台开启,两个控制台的告警规则是一致的,使用场景会有些区分,在实际使用中,建议根据不同场景开启不同控制台的告警,同时开启会造成告警重复。

  • ACK控制台:创建集群时默认开启(支持关闭),内置通知联系人,目前支持短信和邮件,后续会有更多通知渠道支持。
  • SLS控制台:在K8S事件中心应用中,批量开启告警规则,允许配置灵活的通知策略和多种通知渠道包括webhook,钉钉等。


K8s事件中心开启入口

ACK控制台

在ACK控制台创建集群时,如果开启了报警配置,会自动开启事件中心及告警。参考链接

SLS控制台

在SLS控制台日志应用->K8s事件中心可以创建或者查看K8s事件中心仪表盘和告警,有如下两种情况:

  • 在ACK控制台创建集群时已勾选告警配置,SLS K8s事件中心会默认显示已开启的集群。
  • 在ACK控制台未勾选告警配置,可以参考创建并使用K8s事件中心,手动进行配置。

K8s事件中心告警管理入口

ACK控制台

  • 如果已经购买了集群,可以通过ACK控制台集群列表->集群->运维管理->报警配置,来查看,开启,关闭告警。

在ACK控制台页面可以进行编辑通知对象,联系人管理,查看报警历史等,目前通知渠道包括短信和邮箱,后续会增加更多通知渠道。


SLS控制台

  1. SLS控制台首页,找到日志应用,点击查看更多日志应用->K8s事件中心,进入K8s事件中心应用页面。

  1. 在k8s事件中心左侧菜单找到对应的集群,进入告警配置->勾选SLS k8s事件中心

  1. 勾选一个或者多个规则,点击配置Cluster ID,弹出框里填集群ID或者集群名,这个字段将在默认的SLS ACK内置内容模板中引用。用法为${annotations.cluster_id}

  1. 勾选一个或者多个内置告警规则,批量开启告警规则

  1. 光标放在任意一个内置规则后面的问号图标,点击弹出框显示的行动策略SLS ACK内置行动策略,点击跳转进行配置(行动策略可以简单理解为通知配置)。

  1. SLS ACK内置行动策略中默认配置了不同的告警触发时,默认发送到短信渠道。
  • 通知内容分为三类:
  • 标签.object_name存在,表示事件中心的告警是object相关,对应的内容模板为SLS ACK Object内置内容模板。
  • 标签.pod_name存在,表示事件中心的告警是pod相关,对应的内容模板为SLS ACK Pod内置内容模板。
  • 标签.node_name存在,表示事件中心的告警是node相关,对应的内容模板为SLS ACK Node内置内容模板。
  • 其他,对应的内容模板为SLS ACK 内置内容模板。
  • 接收人默认为SLS内置用户组,可以点击接收人右边的查看按钮,修改用户组中的用户
  • 如果需要增加通知渠道可以点击行动组添加通知渠道按钮,添加其他通知渠道,但是内容模板强烈建议使用对应条件的SLS ACK ...内置内容模板,如果有修改需求,可以直接修改内置内容模板或者复制一个内置内容模板进行修改。


常见问题

  • ACK控制台的K8s事件中心告警与SLS控制台的“SLS K8s事件中心”的告警有什么不同?
  • 监控的logstore是一致的,都是监控k8s project下的k8s-event。
  • 告警监控规则也是一致的,都是内置监控规则。
  • ACK控制台和SLS控制台的告警开启该如何选择?
  • ACK控制台的K8s告警理解为极简告警,几乎只需要点开启按钮,即可完全开启监控规则,通知渠道支持短信和邮件。暂时不支持webhook或者钉钉。
  • SLS控制台K8s告警需要配置集群ID,支持批量开启/关闭,支持设置更多的通知渠道,例如webhook,钉钉,飞书,Function Compute等,具体可以参考链接
  • 如果需要更多的通知渠道,可以暂时关闭ACK控制台的告警,在SLS控制台开启相应的K8s告警,如果两者都开,会有重复告警,建议只开启一个。
  • 如果需要根据不同的namepace等配置不同的接收人,可以使用SLS控制台的K8s事件中心告警的内置行动策略:SLS ACK内置行动策略进行行动组条件的修改,默认情况下SLS的K8s事件中心告警都会使用同一个内置行动策略。
  • 在SLS控制台的Project为什么可以看到自定义的K8s事件中心告警?
  • 在K8s的Project的告警中心标签会默认展示Project下所有的告警:
  • ACK控制台开启的告警同样会展示在Project下(目前不支持对ACK控制台开启的告警进行编辑)
  • K8s事件中心的旧版告警是自定义告警,旧版告警在数量上比新版的内置告警规则会少很多,强烈建议关闭旧版告警,使用内置告警规则配置更灵活的通知。如果有自定义告警需求,建议使用新版自定义告警。
  • K8s事件中心告警的评估频率是多少?
  • 目前是5分钟评估一次,暂时不支持修改;如果需要更高频率的配置,可以在k8s-event上使用新建新版自定义告警来完成。

参考链接


相关实践学习
通过云拨测对指定服务器进行Ping/DNS监测
本实验将通过云拨测对指定服务器进行Ping/DNS监测,评估网站服务质量和用户体验。
目录
相关文章
|
3月前
|
Kubernetes 监控 开发者
掌握容器化:Docker与Kubernetes的最佳实践
【10月更文挑战第26天】本文深入探讨了Docker和Kubernetes的最佳实践,涵盖Dockerfile优化、数据卷管理、网络配置、Pod设计、服务发现与负载均衡、声明式更新等内容。同时介绍了容器化现有应用、自动化部署、监控与日志等开发技巧,以及Docker Compose和Helm等实用工具。旨在帮助开发者提高开发效率和系统稳定性,构建现代、高效、可扩展的应用。
|
1月前
|
人工智能 运维 监控
容器服务Kubernetes场景下可观测体系生产级最佳实践
阿里云容器服务团队在2024年继续蝉联Gartner亚洲唯一全球领导者象限,其可观测体系是运维的核心能力之一。该体系涵盖重保运维、大规模集群稳定性、业务异常诊断等场景,特别是在AI和GPU场景下提供了全面的观测解决方案。通过Tracing、Metric和Log等技术,阿里云增强了对容器网络、存储及多集群架构的监控能力,帮助客户实现高效运维和成本优化。未来,结合AI助手,将进一步提升问题定位和解决效率,缩短MTTR,助力构建智能运维体系。
|
2月前
|
Kubernetes 算法 调度
阿里云 ACK FinOps成本优化最佳实践
本文源自2024云栖大会梁成昊演讲,讨论了成本优化策略的选择与实施。文章首先介绍了成本优化的基本思路,包括优化购买方式、调整资源配置等基础策略,以及使用弹性、资源混部等高级策略。接着,文章详细探讨了集群优化和应用优化的具体方法,如使用抢占式实例降低成本、通过资源画像识别并优化资源配置,以及利用智能应用弹性策略提高资源利用效率。
|
2月前
|
Kubernetes 容灾 调度
阿里云 ACK 高可用稳定性最佳实践
本文整理自2024云栖大会刘佳旭的演讲,主题为《ACK高可用稳定性最佳实践》。文章探讨了云原生高可用架构的重要性,通过Kubernetes的高可用案例分析,介绍了ACK在单集群高可用架构设计、产品能力和最佳实践方面的方法,包括控制面和数据面的高可用策略、工作负载高可用配置、企业版容器镜像服务高可用配置等内容,旨在帮助企业构建更加可靠和高效的应用运行环境。
|
2月前
|
缓存 安全 网络协议
使用事件日志识别常见 Windows 错误
事件查看器是Windows操作系统中的标准诊断工具,用于记录系统事件,包括硬件问题、软件中断和系统行为等详细信息。通过分析这些日志,管理员能够追踪和解决系统错误。访问方法包括使用快捷键Win + R输入eventvwr.msc,或通过控制面板进入。事件查看器中的每条记录包含事件ID、来源和描述,帮助识别和解决问题。常见错误如蓝屏死机、DLL错误、驱动程序错误等,可通过更新驱动程序、运行系统诊断、使用恢复功能等方式解决。
110 4
|
2月前
|
存储 监控 安全
什么是事件日志管理系统?事件日志管理系统有哪些用处?
事件日志管理系统是IT安全的重要工具,用于集中收集、分析和解释来自组织IT基础设施各组件的事件日志,如防火墙、路由器、交换机等,帮助提升网络安全、实现主动威胁检测和促进合规性。系统支持多种日志类型,包括Windows事件日志、Syslog日志和应用程序日志,通过实时监测、告警及可视化分析,为企业提供强大的安全保障。然而,实施过程中也面临数据量大、日志管理和分析复杂等挑战。EventLog Analyzer作为一款高效工具,不仅提供实时监测与告警、可视化分析和报告功能,还支持多种合规性报告,帮助企业克服挑战,提升网络安全水平。
114 2
|
3月前
|
存储 运维 Kubernetes
K8s业务迁移最佳实践: 灵活管理资源备份与调整策略,实现高效简便的应用恢复
在当今快速变化的云原生领域,Kubernetes(K8s)集群的运维面临着诸多挑战,其中灾备与业务迁移尤为关键。ACK备份中心支持丰富的资源调整策略,在数据恢复阶段即可自动适配目标集群环境,确保业务无缝重启。
|
3月前
|
Kubernetes 监控 API
深入解析Kubernetes及其在生产环境中的最佳实践
深入解析Kubernetes及其在生产环境中的最佳实践
118 1
|
3月前
|
消息中间件 测试技术
通过轻量消息队列(原MNS)主题HTTP订阅+ARMS实现自定义数据多渠道告警
轻量消息队列(原MNS)以其简单队列模型、轻量化协议及按量后付费模式,成为阿里云产品间消息传输首选。本文通过创建主题、订阅、配置告警集成等步骤,展示了该产品在实际应用中的部分功能,确保消息的可靠传输。
81 2
|
4月前
|
XML JSON 监控
告别简陋:Java日志系统的最佳实践
【10月更文挑战第19天】 在Java开发中,`System.out.println()` 是最基本的输出方法,但它在实际项目中往往被认为是不专业和不足够的。本文将探讨为什么在现代Java应用中应该避免使用 `System.out.println()`,并介绍几种更先进的日志解决方案。
102 1

相关产品

  • 日志服务