SLS新版本告警入门——告警管理概述

本文涉及的产品
对象存储 OSS,20GB 3个月
对象存储 OSS,内容安全 1000次 1年
对象存储 OSS,恶意文件检测 1000次 1年
简介: 日志服务支持为查询或分析结果设置告警。设置告警后,日志服务定期检查查询或分析结果,当检查结果满足预设条件时发送告警通知,实现实时的服务状态监控。在旧版本的告警中,告警规则以及通知的配置都很简单直观,但是也存在着一些痛点。为了解决上述种种存在的痛点,我们对SLS的告警功能进行了升级,提供了更加强大的功能。可以完美解决以上的一些痛点。

SLS旧版本告警概述

日志服务支持为查询或分析结果设置告警。设置告警后,日志服务定期检查查询或分析结果,当检查结果满足预设条件时发送告警通知,实现实时的服务状态监控。

1.png

在旧版本的告警中,告警规则以及通知的配置都很简单直观,但是也存在着一些痛点,主要如下:

  1. 通知配置无法复用。例如手机号、邮箱、Webhook或者钉钉机器人的地址、通知内容等信息。假如多个告警需要发给相同的人,发送相同的通知内容,就需要将用户联系方式以及通知内容配置多次,带来了很多额外的配置负担。
  2. 通知功能相对较弱,不支持动态的通知策略。例如:
  1. 多人值班
  2. 根据是否工作时间选择不同的通知渠道或者通知给不同的人
  3. 根据告警本身属性(例如严重度等)通知到不同的人
  1. 容易产生告警风暴。例如某个服务接口挂掉,那么所有依赖该服务的其它服务都可能报错触发告警,此时就会产生大量的通知,但是无法进行聚合和过滤。
  2. 缺少一些更高级、更灵活的编排功能。
  3. 等等…

SLS新版本告警概述

为了解决上述种种存在的痛点,我们对SLS的告警功能进行了升级,提供了更加强大的功能。可以完美解决以上的一些痛点。例如:

  1. 高级、灵活的编排机制(告警策略
  1. 告警路由合并:避免告警风暴
  2. 告警抑制:处理告警之间的互相影响
  3. 告警静默:预期内告警可以不发通知
  1. 通知基础资源管理
  1. 用户管理:手机号、邮箱的复用
  2. 用户组管理:管理一组用户
  3. 值班组管理:提供动态灵活的值班机制
  4. 日历管理:支持工作时间配置以及国际化时区
  5. 内容模板管理:可以复用通知内容
  1. 通知管理(行动策略
  1. 通过什么渠道:短信、电话、邮件、钉钉、Webhook、阿里云消息中心
  2. 发送给谁:选择用户、用户组或者值班组
  3. 发送什么内容:选择内容模板
  4. 其它配置:例如发送时段(是否是工作时间)、钉钉机器人是否要@某个用户、等等


完整的介绍可以参考 什么是日志服务告警,整体的功能架构参考如下:


2.png


本文主要讲解其中告警管理和通知管理部分内容。

告警管理流程

通常来说,如果要快速了解一个事物,那么从整体上了解它的脉络和结构,然后再逐部分细化深究,会起到不错的效果。因为为了了解SLS新版本告警的处理流程,我们需要先从整体上来看一下,告警触发后,究竟经历了什么。


在这个过程中,我们只需要牢记两个东西即可:告警策略、行动策略。其它一切都是围绕着这两种策略来进行的。整体上的流程如下图所示:


3.png


简而言之,告警策略就是对告警进行编排管理,行动策略是处理如何通知的问题。这么想的话,事情就变得简单起来,也就是说,当告警出发后,需要先决定哪些告警要发,然后再决定要发给谁,最后就是用户收到了通知。


其中告警策略通过路由合并、抑制和静默机制,不仅解决了哪些告警要发送的问题,同时对它们进行了合并,从而可以达到批量发送通知的效果,避免用户同一时间收到大量的通知。而行动策略不仅解决了复用的问题,还提供了更强大的动态发送机制。


为了达到告警策略和行动策略的强大且灵活的特性,我们提供了一套可视化图的方式来进行配置,从而可以很直观地进行各种条件相关的配置。

4.png

到此为止,我们可以总结一下:

  • 告警管理的核心就是告警策略和行动策略
  • 告警策略和行动策略,都是基于可视化交互表单的方式来进行配置


关于它们的具体使用和配置,我们会在接下来的文章中进行详细的介绍。


最后,如果您还想了解更多智能运维前沿资讯,欢迎您报名参加【数智创新行·智能运维专场】。

6月25日|上海·西岸国际人工智能中心

数智创新行上海站·智能运维专场

阿里云将带来云原生智能运维解决方案,满足海量事件有效感知、高效响应,可观测数据统一分析、故障定位,以及基于AI的异常检测等需求,助力企业构建自己的运维平台,成为开发、运维人员高效可靠的助手。

扫描海报二维码或点击下方链接报名, 期待您一起开启智能运维新时代!

https://www.aliyun.com/page-source//developer/special/osssalon

lALPDiCpvQqidCTNJmnNDDU_3125_9833.png

相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
目录
相关文章
|
8天前
|
Java 中间件
SpringBoot入门(6)- 添加Logback日志
SpringBoot入门(6)- 添加Logback日志
43 5
|
3天前
|
消息中间件 测试技术
通过轻量消息队列(原MNS)主题HTTP订阅+ARMS实现自定义数据多渠道告警
轻量消息队列(原MNS)以其简单队列模型、轻量化协议及按量后付费模式,成为阿里云产品间消息传输首选。本文通过创建主题、订阅、配置告警集成等步骤,展示了该产品在实际应用中的部分功能,确保消息的可靠传输。
14 2
|
7天前
|
Oracle 关系型数据库 数据库
【赵渝强老师】Oracle的参数文件与告警日志文件
本文介绍了Oracle数据库的参数文件和告警日志文件。参数文件分为初始化参数文件(PFile)和服务器端参数文件(SPFile),在数据库启动时读取并分配资源。告警日志文件记录了数据库的重要活动、错误和警告信息,帮助诊断问题。文中还提供了相关视频讲解和示例代码。
|
5月前
|
监控 关系型数据库 MySQL
|
3月前
|
Java Shell Linux
【Linux入门技巧】新员工必看:用Shell脚本轻松解析应用服务日志
关于如何使用Shell脚本来解析Linux系统中的应用服务日志,提供了脚本实现的详细步骤和技巧,以及一些Shell编程的技能扩展。
55 0
【Linux入门技巧】新员工必看:用Shell脚本轻松解析应用服务日志
|
3月前
|
XML Java Maven
Spring5入门到实战------16、Spring5新功能 --整合日志框架(Log4j2)
这篇文章是Spring5框架的入门到实战教程,介绍了Spring5的新功能——整合日志框架Log4j2,包括Spring5对日志框架的通用封装、如何在项目中引入Log4j2、编写Log4j2的XML配置文件,并通过测试类展示了如何使用Log4j2进行日志记录。
Spring5入门到实战------16、Spring5新功能 --整合日志框架(Log4j2)
|
4月前
|
弹性计算 Prometheus Cloud Native
SLS Prometheus存储问题之Union MetricStore在性能测试中是如何设置测试环境的
SLS Prometheus存储问题之Union MetricStore在性能测试中是如何设置测试环境的
|
3月前
|
缓存 Oracle Java
JDK8到JDK22版本升级的新特性问题之在JDK17中,日志的刷新如何操作
JDK8到JDK22版本升级的新特性问题之在JDK17中,日志的刷新如何操作
|
5月前
|
存储 运维 Serverless
函数计算产品使用问题之日志告警不生效,一般是由于什么造成的
函数计算产品作为一种事件驱动的全托管计算服务,让用户能够专注于业务逻辑的编写,而无需关心底层服务器的管理与运维。你可以有效地利用函数计算产品来支撑各类应用场景,从简单的数据处理到复杂的业务逻辑,实现快速、高效、低成本的云上部署与运维。以下是一些关于使用函数计算产品的合集和要点,帮助你更好地理解和应用这一服务。
|
1月前
|
移动开发 监控 Android开发
Android & iOS 使用 ARMS 用户体验监控(RUM)的最佳实践
本文主要介绍了 ARMS 用户体验监控的基本功能特性,并介绍了在几种常见场景下的最佳实践。

相关产品

  • 日志服务