SLS新版告警入门-旧版告警升级

本文涉及的产品
对象存储 OSS,20GB 3个月
对象存储 OSS,恶意文件检测 1000次 1年
对象存储 OSS,内容安全 1000次 1年
简介: 近期SLS发布了新版告警,新版本告警在升级原有功能的基础上,扩展了告警监控、告警管理、通知(行动)管理的能力,SLS新版告警还支持在控制台将旧版告警一键升级为新版告警。本文首先会介绍新版与旧版在架构、功能和配置上的区别,然后通过一个实例演示如果将旧版告警一键升级为新版告警。

近期SLS发布了新版告警,新版本告警在升级原有功能的基础上,扩展了告警监控、告警管理、通知(行动)管理的能力,SLS新版告警还支持在控制台将旧版告警一键升级为新版告警。本文首先会介绍新版与旧版在架构、功能和配置上的区别,然后通过一个实例演示如果将旧版告警一键升级为新版告警。

架构对比

新版告警在告警规则任务监控数据、触发通知后,通过告警策略进行降噪、通过行动策略进行渠道分派管理。并支持额外的告警状态管理和告警升级。

旧版告警工作流程

image.png

调度器

定期调度

告警规则任务

钉钉

短信

监控

数据

通知内容

简单抑制机制

日志,时序,资

(次数闽值)

Wedhook

语音

源数据

内嵌通知渠道列表

(接收人,内容模板)

邮箱

通知中心

新版告警工作流程

image.png

调度器

钉钉

短信

告警规则任

告警事件管理

数据

日志,时序,资

语音

Webhook

行动策略

告警策略

增强引擎

源数据

邮箱

通知中心

合并,抑制,

动态分派渠

告著规则模板

静默等

道列表

独立用户人,用户

组,内容模板


功能对比

新版本对原有旧版本的功能进行了升级,并且新增了很多实用的功能,这里不再详细展开介绍,更详细的功能对比可以参考

功能升级

  • 监控目标:除了支持原来的日志,时序和外部数据源(OSS,MySQL)等,还支持用户直接在SLS创建自定义资源表;
  • 触发条件:旧版告警仅支持对查询的集合操作结果任意条数据判断(任一条数据满足即为触发);新版告警支持四种触发条件的判断,既支持对结果中数据进行评估,还支持对结果条数进行评估,及其之间的组合评估;
  • 报表关联:旧版告警强制告警必须与仪表盘关联,新版告警取消了报表的强制关联;
  • 多库联合查询:旧版告警支持对三张表进行笛卡尔积结果评估,新版告警增加了不合并、拼接、左联、右联、全联合、左斥和右斥等集合操作功能;

功能新增

  • 告警监控:增加了数据协同关联监控能力,黑白名单监控,告警严重度,标签,标注,多目标监控,无数据告警和告警恢复,详细可以参考
  • 告警管理:增加了告警降噪控制告警事件管理
  • 通知管理:支持告警动态分派和级别提升,接收人管理,渠道日历,值班表管理,渠道额度控制,详细可以参考
  • 告警分析:增加了监控规则中心,告警链路中心,告警排障中心。

旧版告警升级流程

旧版告警升级涉及到的配置项的一些变化,主要包含配置项包括监控配置,通知配置,内容模板变量修改。

监控配置

对于新增的监控配置项在升级过程中设置了默认值

image.png

新增配置项

默认值

不分组

分组评估

笛卡尔拼接

查询统计的集合操作

任意条数满足

触发条件

告警严重度

无数据告警

自闭

关闭

恢复通知

通知配置

升级后,日志服务提取手机号、邮箱作为用户标识,并创建对应的用户;提取通知内容作为内容模板的内容;根据通知渠道配置生成对应的行动策略;默认使用SLS内置动态告警策略。

image.png

通知方式

旧版

新版

短信

用户名+手机+内容模板

短手机号码+发送内容

语音手机号码+发送内容

用户名+手机号+内容模板

语音

用户名+邮箱地址+内容模板

邮箱

邮箱地址+发送内容

请求地址+钉钉中@手机号+发送内容

钉钉

用户名+手机号+内容模板

短信内容

语音内容

邮箱内容

不涉及

内容模板

自定义WebHook内容

钉钉WebhHook内容

通知中心内容

模板变量

新版告警对模板变量进行了优化,并增加了多个更新的变量,参考

旧版告警升级实例

接下来以一个旧版告警为例,在SLS控制台一键升级为新版告警。

基于Nginx访问日志,我们创建一个监控500错误过多的旧版告警,主要监控逻辑是查询过去15分钟内出现500的请求次数是否大于10个,如果大于10个,就发出告警,通知到钉钉机器人和邮件,通知间隔默认设置为5分钟(表示同一条告警每次评估,5分钟内只会收到一次通知)

配置旧版告警

  • 监控配置如下:

image.png

  • 通知配置如下,包括钉钉和邮件通知渠道:

image.png

image.png


升级

  • 点击升级按钮,升级为新版告警
  • 如果是首次使用新版告警,请根据页面提示配置存储中心,并单击确认配置完成后,日志服务将自动在您所选的地域创建一个名为sls-alert-主账号ID-区域的Project和名为internal-alert-center-log的Logstore,用于存储告警相关信息。

   image.png

  • 点击确认后会弹出升级告警涉及到一些配置项,如下;
  • 本次升级会增加一个行动策略,内容包含告警触发后的通知渠道设置,包含钉钉和邮件通知;
  • 增加一个内容模板,指定在要钉钉和邮件中发送的内容,其中已经自动将旧版告警的内容模板变量升级为新的内容模板变量;
  • 增加一个用户,取旧版告警中的短信,语音以及钉钉通知中@人的手机号作为手机用户,取邮件渠道中的邮件地址作为邮件用户,本次升级因为只配置了邮件和钉钉(未指定@手机号),所以会提取邮件地址创建用户。

         image.png

  • 点击确认,新版告警升级成功,重新查询该告警,点击修改配置,可以看到已经升级为新版告警编辑页面

查看升级结果

  • 告警规则
  • 规则名,检查频率,查询统计等基础信息保持不变
  • 分组评估,默认设置为不分组
  • 触发条件,更新为有数据匹配+评估表达式,与原有逻辑保持兼容
  • 告警严重度,默认设置为中
  • 标注,默认增加标题和描述,取值为告警名称
  • 告警策略和行动策略,告警策略默认使用内置动态告警;行动策略,会生成了一个新的名称为“行动策略迁移自_Nginx500错误过多”的行动策略;重复等待取自原来的通知间隔时间,逻辑保持兼容

image.png

告警规则

规则名称:

12/64

Nginx500错误过多

固定间隔

检查频率:

分钟

15

查询统计:

添加

status>-500ISELECTCOUNTaSerr-count

15分钟(相对)

分组评估:

不分组

触发条件:

有数据匹配

10

errcount

告警严重度:

添加

添加标签:

添加

添加标注:

Nginx500错误过多

标题(title)

描述(desc)

Nginx500错误过多

添加

恢复通知:

高级配置

告警策略:

高级选项

行动策略迁移自_Nginx500错误过多(m-ap...

新增

行动策略:

查看配置详情

重复等待:

5

分钟

取消

确定


  • 行动策略

点击上图中行动策略的查询配置详情,弹出迁移好的行动策略编辑页面,其中原来的通知渠道配置,在该行动策略中被包含在行动组中,这里包含钉钉和邮件两个行动。

image.png

编辑行动策略

ID:

18/60

map_1619238823683

名称:

行动策略迁移自Nqinx500错误过多

20/40

第一行动列表

第二行动列表

行动组

4

钉钉

S

邮件

自动分派

+添加通知渠道

取消

确认

  image.png

  • 内容模板
  • 点击上图中的钉钉的配置,点击内容模板的查看,可以看到一个名称为“内容模板迁移自_Nginx500错误过多”的内容模板
  • 内容模板包括每个通知渠道的发送内容,这里涉及到钉钉和邮件的内容
  • 点开钉钉(Webhook)选项卡,可以看到发送内容已经迁移好,并且使用了新的模板变量,也可以点击邮件选项卡,查询邮件内容

 image.png

  • 通知结果对比,以下为钉钉发送通知的对比

image.png

 image.png

demo机暴人

自机路人

22:09

[日志服务告警]Nginx500错误过多

告警数量:1

告警详情:

[Uid]1654218965343050

[Project]domo-alort-chongdu

[Trigger]Nginx500错误过多

[ConditionjCount-(1)>0.Condition(37>10

[Messago]通知内容

[Contextj[orr.count:37]

[查看详情]屏敬5分钟]

这样一个旧版告警升级就完成了,升级过程比较简单,基本实现了“一键升级”,在升级后用户可以通过修改配置使用到新版功能中的新功能,例如可以设置无数据告警和告警恢复通知,还可以对告警进行降噪和事件管理。

参考

  • 什么是日志服务告警【链接
  • SLS告警旧版与新版区别,及迁移到新版【链接
  • SLS新版告警通知管理【链接

进一步参考



最后,如果您还想了解更多智能运维前沿资讯,欢迎您报名参加【数智创新行·智能运维专场】。

6月25日|上海·西岸国际人工智能中心

数智创新行上海站·智能运维专场

阿里云将带来云原生智能运维解决方案,满足海量事件有效感知、高效响应,可观测数据统一分析、故障定位,以及基于AI的异常检测等需求,助力企业构建自己的运维平台,成为开发、运维人员高效可靠的助手。

扫描海报二维码或点击下方链接报名, 期待您一起开启智能运维新时代!

https://www.aliyun.com/page-source//developer/special/osssalon

智能运维专场图片.jpg

相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
目录
相关文章
|
4月前
|
Java 中间件
SpringBoot入门(6)- 添加Logback日志
SpringBoot入门(6)- 添加Logback日志
143 5
|
4月前
|
Java 中间件
SpringBoot入门(6)- 添加Logback日志
SpringBoot入门(6)- 添加Logback日志
82 1
|
4月前
|
Oracle 关系型数据库 数据库
【赵渝强老师】Oracle的参数文件与告警日志文件
本文介绍了Oracle数据库的参数文件和告警日志文件。参数文件分为初始化参数文件(PFile)和服务器端参数文件(SPFile),在数据库启动时读取并分配资源。告警日志文件记录了数据库的重要活动、错误和警告信息,帮助诊断问题。文中还提供了相关视频讲解和示例代码。
122 1
|
8月前
|
SQL 运维 监控
SLS 数据加工全面升级,集成 SPL 语法
在系统开发、运维过程中,日志是最重要的信息之一,其最大的优点是简单直接。SLS 数据加工功能旨在解决非结构化的日志数据处理,当前全面升级,集成 SPL 语言、更强的数据处理性能、更优的使用成本。
18255 156
|
7月前
|
存储 消息中间件 人工智能
AI大模型独角兽 MiniMax 基于阿里云数据库 SelectDB 版内核 Apache Doris 升级日志系统,PB 数据秒级查询响应
早期 MiniMax 基于 Grafana Loki 构建了日志系统,在资源消耗、写入性能及系统稳定性上都面临巨大的挑战。为此 MiniMax 开始寻找全新的日志系统方案,并基于阿里云数据库 SelectDB 版内核 Apache Doris 升级了日志系统,新系统已接入 MiniMax 内部所有业务线日志数据,数据规模为 PB 级, 整体可用性达到 99.9% 以上,10 亿级日志数据的检索速度可实现秒级响应。
AI大模型独角兽 MiniMax 基于阿里云数据库 SelectDB 版内核 Apache Doris 升级日志系统,PB 数据秒级查询响应
|
7月前
|
Java Shell Linux
【Linux入门技巧】新员工必看:用Shell脚本轻松解析应用服务日志
关于如何使用Shell脚本来解析Linux系统中的应用服务日志,提供了脚本实现的详细步骤和技巧,以及一些Shell编程的技能扩展。
116 0
【Linux入门技巧】新员工必看:用Shell脚本轻松解析应用服务日志
|
7月前
|
XML Java Maven
Spring5入门到实战------16、Spring5新功能 --整合日志框架(Log4j2)
这篇文章是Spring5框架的入门到实战教程,介绍了Spring5的新功能——整合日志框架Log4j2,包括Spring5对日志框架的通用封装、如何在项目中引入Log4j2、编写Log4j2的XML配置文件,并通过测试类展示了如何使用Log4j2进行日志记录。
Spring5入门到实战------16、Spring5新功能 --整合日志框架(Log4j2)
|
7月前
|
缓存 Oracle Java
JDK8到JDK22版本升级的新特性问题之在JDK17中,日志的刷新如何操作
JDK8到JDK22版本升级的新特性问题之在JDK17中,日志的刷新如何操作
|
9月前
|
运维 Serverless API
Serverless 应用引擎产品使用合集之sls日志告警调用函数计算,出现抛出的结果异常,是什么原因
阿里云Serverless 应用引擎(SAE)提供了完整的微服务应用生命周期管理能力,包括应用部署、服务治理、开发运维、资源管理等功能,并通过扩展功能支持多环境管理、API Gateway、事件驱动等高级应用场景,帮助企业快速构建、部署、运维和扩展微服务架构,实现Serverless化的应用部署与运维模式。以下是对SAE产品使用合集的概述,包括应用管理、服务治理、开发运维、资源管理等方面。
|
9月前
|
Java 数据库连接 数据库
Spring日志完结篇,MyBatis操作数据库(入门)
Spring日志完结篇,MyBatis操作数据库(入门)

相关产品

  • 日志服务