SLS新版告警入门-旧版告警升级

本文涉及的产品
对象存储 OSS,20GB 3个月
对象存储 OSS,恶意文件检测 1000次 1年
对象存储 OSS,内容安全 1000次 1年
简介: 近期SLS发布了新版告警,新版本告警在升级原有功能的基础上,扩展了告警监控、告警管理、通知(行动)管理的能力,SLS新版告警还支持在控制台将旧版告警一键升级为新版告警。本文首先会介绍新版与旧版在架构、功能和配置上的区别,然后通过一个实例演示如果将旧版告警一键升级为新版告警。

近期SLS发布了新版告警,新版本告警在升级原有功能的基础上,扩展了告警监控、告警管理、通知(行动)管理的能力,SLS新版告警还支持在控制台将旧版告警一键升级为新版告警。本文首先会介绍新版与旧版在架构、功能和配置上的区别,然后通过一个实例演示如果将旧版告警一键升级为新版告警。

架构对比

新版告警在告警规则任务监控数据、触发通知后,通过告警策略进行降噪、通过行动策略进行渠道分派管理。并支持额外的告警状态管理和告警升级。

旧版告警工作流程

image.png

调度器

定期调度

告警规则任务

钉钉

短信

监控

数据

通知内容

简单抑制机制

日志,时序,资

(次数闽值)

Wedhook

语音

源数据

内嵌通知渠道列表

(接收人,内容模板)

邮箱

通知中心

新版告警工作流程

image.png

调度器

钉钉

短信

告警规则任

告警事件管理

数据

日志,时序,资

语音

Webhook

行动策略

告警策略

增强引擎

源数据

邮箱

通知中心

合并,抑制,

动态分派渠

告著规则模板

静默等

道列表

独立用户人,用户

组,内容模板


功能对比

新版本对原有旧版本的功能进行了升级,并且新增了很多实用的功能,这里不再详细展开介绍,更详细的功能对比可以参考

功能升级

  • 监控目标:除了支持原来的日志,时序和外部数据源(OSS,MySQL)等,还支持用户直接在SLS创建自定义资源表;
  • 触发条件:旧版告警仅支持对查询的集合操作结果任意条数据判断(任一条数据满足即为触发);新版告警支持四种触发条件的判断,既支持对结果中数据进行评估,还支持对结果条数进行评估,及其之间的组合评估;
  • 报表关联:旧版告警强制告警必须与仪表盘关联,新版告警取消了报表的强制关联;
  • 多库联合查询:旧版告警支持对三张表进行笛卡尔积结果评估,新版告警增加了不合并、拼接、左联、右联、全联合、左斥和右斥等集合操作功能;

功能新增

  • 告警监控:增加了数据协同关联监控能力,黑白名单监控,告警严重度,标签,标注,多目标监控,无数据告警和告警恢复,详细可以参考
  • 告警管理:增加了告警降噪控制告警事件管理
  • 通知管理:支持告警动态分派和级别提升,接收人管理,渠道日历,值班表管理,渠道额度控制,详细可以参考
  • 告警分析:增加了监控规则中心,告警链路中心,告警排障中心。

旧版告警升级流程

旧版告警升级涉及到的配置项的一些变化,主要包含配置项包括监控配置,通知配置,内容模板变量修改。

监控配置

对于新增的监控配置项在升级过程中设置了默认值

image.png

新增配置项

默认值

不分组

分组评估

笛卡尔拼接

查询统计的集合操作

任意条数满足

触发条件

告警严重度

无数据告警

自闭

关闭

恢复通知

通知配置

升级后,日志服务提取手机号、邮箱作为用户标识,并创建对应的用户;提取通知内容作为内容模板的内容;根据通知渠道配置生成对应的行动策略;默认使用SLS内置动态告警策略。

image.png

通知方式

旧版

新版

短信

用户名+手机+内容模板

短手机号码+发送内容

语音手机号码+发送内容

用户名+手机号+内容模板

语音

用户名+邮箱地址+内容模板

邮箱

邮箱地址+发送内容

请求地址+钉钉中@手机号+发送内容

钉钉

用户名+手机号+内容模板

短信内容

语音内容

邮箱内容

不涉及

内容模板

自定义WebHook内容

钉钉WebhHook内容

通知中心内容

模板变量

新版告警对模板变量进行了优化,并增加了多个更新的变量,参考

旧版告警升级实例

接下来以一个旧版告警为例,在SLS控制台一键升级为新版告警。

基于Nginx访问日志,我们创建一个监控500错误过多的旧版告警,主要监控逻辑是查询过去15分钟内出现500的请求次数是否大于10个,如果大于10个,就发出告警,通知到钉钉机器人和邮件,通知间隔默认设置为5分钟(表示同一条告警每次评估,5分钟内只会收到一次通知)

配置旧版告警

  • 监控配置如下:

image.png

  • 通知配置如下,包括钉钉和邮件通知渠道:

image.png

image.png


升级

  • 点击升级按钮,升级为新版告警
  • 如果是首次使用新版告警,请根据页面提示配置存储中心,并单击确认配置完成后,日志服务将自动在您所选的地域创建一个名为sls-alert-主账号ID-区域的Project和名为internal-alert-center-log的Logstore,用于存储告警相关信息。

   image.png

  • 点击确认后会弹出升级告警涉及到一些配置项,如下;
  • 本次升级会增加一个行动策略,内容包含告警触发后的通知渠道设置,包含钉钉和邮件通知;
  • 增加一个内容模板,指定在要钉钉和邮件中发送的内容,其中已经自动将旧版告警的内容模板变量升级为新的内容模板变量;
  • 增加一个用户,取旧版告警中的短信,语音以及钉钉通知中@人的手机号作为手机用户,取邮件渠道中的邮件地址作为邮件用户,本次升级因为只配置了邮件和钉钉(未指定@手机号),所以会提取邮件地址创建用户。

         image.png

  • 点击确认,新版告警升级成功,重新查询该告警,点击修改配置,可以看到已经升级为新版告警编辑页面

查看升级结果

  • 告警规则
  • 规则名,检查频率,查询统计等基础信息保持不变
  • 分组评估,默认设置为不分组
  • 触发条件,更新为有数据匹配+评估表达式,与原有逻辑保持兼容
  • 告警严重度,默认设置为中
  • 标注,默认增加标题和描述,取值为告警名称
  • 告警策略和行动策略,告警策略默认使用内置动态告警;行动策略,会生成了一个新的名称为“行动策略迁移自_Nginx500错误过多”的行动策略;重复等待取自原来的通知间隔时间,逻辑保持兼容

image.png

告警规则

规则名称:

12/64

Nginx500错误过多

固定间隔

检查频率:

分钟

15

查询统计:

添加

status>-500ISELECTCOUNTaSerr-count

15分钟(相对)

分组评估:

不分组

触发条件:

有数据匹配

10

errcount

告警严重度:

添加

添加标签:

添加

添加标注:

Nginx500错误过多

标题(title)

描述(desc)

Nginx500错误过多

添加

恢复通知:

高级配置

告警策略:

高级选项

行动策略迁移自_Nginx500错误过多(m-ap...

新增

行动策略:

查看配置详情

重复等待:

5

分钟

取消

确定


  • 行动策略

点击上图中行动策略的查询配置详情,弹出迁移好的行动策略编辑页面,其中原来的通知渠道配置,在该行动策略中被包含在行动组中,这里包含钉钉和邮件两个行动。

image.png

编辑行动策略

ID:

18/60

map_1619238823683

名称:

行动策略迁移自Nqinx500错误过多

20/40

第一行动列表

第二行动列表

行动组

4

钉钉

S

邮件

自动分派

+添加通知渠道

取消

确认

  image.png

  • 内容模板
  • 点击上图中的钉钉的配置,点击内容模板的查看,可以看到一个名称为“内容模板迁移自_Nginx500错误过多”的内容模板
  • 内容模板包括每个通知渠道的发送内容,这里涉及到钉钉和邮件的内容
  • 点开钉钉(Webhook)选项卡,可以看到发送内容已经迁移好,并且使用了新的模板变量,也可以点击邮件选项卡,查询邮件内容

 image.png

  • 通知结果对比,以下为钉钉发送通知的对比

image.png

 image.png

demo机暴人

自机路人

22:09

[日志服务告警]Nginx500错误过多

告警数量:1

告警详情:

[Uid]1654218965343050

[Project]domo-alort-chongdu

[Trigger]Nginx500错误过多

[ConditionjCount-(1)>0.Condition(37>10

[Messago]通知内容

[Contextj[orr.count:37]

[查看详情]屏敬5分钟]

这样一个旧版告警升级就完成了,升级过程比较简单,基本实现了“一键升级”,在升级后用户可以通过修改配置使用到新版功能中的新功能,例如可以设置无数据告警和告警恢复通知,还可以对告警进行降噪和事件管理。

参考

  • 什么是日志服务告警【链接
  • SLS告警旧版与新版区别,及迁移到新版【链接
  • SLS新版告警通知管理【链接

进一步参考



最后,如果您还想了解更多智能运维前沿资讯,欢迎您报名参加【数智创新行·智能运维专场】。

6月25日|上海·西岸国际人工智能中心

数智创新行上海站·智能运维专场

阿里云将带来云原生智能运维解决方案,满足海量事件有效感知、高效响应,可观测数据统一分析、故障定位,以及基于AI的异常检测等需求,助力企业构建自己的运维平台,成为开发、运维人员高效可靠的助手。

扫描海报二维码或点击下方链接报名, 期待您一起开启智能运维新时代!

https://www.aliyun.com/page-source//developer/special/osssalon

智能运维专场图片.jpg

相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
目录
相关文章
|
4月前
|
存储 监控 Java
Spring6入门 + Log4j2
Spring6入门 + Log4j2
|
1月前
|
SQL 存储 关系型数据库
轻松入门MySQL:深入理解MySQL日志,二进制日志、中继日志、回滚日志和重做日志(19)
轻松入门MySQL:深入理解MySQL日志,二进制日志、中继日志、回滚日志和重做日志(19)
|
13天前
|
SQL 调度 Swift
【一文看懂】Havenask日志查询
本次分享内容为Havenask的日志查询,文章包含了具体查询步骤和举例、实操演示,希望可以帮助大家更好的使用Havenask。
87 0
|
18天前
|
监控 Docker 容器
Docker从入门到精通:Docker log 命令学习
了解 Docker 日志管理对容器监控至关重要。`docker logs` 命令用于查看和管理容器日志,例如,`docker logs <container_name>` 显示容器日志,`-f` 或 `--follow` 实时跟踪日志,`--tail` 显示指定行数,`--timestamps` 添加时间戳,`--since` 按日期筛选。Docker 支持多种日志驱动,如 `syslog`,可通过 `--log-driver` 配置。有效管理日志能提升应用程序的稳定性和可维护性。
17 0
|
5月前
|
存储 监控 安全
带你读《Apache Doris 案例集》——07查询平均提速700% ,奇安信基于 Apache Doris 升级日志安全分析系统(1)
带你读《Apache Doris 案例集》——07查询平均提速700% ,奇安信基于 Apache Doris 升级日志安全分析系统(1)
179 1
|
5月前
|
SQL 存储 安全
带你读《Apache Doris 案例集》——07查询平均提速700% ,奇安信基于 Apache Doris 升级日志安全分析系统(2)
带你读《Apache Doris 案例集》——07查询平均提速700% ,奇安信基于 Apache Doris 升级日志安全分析系统(2)
209 0
|
3月前
|
JSON Prometheus Cloud Native
Grafana 系列 -Loki- 基于日志实现告警
Grafana 系列 -Loki- 基于日志实现告警
|
8月前
|
Web App开发 存储 监控
日志服务之告警接入与管理
本教程介绍如何使用日志服务接入NGINX模拟数据,并配置告警规则来对NGINX访问错误进行监控。
337 0
|
6月前
|
存储 监控 安全
奇安信基于阿里云数据库 SelectDB 版内核 Apache Doris 升级日志安全分析系统,查询平均提速 700%
Apache Doris 助力奇安信建设全新日志存储分析平台,提升系统安全性与快速响应能力!
奇安信基于阿里云数据库 SelectDB 版内核 Apache Doris 升级日志安全分析系统,查询平均提速 700%
|
6月前
|
监控 数据库
136 日志监控告警系统案例(代码实现)
136 日志监控告警系统案例(代码实现)
82 0

相关产品

  • 日志服务