SLS新版告警-告警属性及其应用

本文涉及的产品
对象存储 OSS,20GB 3个月
云备份 Cloud Backup,100GB 3个月
日志服务 SLS,月写入数据量 50GB 1个月
简介: 在配置告警的过程中,常常需要了解告警的上下文,告警来源,告警严重度等,这些都可以叫做告警的属性。可以对其进行告警的管理,SLS新版告警包括监控和告警管理部分,其中监控部分主要是用来产生告警,既可以使用自定义告警规则来产生告警,也允许用户使用外部监控系统(如Zabbix, Promethus,Grafana)来产生告警,对于各类的告警,SLS新版告警系统将这些告警的属性进行了统一和规范,基于这个规范就可以借助SLS新版告警的管理系统,来对告警进行统一的降噪处理,告警升级,分派通知等功能。

前言

在配置告警的过程中,常常需要了解告警的上下文,告警来源,告警严重度等,这些都可以叫做告警的属性。可以对其进行告警的管理,SLS新版告警包括监控和告警管理部分,其中监控部分主要是用来产生告警,既可以使用自定义告警规则来产生告警,也允许用户使用外部监控系统(如Zabbix, Promethus,Grafana)来产生告警,对于各类的告警,SLS新版告警系统将这些告警的属性进行了统一和规范,基于这个规范就可以借助SLS新版告警的管理系统,来对告警进行统一的降噪处理,告警升级,分派通知等功能。

image.png

各类设备/系统

VariousEquipments)

叫眶

日志存储

告警管理

通知(行动)管理

告警监控

(Logstore)

(AlertCheck/Monitor)

(ActionManagement)

(AlertManagement)

CA

个!

AI

SearchSQL

检查恢复协同分组评估

升级用户组节假日

分派

抑制去重静默

路由

时序存储

个高

(Metricstore

编排资源数据规则库ML巡检

代班WebHK

值班组轮岗化

合并

事务管理

处理人

PromOLSQLAI

N

链路中心规则中心

语音钉钉短信邮件

PrometheusAlert

开放告警

(AIertHub)

GrafanaAlert

9

运维

运营

研发

安全

各类监控系统

(ItOps

(BizOps)

(SecOps)

(DevOps)

ariousMonitoring)

告警属性介绍

说到告警,人们通常会关心告警来源,严重度怎么样,告警的一些简单描述信息,通过这些信息来判断需要进行哪些操作,在SLS新版告警中,对告警属性指定了统一的规范,在告警管理的过程中会使用这些标准的告警属性来进行降噪抑制通知等处理。

SLS新版告警的属性根据主要包含以下几部分内容,接下来本文将对告警属性进行简单的描述。

  • 监控规则
  • 告警信息
  • 告警规则策略配置信息
  • 开放告警配置
  • 查询统计结果

监控规则

  • 阿里云账号ID:关联的阿里云主账号ID。告警监控规则所在的阿里云账号ID或开放告警设置的阿里云账号ID。
  • 告警类型:支持如下告警类型
  • 告警监控规则:表示监控告警规则触发的告警。
  • 开放告警:表示通过开放源接入的告警。
  • 所属区域:指监控规则所在的项目的区域
  • 所属项目:SLS新版告警监控规则是在某个项目下创建,这里指规则所在的项目
  • 规则ID:在每个项目下,监控规则都有唯一的ID,作为告警规则的唯一标识
  • 规则名:监控规则的名字,可由用户自定义

下面通过一个简单的示意图看下这些属性,在一个项目下,点击告警图标,从告警列表中选取一个监控规则,点开详情,即可看到规则名称,在URL中可以看到规则ID等

image.png

sIs.console.liyuncomgnextprojctdem-chal

规则ID

百阿里云

搜索文档,控制台,API,解决方案和资

支持

贯用工单备案企业

App

项目名

demo-alert-chengdu

0

Nginx错误监控

切换

告警

+

告警概览

规则名称

(Nglnx铺误监控)

打开告警中心

基础信息

输入告密规则名称

所民仪表盘

创建时间

2021-06-0311:06:56

告菩历史统计

告答监控demo-演示-值班组

上次更新

固定间隔1分钟

检查频率

2021-06-0312:09:06

Nginx铺误监控

告警列表状布

新告警规则黑名单

开启

监控状态

未启用

已开启

新告警测试苗卡尔积

统计报表

数据加工流量(绝对值)监控

告警历史统计

刷新

时间选择

新告窖规则CPU

新告警规则oss

执行成功时通知率今天(..告警规则执行次数Top10

执行成功率今天(相对)

告警次数今天(相对)

今天(相对)

告警信息

  • 告警状态:支持状态如下
  • 告警触发:表示告警规则满足触发条件,并且满足连续触发阈值,会发出一条触发的告警信息
  • 告警恢复:如果开启了告警恢复通知,在规则上次评估满足触发条件,本次评估不满足触发条件时,会发出一条恢复的告警信息
  • 严重度:严重度支持严重报告五种严重度,在监控规则中可以配置告警严重度,支持静态严重度和动态严重度的设置;对于静态严重度度,同一个监控规则产生的所有告警(分组评估时可能产生多条告警)都会是设定的严重度,对于动态严重度,监控规则会根据评估时动态严重度设定的条件,不同的告警可能会有不同的严重度。
  • 标题:是监控规则的标注中指定的标题,
  • 描述:是监控规则的标注中指定的描述。
  • 标注:在监控规则中可以指定自定义的key和value,产生的告警会包含设定的标注信息,其中标题和描述是内置的标注。
  • 标签:在监控规则如果使用了分组评估,分组评估指定的字段名会被自动添加到产生的告警的标签中,比如分组评估自定义字段为host,在产生告警后,标签中会包括host字段和值;同时也直指在告警规则中自定义标签key和value;标签可以作为告警指纹的一部分,标签与标注的不同可以参考【链接
  • 时间相关的属性
  • 触发时间:是指本次告警触发的时间
  • 首次触发时间:所属告警规则多次满足触发条件时,在未满足触发阈值时,告警不会发出;触发次数满足触发阈值时,会将告警发送到告警管理,这里的首次触发时间是指,首次触发时间
  • 恢复时间:告警开启了恢复通知时,当评估时告警条件不满足触发条件时,会产生一条恢复告警信息,恢复时间即为评估时间。

以下可以通过一个例子来看下告警信息的内容,其中需要注意是标签会包括分组评估字段和自定义字段,标注会包括内置字段(title和desc),自定义字段,非分组字段(如果打开了自动添加标注开关);

image.png

这里的标签和标注都可以引用一些集合查询结果的变量,集合查询结果数据可能有多行满足触发条件的,标签和标注只能引用当前评估组内的第一行满足触发条件的值。例如:集合查询结果如下,包含三条数据,触发条件是有数据满足err_cnt > 60,这里第2,3条数据满足触发条件,这里如果引用${domain}或${err_cnt},会取第二条数据的值xxxx.aliyun.com和72

[
  {"domain": "xxxx.aliyun.com", "err_cnt": "51"},
  {"domain": "yyyy.aliyun.com", "err_cnt": "72"},
  {"domain": "zzzz.aliyun.com", "err_cnt": "83"}
]

告警策略配置信息

  • 告警策略ID:监控规则或开放告警产生的告警,发送到告警管理系统后,会使用告警策略来进行合并静默抑制等降噪处理,一个监控规则需要指定告警策略,来指定后续的降噪处理策略。
  • 行动策略ID:监控规则或开放告警产生的告警,在需要进行通知处理时,需要指定相应的行动策略。

下面通过一个例子,来看告警策略和行动策略的配置,下面展示的是同一个告警策略和行动策略在不同模式下的展示方式,告警策略ID是sls.builtin.dynamic,行动策略ID是alert.simple.8xxx

image.png

高级模式

普通模式

极简模式

告警策略:

普通模式

高级模式

极荷模式

告著策路:

行动策略:

新告警规则黑名单-行动策略查看

行动策略:

新告管规则黑名单-行动策略(alert.simple.8...

新增查看

行动组

分钟

重复等待:

钉钉?

渠道

钉钉

请求地址

https://oapi.dingtalk.com/rob

新增查看

使用fire.results的内容模...

内容模板

普通模式

极简模式

高级模式

告警策略:

不提醒

提醒方式

sLs内置动态告策略(sls.builtin.dynamic)

新增

任意

发送时段

自定义行动策略

行动策略:

新告警规则黑名单-行动策略(alert.simple.8...

新增

查看

自动分派

重复等待:

分钟

+添加通知渠道

开放告警配置信息

  • 服务名:表示接入开放告警的服务名称
  • 应用名:表示接入开放告警的应用名称
  • 协议:表示接入开放告警的协议,如zabbix,promethus协议等
  • 接入区域:表示接入开放告警的区域

下面通过一个例子,来看下开放告警的这些配置,在开放告警服务中展示的是服务的名称

image.png

告警中心

规则/事务

开放告警

新版告警(公测)介绍功能概览使用限制定价常见问题

请输入

创建

开放告警服务

cn-hangzhou下的告警中心查看监控规则中心与事务.开放告警概述

开放告警通过对外接口接受其他系统产生的告警进行管理与通知,可跳转到中心日志库sslert

上次修改时间

应用数

创建时间

名称

ID

操作

应用复制配置删除

2

开放告警

2021-05-1313:24:38

2021-04-3000:53:05

pub-alert

2021-05-1314:01:27

1

应用复制配置删除

2021-05-1313:59:30

grafana测试

grafana-test

应用复制配置删除

测试开放告警

2021-06-0317:12:34

demo-test

2021-06-0212:43:51

总数:3

每页显示:

20

10

<上一页

50

点开应用按钮,弹出应用界面,显示是应用列表,显示名称和协议

image.png

应用管理

服务接收器

Q

请输入

创建

应用代表一个特定协议的渠道,可以用于接受外部告警

创建时间

上次修改时间

操作

名称

协议

ID

配置复制删除接口

Prometheus告著

2021-04-3000:57:23

2021-04-3000:57:23

prometheus

prometheus

Grafana告警

配置复制删除接口

2021-05-1313:24:38

2021-05-1313:24:38

grafana

grafana

上一页

下一页

总数:2

每页显示:

10

20

50

点开接口按钮,弹出接口配置,显示地域协议

image.png

查询统计结果

在自定义监控规则中,最多可以指定3个查询,每个查询包含查询的类型,时间和结果,在告警管理中可以对每个查询进行引用,包含查询的时间,查询分析语句,查询目标,区域,权限等。对于3个查询,分别可以用查询统计0查询统计1查询统计2来引用,每个查询的属性如下:

  • 类型:支持如下查询统计类型
  • 对日志库进行查询统计时,取值为日志库
  • 对时序库进行查询统计时,取值为时序库
  • 对资源数据进行查询统计时,取值为资源数据
  • 区域:对日志库和时序库进行查询统计时,取值为监控目标所在的区域,对资源数据进行查询统计时,无该参数。
  • 项目:对日志库和时序库进行查询统计时,取值为监控目标所属的项目,对资源数据进行查询统计时,无该参数。
  • 目标库:监控的目标库名称
  • 查询关联的仪表盘:查询统计关联的仪表盘ID
  • 使用服务角色:查询统计时的RAM角色标识
  • 查询语句:对日志库和时序库进行查询统计时,取值为查询和分析语句。对资源数据查询时,无该参数。
  • 查询起始时间:对日志库和时序库进行查询统计时,取值为查询时间范围的开始时间。例如2006-01-02 15:04:05。对资源数据查询时,无此参数。
  • 查询结束时间:对日志库和时序库进行查询统计时,取值为查询时间范围的结束时间。例如2006-01-02 15:04:05。对资源数据查询时,无此参数。

下面以一个例子展示下参数,以下告警规则表示两个查询统计,可以在引用时使用查询统计0,查询统计1

image.png

点开第一个查询,弹出的查询统计页面会显示查询的每个信息

image.png

告警属性的应用

告警属性是指在告警产生时,生成的告警的信息;这些告警的内容会被告警管理用来降噪处理,也可以在行动策略中进行分派通知等。在SLS新版告警中是通过可视化编辑的方式来进行告警策略和行动策略的编辑。

在告警策略中,主要包括路由合并策略,抑制策略和静默策略;行动策略主要包括条件和行动组。

  • 路由合并策略可以使用告警属性来设置合并基准,表示拥有某个共同告警属性的告警会被合并进行通知;
  • 在抑制策略和静默策略中,告警属性主要用来设置条件,满足条件时进行抑制和静默;
  • 在行动策略中,告警属性主要用来设置条件,当告警属性满足某些条件时,可以发送到指定的行动组。

下面一些例子,展示下告警属性的使用

告警策略配置

在配置告警策略时,界面上可以选择对路由合并策略,抑制策略,静默策略进行配置

image.png

路由合并策略

在告警策略中,选择路由合并策略,点击合并基准,下来框可以选择按照哪些告警属性进行合并;

image.png

也可以选择自定义,接着对告警属性进行选择,可以同时选择多个属性。

image.png

开始

分组合并

自定义

合并基准

用户aliuid

告警属性

告警严重度

用户aliuid

告警标签

告警规则ID

行动策略

新增

告警显示名称

告警严重度

首次等待

规则所在区域

变化等待

规则所在项目

条件配置

在抑制策略,静默策略,行动策略中都可以通过设定条件来进行相应的操作。

image.pngimage.png

条件

对象:规则名

告警信息

状态

严重度

标题

描述

标签

标注

时间相关

image.png

条件

对象:

规则名

标注

时间相关

其他高级配置

策略配置

开放告警

查询统计0

查询统计1

查询统计2

抑制策略

下面的例子展示的出现告警严重度大于等于高时,对告警严重度小于等于中的告警进行抑制

image.png

静默策略

下面的例子展示的是告警属性中的告警标题,为测试告警时,在2021-06-06 17:09:59到2021-06-06 18:09:59之间,即使告警触发,也不执行行动策略,不进行通知。

image.png

开始

静默时间

条件

告警标题

等于

测试告警

特定时间范围

类型

结束

2021-06-0618:09:59

2021-06-0617:09:59

行动策略

下面的例子展示是当时告警的严重度为严重时,发送语音给用户A,当严重度小于等于高时,发送短信给用户B;

image.png


总结

SLS新版告警对自定义告警规则和开放告警产生的告警属性进行了统一和规范,使用这些告警属性可以进行灵活的告警策略和行动策略的配置,特别是在各种条件的配置中可以实现很复杂的控制逻辑,满足各类业务和场景的需求,在告警管理的路由合并,抑制,静默中有很多的使用场景。


参考

  • 告警管理概述【链接
  • 创建告警策略【链接
  • 多种告警分组合并【链接
  • 告警抑制策略【链接
  • 告警静默策略【链接
  • 条件节点的匹配模式【链接
  • 告警属性参考【链接

进一步参考


最后,如果您还想了解更多智能运维前沿资讯,欢迎您报名参加【数智创新行·智能运维专场】。

6月25日|上海·西岸国际人工智能中心

数智创新行上海站·智能运维专场

阿里云将带来云原生智能运维解决方案,满足海量事件有效感知、高效响应,可观测数据统一分析、故障定位,以及基于AI的异常检测等需求,助力企业构建自己的运维平台,成为开发、运维人员高效可靠的助手。

扫描海报二维码或点击下方链接报名, 期待您一起开启智能运维新时代!

https://www.aliyun.com/page-source//developer/special/osssalon

智能运维专场图片.jpg

相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
目录
相关文章
|
Prometheus 监控 Cloud Native
夜莺自定义告警模板
夜莺自定义告警模板
|
17天前
|
数据采集 Prometheus 监控
Prometheus的告警规则
Prometheus的告警规则
42 11
|
存储 SQL 监控
SLS新版告警自助排查系列之告警监控
在SLS告警中,告警监控通过对数据源的查询监控,然后产生告警,并将告警发送到告警管理,告警管理会对告警进行降噪处理包括合并抑制静默后,在将告警发送给行动管理,最终发送通知到用户配置的接收渠道。在整个过程中,告警监控作为告警的源头,决定着告警是否能准确的发出。在配置告警监控规则时,配置不当或者配置错误都会导致告警不能触发或者不是希望的触发。本文主要介绍在告警监控中如何进行自助排查问题。
603 0
|
存储 监控 Cloud Native
【笔记】用户指南—监控与告警—配置告警
您可以在控制台上配置计算资源监控指标和存储资源监控指标的告警规则。本文将介绍如何配置实例的告警规则。
132 0
【笔记】用户指南—监控与告警—配置告警
|
存储 监控 索引
SLS告警最佳实践——自定义分析告警历史
在SLS告警评估、触发到通知的整个生命周期过程中,都会有一些日志记录,通过这些日志我们可以借助告警对系统的整体健康状况、稳定性等有一个相对全面的了解。
554 0
|
存储 监控 Cloud Native
用户指南—监控与告警—配置告警
您可以在控制台上配置计算资源监控指标和存储资源监控指标的告警规则。本文将介绍如何配置实例的告警规则。
181 0
用户指南—监控与告警—配置告警
|
存储 Prometheus 运维
顺滑迁移Prometheus告警到SLS告警
Prometheus作为一个开源的云原生监控系统,具有很广泛的应用场景,通过各种Exporter收集各类设备,应用的指标,将各类指标抽象为时序数据,在Prometheus上可以使用PromQL进行高效的指标查询和分析。SLS告警是云上的一站式告警监控运维平台,支持各种Ops场景。SLS告警系统主要包括指标采集,监控系统,告警管理,通知管理等子系统。本文介绍如何将Prometheus告警无缝转换为SLS告警,并使用SLS告警的管理功能。
808 0
|
存储 运维 Kubernetes
SLS告警最佳实践—— K8s事件中心告警管理
K8S事件中心是SLS的日志应用之一,主要记录了集群的状态变更,包括创建Pod、运行Pod、删除Pod、组件异常等。K8S事件中心实时收集K8S中的所有事件并提供存储、查询、分析、可视化与告警能力。K8s事件中心默认也会提供仪表盘和告警,本文主要介绍下如何在ACK控制台和SLS控制台管理K8s事件中心的告警及其区别和使用场景。
1194 0
SLS告警最佳实践—— K8s事件中心告警管理
|
存储 Prometheus Cloud Native
prometheus告警规则管理
prometheus告警规则管理
|
机器学习/深度学习 监控 物联网
DataDog告警数据还能这么用-接入SLS开放告警
DataDog是一个用于云上应用的监控和分析平台,可以自动采集和分析日志、指标和链路追踪等数据,还可以用于基础设施和云服务的事件监控,对于服务器、应用程序以及采集到的各种数据提供了很好的可观测效果。但是DadaDog对于告警通知的管理功能比较缺乏,例如不支持短信、语音等通知渠道,也不支持用户组和值班组管理,还不具备动态发送告警通知的功能,因此不能覆盖用户的部分使用场景。SLS的告警功能很好地弥补了DataDog的这些不足之处,通过SLS提供的开放告警功能,用户也可以将DataDog的告警消息接入到SLS进行统一管理。本文将介绍如何快速创建DataDog的告警并将其告警消息接入到SLS中。
1136 0

相关产品

  • 日志服务
  • 下一篇
    无影云桌面