SLS相同监控规则太多?试试告警监控模板

简介: 本文主要介绍了SLS自定义告警监控模板的使用场景以及最佳实践。

本文主要介绍了SLS自定义告警监控模板的使用场景以及最佳实践。

目标读者

数字化系统开发运维(DevOps)工程师、稳定性工程师(SRE)、可观测平台运维人员以及有告警监控需求的开发人员等。

背景信息

日志服务告警是SLS提供的一站式告警监控、降噪、事务管理、通知分派的智能运维平台,能够完美地支持开发运维、IT运维、安全运维、智能运维以及商务运维等场景下监控告警的需求。

SLS告警功能框架图

在SLS的智能告警平台上,用户如果需要对某个数据资源(如Logstore和Metricstore)进行监控时,需要在对应Project下的数据资源上创建一个监控规则,当SLS根据监控规则检测出告警后,就会根据用户选择的告警策略和行动策略进行告警通知。

场景介绍

用户的业务数据因为一些原因写入了不同Logstore,对于这些Logstore,用户想要使用同样的一套监控规则。使用告警复制功能可以快速地将同一个监控规则复制到其他的Logstore中,但是告警复制仍存在如下限制:

  • 修改某个监控规则后只会对当前应用的Logstore生效,如果所有的Logstore都需要更新监控规则,需要对所有的监控规则逐个手动进行更新,很消耗时间并且容易出错。

  • 无法查看到使用了同样一套监控规则的Logstore列表,不能快速地调整监控规则应用的目标Logstore。

  • 无法一键删除所有的监控规则。

基于上述问题,SLS推出了自定义告警监控模板的功能。

方案架构

用户自定义告警监控模板的实现思路如下图所示,从图中可以明显看出与告警复制的实现有很大不同。自定义监控模板会将用户事先创建的监控规则转换成一个规则模板,用户后续可以将规则模板与目标数据资源进行关联或者取消关联,这样可以快速地将一个规则应用到多个数据资源上。

告警自定义模板架构图

在后期修改监控规则时,本质上修改的也是监控规则模板,因为一次更新就可以对关联了该规则模板的所有数据资源生效,并且该监控规则模板也记录了所有关联的数据资源信息,用户可以很方便地就查看到详细的关联信息。

操作步骤

步骤1 创建一个告警监控规则

具体的步骤可以参考创建日志告警监控规则

image.png

步骤2 转为模板并关联资源

在创建好的监控规则操作选项中选择转为模板

image.png

在转换的过程中就可以选择想要应用该规则的目标资源,也可以直接点击确定(默认会把转换后的监控规则模板应用到原Logstore上),后续再进行关联资源的操作。

image.png

步骤3 进行相关操作

成功转为模板后告警类别变为模板告警,并且后面支持的操作增加了关联资源删除模板两个选项。

image.png

点击关联资源后的弹窗与步骤2中转为模板时的弹窗一样,用户可以在这里面进行数据资源的关联和取消关联,通过点击查看可以快速查看关联了该监控规则模板的所有数据资源。

image.png

关联了某些资源后,可以在对应Project的告警中心查看到自动创建出来的模板告警,取消了某些资源的关联后,可以在对应Project的告警中心查看到模板告警自动被删除。

点击模板告警的编辑后,会提示用户该告警监控规则的修改会对关联了该监控规则的所有数据资源生效。

image.png

点击模板告警的删除模板后,可以删除掉关联了该监控规则模板的所有告警和规则模板本身。

使用限制

  • 目前告警监控规则模板仅支持添加一条查询分析语句。即您在创建或编辑告警监控规则时只能添加一条查询分析语句,否则在转为模板或保存模板时报错。

  • 由于告警监控规则模板涉及跨Project操作,如果您使用的是RAM用户,则您需要确保该RAM用户对目标Project也具备告警操作权限。

相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
目录
相关文章
|
7月前
|
Prometheus 监控 Cloud Native
夜莺自定义告警模板
夜莺自定义告警模板
|
监控 开发者
告警功能| 学习笔记
快速学习告警功能
324 0
告警功能| 学习笔记
|
6月前
|
JSON 运维 监控
实用干货丨Eolink Apikit 配置和告警规则的各种用法
API在运行过程中可能会遇到各种异常情况,如响应时间过长、调用频率过高、请求参数错误等,这些异常会对系统的稳定性和性能产生严重影响。因此,对API进行异常监控和告警是非常必要的。本文将介绍 Eolink Apikit 中使用的告警规则,帮助开发者和运维人员更好地监控和管理 API。
56 0
|
5天前
|
存储 数据采集 监控
【最佳实践】无数据告警配置
背景在对SLS的Logstore和Metricstore进行监控的过程中,有时候会出现一些无数据的情况,例如数据采集阶段出现故障Logtail采集异常、数据导入任务异常或者SDK写入数据出错等情况都有可能导致日志库中没有数据。业务系统出现问题例如用户的业务日志中有某个系统模块的日志,在一段时间内,由...
46 0
【最佳实践】无数据告警配置
|
5天前
|
存储 JSON 监控
【最佳实践】使用CloudLens排查日志时间解析错误问题
本文主要介绍如何使用CloudLens for SLS定位和解决iLogtail日常使用中的常见问题之一:日志时间解析错误问题。
【最佳实践】使用CloudLens排查日志时间解析错误问题
|
存储 监控 Cloud Native
【笔记】用户指南—监控与告警—配置告警
您可以在控制台上配置计算资源监控指标和存储资源监控指标的告警规则。本文将介绍如何配置实例的告警规则。
【笔记】用户指南—监控与告警—配置告警
|
运维 监控 安全
SLS相同监控规则太多?试试告警监控模板
随着使用SLS监控告警服务的用户越来越多,部分用户的业务数据因为一些原因(如不同区域、数据分流、按标签分类等原因)写入了不同Logstore,而这些业务数据的字段以及信息是完全一样的,对于这种数据,用户往往想要使用同样的一套监控规则来进行监控告警。
201 0
|
存储 监控 Cloud Native
用户指南—监控与告警—配置告警
您可以在控制台上配置计算资源监控指标和存储资源监控指标的告警规则。本文将介绍如何配置实例的告警规则。
143 0
用户指南—监控与告警—配置告警
|
存储 监控 索引
SLS告警最佳实践——自定义分析告警历史
在SLS告警评估、触发到通知的整个生命周期过程中,都会有一些日志记录,通过这些日志我们可以借助告警对系统的整体健康状况、稳定性等有一个相对全面的了解。
458 0
|
监控 应用服务中间件 数据安全/隐私保护
SLS新版本告警入门——告警策略-路由合并(1)
本文主要介绍SLS新版本告警中告警策略的路由合并概念及其基本功能。包括路由合并、告警指纹、合并集合以及使用告警策略进行数据隔离等功能。
556 0
SLS新版本告警入门——告警策略-路由合并(1)