成喆
2021-04-06
148浏览量
本篇是SLS新版告警系列宣传与培训的第二篇,后续我们会推出20+系列直播与实战培训视频,敬请关注。
系列目录(持续更新)
可观测性对于告警监控运维系统是有很高的要求的,但现状却不容乐观,我们可以看到常规监控运维系统存在如下6大痛点:
具体展开细化如下:
SLS新版告警在中国站等发布公测(国际站预计4月发布),新版在SLS云原生可观测性平台上提供了一站式智能运维告警系统。新版告警提供对日志、时序等各类数据的告警监控,亦可接受三方告警,对告警进行降噪、事件管理、通知管理等,新增40+功能场景,充分考虑研发、运维、安全以及运营人员的告警监控运维需求。
使用SLS新版告警,可以有效缓解前面提到的告警运维系统的痛点,和其他自建、商业化或云厂商提供的方案比,具备如下5大优势:
对日志、指标、跟踪等数据,提供一套通用语法,SLS告警监控的支持大规模日志/时序/跟踪等实时监控,而查询统计语法也是使用通用统一的SQL(并扩展)的方式提供。也就是SQL = Search + PromQL + SQL92。
例如对特定机器是否在线监控,可以使用SQL、PromQL、或者两者子查询协同、甚至多层嵌套使用机器学习的算法来找出异常。
SLS的机器学习算法是直接在SQL扩展方式提供,覆盖了以下4个场景:
不需要同步数据到本地,即可跨库、跨区域、甚至跨账号的监控并告警。
支持多个(可不同)数据源之间的协同
一条规则可以同时监控日志/时序库中的多个逻辑目标,可分开告警,且支持自定义白名单或黑名单(只针对多目标监控时自动专注或排除)。
支持根据检测值动态设置告警的严重度。
内置各场景下告警规则库 (500+),开箱即用,且持续增加中。
可以基于告警来源规则的属性(区域、项目、规则名等),也可以基于告警自身的属性(状态、标签、标注、严重度等)抑制告警。
一个告警可以抑制(忽略)其他的告警,可有效阻止因为一次严重告警触发的告警风暴。
支持将告警归类分派到多个合并集合中,进一步的降噪控制(去重、合并等)后,合并发送(通过行动策略)。
自动给告警创建事件(Incident),可对其确认、解决、忽略、设置处理人、注释等操作。
提供多张告警态势大盘:监控规则中心、告警链路中心、告警排错中心、监控规则执行报表等。
可以自由按照告警的属性,将对告警分派给不同人和渠道。
可以自定义日历的时区、工作时段、自动同步节假日,亦可重置。通知渠道自动感知。
在事件(Incident)一直处于特定未完成状态时可触发通知升级(例如直接打电话、或通知组长等)。
值班人员临时不能值班时,可由他人代班,自动替代原有值班人员值班,可预览效果。
支持设置默认、特定人、特定组的短信、邮件、语言的渠道额度,且支持隔离控制。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
阿里云存储基于飞天盘古2.0分布式存储系统,产品多种多样,充分满足用户数据存储和迁移上云需求。