这才是可观测告警运维平台——20个SLS告警运维场景

本文涉及的产品
应用实时监控服务-可观测链路OpenTelemetry版,每月50GB免费额度
应用实时监控服务-用户体验监控,每月100OCU免费额度
应用实时监控服务-应用监控,每月50GB免费额度
简介: 本文以20个SLS告警运维场景说明可观测告警运维平台的痛点需求。

前言

本篇是SLS新版告警系列宣传与培训的第二篇,后续我们会推出20+系列直播与实战培训视频,敬请关注。


系列目录(持续更新)


1. 新版SLS告警介绍

1.1. 常规告警运维系统的痛点

可观测性对于告警监控运维系统是有很高的要求的,但现状却不容乐观,我们可以看到常规监控运维系统存在如下6大痛点

image.png


具体展开细化如下:

image.png


1.2. 新版SLS新版告警发布

SLS新版告警在中国站等发布公测(国际站预计4月发布),新版在SLS云原生可观测性平台上提供了一站式智能运维告警系统。新版告警提供对日志、时序等各类数据的告警监控,亦可接受三方告警,对告警进行降噪、事件管理、通知管理等,新增40+功能场景,充分考虑研发、运维、安全以及运营人员的告警监控运维需求。

image.png


1.3. 五大优势

使用SLS新版告警,可以有效缓解前面提到的告警运维系统的痛点,和其他自建、商业化或云厂商提供的方案比,具备如下5大优势:

image.png


2. 20类功能场景展示


场景样例1:日志、时序、跟踪一套查询分析语法

对日志、指标、跟踪等数据,提供一套通用语法,SLS告警监控的支持大规模日志/时序/跟踪等实时监控,而查询统计语法也是使用通用统一的SQL(并扩展)的方式提供。也就是SQL = Search + PromQL + SQL92。

例如对特定机器是否在线监控,可以使用SQL、PromQL、或者两者子查询协同、甚至多层嵌套使用机器学习的算法来找出异常。

image.png


场景样例2:丰富的机器学习算法支持

SLS的机器学习算法是直接在SQL扩展方式提供,覆盖了以下4个场景:

image.png


场景样例3:全局监控

不需要同步数据到本地,即可跨库、跨区域、甚至跨账号的监控并告警。

image.png


场景样例4:多数据源协同

支持多个(可不同)数据源之间的协同

image.png


场景样例5:多目标监控与黑白名单

一条规则可以同时监控日志/时序库中的多个逻辑目标,可分开告警,且支持自定义白名单或黑名单(只针对多目标监控时自动专注或排除)。

image.png


场景样例6: 动态设置告警严重度

支持根据检测值动态设置告警的严重度。

image.png


场景样例7:内置告警监控规则库

内置各场景下告警规则库 (500+),开箱即用,且持续增加中。

image.png


场景样例8:告警静默

可以基于告警来源规则的属性(区域、项目、规则名等),也可以基于告警自身的属性(状态、标签、标注、严重度等)抑制告警。

image.png


场景样例9:告警抑制

一个告警可以抑制(忽略)其他的告警,可有效阻止因为一次严重告警触发的告警风暴

image.png


场景样例10:路由合并降噪

支持将告警归类分派到多个合并集合中,进一步的降噪控制(去重、合并等)后,合并发送(通过行动策略)。

image.png


  • 合并集合中,多个告警重复发送会自动去重,在集合首次变化时发送,或不变时延迟发送。

image.png


场景样例11:事件(Incident)阶段管理

自动给告警创建事件(Incident),可对其确认、解决、忽略、设置处理人、注释等操作。

image.png


场景样例12:告警态势大盘

提供多张告警态势大盘:监控规则中心、告警链路中心、告警排错中心、监控规则执行报表等。

image.png


场景样例13:通知渠道分派

可以自由按照告警的属性,将对告警分派给不同人和渠道。

image.png


场景样例14: 日历与工作时段感知

可以自定义日历的时区、工作时段、自动同步节假日,亦可重置。通知渠道自动感知。

  • 案例: 发生告警时,工作日发送短信、钉钉、邮件;法定假日(如国庆长假)和周末时仅发送邮件。
  • 案例: 发生严重告警时,工作时段发短信、钉钉、邮件;非工作时段额外打电话。

image.png


场景样例15:告警通知升级

在事件(Incident)一直处于特定未完成状态时可触发通知升级(例如直接打电话、或通知组长等)。

image.png


场景样例16:独立的接收人/组管理

  • 支持独立的接收人、组的管理。

image.png


场景样例17:值班组/表-轮岗

  • 支持创建值班组,选择特定的时间段对象(可以是组)、轮岗交班方式后,自动排班。

image.png


  • 可预览最终排班效果:

image.png


  • 亦可按细腻度分排班:

image.png



  • 可以针对特定不连续的时间段排班

image.png


场景样例18:值班组/表-代班

值班人员临时不能值班时,可由他人代班,自动替代原有值班人员值班,可预览效果。

image.png


场景案例19:内置渠道扩展

  • 原生内置支持语音(电话)、短信、邮件、钉钉(群机器人)、阿里云管理员消息中心等
  • 短信、语音(电话)支持国际手机号。
  • 支持Webhook灵活定制,可支持企业微信、Slack、飞书等通知渠道。

image.png


  • 提供内容模板定制格式、甚至可以引用变量

image.png


场景案例20:渠道额度控制

支持设置默认、特定人、特定组的短信、邮件、语言的渠道额度,且支持隔离控制。

image.png


3. 进一步参考

image.png

  • 后续系列直播与培训视频会同步到B站,敬请留意

image.png

相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
目录
相关文章
|
1月前
|
Prometheus 运维 监控
智能运维实战:Prometheus与Grafana的监控与告警体系
【10月更文挑战第26天】Prometheus与Grafana是智能运维中的强大组合,前者是开源的系统监控和警报工具,后者是数据可视化平台。Prometheus具备时间序列数据库、多维数据模型、PromQL查询语言等特性,而Grafana支持多数据源、丰富的可视化选项和告警功能。两者结合可实现实时监控、灵活告警和高度定制化的仪表板,广泛应用于服务器、应用和数据库的监控。
209 3
|
2月前
|
存储 运维 监控
超越传统模型:从零开始构建高效的日志分析平台——基于Elasticsearch的实战指南
【10月更文挑战第8天】随着互联网应用和微服务架构的普及,系统产生的日志数据量日益增长。有效地收集、存储、检索和分析这些日志对于监控系统健康状态、快速定位问题以及优化性能至关重要。Elasticsearch 作为一种分布式的搜索和分析引擎,以其强大的全文检索能力和实时数据分析能力成为日志处理的理想选择。
149 6
|
3月前
|
存储 消息中间件 网络协议
日志平台-ELK实操系列(一)
日志平台-ELK实操系列(一)
|
1月前
|
Oracle 关系型数据库 数据库
【赵渝强老师】Oracle的参数文件与告警日志文件
本文介绍了Oracle数据库的参数文件和告警日志文件。参数文件分为初始化参数文件(PFile)和服务器端参数文件(SPFile),在数据库启动时读取并分配资源。告警日志文件记录了数据库的重要活动、错误和警告信息,帮助诊断问题。文中还提供了相关视频讲解和示例代码。
|
2月前
|
运维 自然语言处理 开发者
作为一名运维人员,使用通义灵码个人版处理日常工作中的代码相关任务,极大地提升了我的工作效率。以下是我使用通义灵码的具体实践场景、效果和心得,以及相应的截图。
作为一名运维人员,我使用通义灵码处理日常工作中的代码任务,效率提升了30%。通义灵码帮助我快速理解复杂代码、生成准确的代码注释,并能从自然语言生成代码示例,大幅减少了代码编写和理解的时间。
76 3
|
1月前
|
Prometheus 运维 监控
智能运维实战:Prometheus与Grafana的监控与告警体系
【10月更文挑战第27天】在智能运维中,Prometheus和Grafana的组合已成为监控和告警体系的事实标准。Prometheus负责数据收集和存储,支持灵活的查询语言PromQL;Grafana提供数据的可视化展示和告警功能。本文介绍如何配置Prometheus监控目标、Grafana数据源及告警规则,帮助运维团队实时监控系统状态,确保稳定性和可靠性。
173 0
|
3月前
|
机器学习/深度学习 人工智能 运维
|
4月前
|
存储 边缘计算 运维
边缘计算问题之OpenYurt 对边缘计算场景中的运维难题如何解决
边缘计算问题之OpenYurt 对边缘计算场景中的运维难题如何解决
39 1
|
4月前
|
运维 Kubernetes 监控
|
4月前
|
机器学习/深度学习 人工智能 运维
"颠覆传统运维!揭秘阿里云AIGC如何化身运维界超级大脑,让故障预警、智能告警不再是梦,运维大神之路从此开启!"
【8月更文挑战第14天】随着AI技术的发展,AIGC正革新依赖人工经验的传统运维行业。阿里云凭借其领先的云计算能力和AI服务生态,为运维智能化提供了坚实基础。通过分析历史数据和系统日志,AIGC能自动发现并预测故障,大幅提升运维效率。例如,结合阿里云SLS和PAI,可构建智能告警系统,实现异常检测和实时预警。随着AIGC技术的进步,运维领域将迎来全面智能化转型,开启运维新时代。
135 3