这才是可观测告警运维平台——20个SLS告警运维场景

简介: 本文以20个SLS告警运维场景说明可观测告警运维平台的痛点需求。

前言

本篇是SLS新版告警系列宣传与培训的第二篇,后续我们会推出20+系列直播与实战培训视频,敬请关注。


系列目录(持续更新)


1. 新版SLS告警介绍

1.1. 常规告警运维系统的痛点

可观测性对于告警监控运维系统是有很高的要求的,但现状却不容乐观,我们可以看到常规监控运维系统存在如下6大痛点

image.png


具体展开细化如下:

image.png


1.2. 新版SLS新版告警发布

SLS新版告警在中国站等发布公测(国际站预计4月发布),新版在SLS云原生可观测性平台上提供了一站式智能运维告警系统。新版告警提供对日志、时序等各类数据的告警监控,亦可接受三方告警,对告警进行降噪、事件管理、通知管理等,新增40+功能场景,充分考虑研发、运维、安全以及运营人员的告警监控运维需求。

image.png


1.3. 五大优势

使用SLS新版告警,可以有效缓解前面提到的告警运维系统的痛点,和其他自建、商业化或云厂商提供的方案比,具备如下5大优势:

image.png


2. 20类功能场景展示


场景样例1:日志、时序、跟踪一套查询分析语法

对日志、指标、跟踪等数据,提供一套通用语法,SLS告警监控的支持大规模日志/时序/跟踪等实时监控,而查询统计语法也是使用通用统一的SQL(并扩展)的方式提供。也就是SQL = Search + PromQL + SQL92。

例如对特定机器是否在线监控,可以使用SQL、PromQL、或者两者子查询协同、甚至多层嵌套使用机器学习的算法来找出异常。

image.png


场景样例2:丰富的机器学习算法支持

SLS的机器学习算法是直接在SQL扩展方式提供,覆盖了以下4个场景:

image.png


场景样例3:全局监控

不需要同步数据到本地,即可跨库、跨区域、甚至跨账号的监控并告警。

image.png


场景样例4:多数据源协同

支持多个(可不同)数据源之间的协同

image.png


场景样例5:多目标监控与黑白名单

一条规则可以同时监控日志/时序库中的多个逻辑目标,可分开告警,且支持自定义白名单或黑名单(只针对多目标监控时自动专注或排除)。

image.png


场景样例6: 动态设置告警严重度

支持根据检测值动态设置告警的严重度。

image.png


场景样例7:内置告警监控规则库

内置各场景下告警规则库 (500+),开箱即用,且持续增加中。

image.png


场景样例8:告警静默

可以基于告警来源规则的属性(区域、项目、规则名等),也可以基于告警自身的属性(状态、标签、标注、严重度等)抑制告警。

image.png


场景样例9:告警抑制

一个告警可以抑制(忽略)其他的告警,可有效阻止因为一次严重告警触发的告警风暴

image.png


场景样例10:路由合并降噪

支持将告警归类分派到多个合并集合中,进一步的降噪控制(去重、合并等)后,合并发送(通过行动策略)。

image.png


  • 合并集合中,多个告警重复发送会自动去重,在集合首次变化时发送,或不变时延迟发送。

image.png


场景样例11:事件(Incident)阶段管理

自动给告警创建事件(Incident),可对其确认、解决、忽略、设置处理人、注释等操作。

image.png


场景样例12:告警态势大盘

提供多张告警态势大盘:监控规则中心、告警链路中心、告警排错中心、监控规则执行报表等。

image.png


场景样例13:通知渠道分派

可以自由按照告警的属性,将对告警分派给不同人和渠道。

image.png


场景样例14: 日历与工作时段感知

可以自定义日历的时区、工作时段、自动同步节假日,亦可重置。通知渠道自动感知。

  • 案例: 发生告警时,工作日发送短信、钉钉、邮件;法定假日(如国庆长假)和周末时仅发送邮件。
  • 案例: 发生严重告警时,工作时段发短信、钉钉、邮件;非工作时段额外打电话。

image.png


场景样例15:告警通知升级

在事件(Incident)一直处于特定未完成状态时可触发通知升级(例如直接打电话、或通知组长等)。

image.png


场景样例16:独立的接收人/组管理

  • 支持独立的接收人、组的管理。

image.png


场景样例17:值班组/表-轮岗

  • 支持创建值班组,选择特定的时间段对象(可以是组)、轮岗交班方式后,自动排班。

image.png


  • 可预览最终排班效果:

image.png


  • 亦可按细腻度分排班:

image.png



  • 可以针对特定不连续的时间段排班

image.png


场景样例18:值班组/表-代班

值班人员临时不能值班时,可由他人代班,自动替代原有值班人员值班,可预览效果。

image.png


场景案例19:内置渠道扩展

  • 原生内置支持语音(电话)、短信、邮件、钉钉(群机器人)、阿里云管理员消息中心等
  • 短信、语音(电话)支持国际手机号。
  • 支持Webhook灵活定制,可支持企业微信、Slack、飞书等通知渠道。

image.png


  • 提供内容模板定制格式、甚至可以引用变量

image.png


场景案例20:渠道额度控制

支持设置默认、特定人、特定组的短信、邮件、语言的渠道额度,且支持隔离控制。

image.png


3. 进一步参考

image.png

  • 后续系列直播与培训视频会同步到B站,敬请留意

image.png

相关实践学习
通过日志服务实现云资源OSS的安全审计
本实验介绍如何通过日志服务实现云资源OSS的安全审计。
目录
相关文章
|
9月前
|
运维 监控 数据可视化
从告警到巡检,YashanDB Cloud Manager 帮我省下一半运维时间
数据库运维常依赖人工操作,易引发业务问题。YashanDB Cloud Manager(YCM)改变这一现状:可视化实例管理、全栈资源监控、智能巡检、灵活告警、高可用保障、权限审计体系,助企业降低故障影响、提升DBA效率、强化安全合规、标准化运维流程。若你被数据库运维困扰,可尝试此国产平台。
|
4月前
|
缓存 Java 应用服务中间件
Spring Boot配置优化:Tomcat+数据库+缓存+日志,全场景教程
本文详解Spring Boot十大核心配置优化技巧,涵盖Tomcat连接池、数据库连接池、Jackson时区、日志管理、缓存策略、异步线程池等关键配置,结合代码示例与通俗解释,助你轻松掌握高并发场景下的性能调优方法,适用于实际项目落地。
722 5
|
9月前
|
监控 算法 测试技术
突破极限: 高负载场景下的单机300M多行正则日志采集不是梦
在当今数字化时代,日志数据已成为企业 IT 运营和业务分析的关键资源。然而,随着业务规模的扩大和系统复杂度的提升,日志数据的体量呈现爆发式增长,给日志采集和处理系统带来了巨大挑战。
622 99
|
6月前
|
JSON 安全 网络安全
LoongCollector 安全日志接入实践:企业级防火墙场景的日志标准化采集
LoonCollector 是一款轻量级日志采集工具,支持多源安全日志的标准化接入,兼容 Syslog、JSON、CSV 等格式,适用于长亭 WAF、FortiGate、Palo Alto 等主流安全设备。通过灵活配置解析规则,LoonCollector 可将原始日志转换为结构化数据,写入阿里云 SLS 日志库,便于后续查询分析、威胁检测与合规审计,有效降低数据孤岛问题,提升企业安全运营效率。
|
10月前
|
数据采集 运维 监控
数据采集监控与告警:错误重试、日志分析与自动化运维
本文探讨了数据采集技术从“简单采集”到自动化运维的演进。传统方式因反爬策略和网络波动常导致数据丢失,而引入错误重试、日志分析与自动化告警机制可显著提升系统稳定性与时效性。正方强调健全监控体系的重要性,反方则担忧复杂化带来的成本与安全风险。未来,结合AI与大数据技术,数据采集将向智能化、全自动方向发展,实现动态调整与智能识别反爬策略,降低人工干预需求。附带的Python示例展示了如何通过代理IP、重试策略及日志记录实现高效的数据采集程序。
496 7
数据采集监控与告警:错误重试、日志分析与自动化运维
|
9月前
|
人工智能 运维 监控
阿里云携手神州灵云打造云内网络性能监测标杆 斩获中国信通院高质量数字化转型十大案例——金保信“云内网络可观测”方案树立云原生运维新范式
2025年,金保信社保卡有限公司联合阿里云与神州灵云申报的《云内网络性能可观测解决方案》入选高质量数字化转型典型案例。该方案基于阿里云飞天企业版,融合云原生引流技术和流量“染色”专利,解决云内运维难题,实现主动预警和精准观测,将故障排查时间从数小时缩短至15分钟,助力企业降本增效,形成可跨行业复制的数字化转型方法论。
500 6
|
10月前
|
监控 Shell Linux
Android调试终极指南:ADB安装+多设备连接+ANR日志抓取全流程解析,覆盖环境变量配置/多设备调试/ANR日志分析全流程,附Win/Mac/Linux三平台解决方案
ADB(Android Debug Bridge)是安卓开发中的重要工具,用于连接电脑与安卓设备,实现文件传输、应用管理、日志抓取等功能。本文介绍了 ADB 的基本概念、安装配置及常用命令。包括:1) 基本命令如 `adb version` 和 `adb devices`;2) 权限操作如 `adb root` 和 `adb shell`;3) APK 操作如安装、卸载应用;4) 文件传输如 `adb push` 和 `adb pull`;5) 日志记录如 `adb logcat`;6) 系统信息获取如屏幕截图和录屏。通过这些功能,用户可高效调试和管理安卓设备。
|
10月前
|
运维 监控 前端开发
Zabbix告警分析新革命:DeepSeek四大创新场景助力智能运维
面对日益复杂的IT环境,高效分析监控数据并快速响应成为运维的关键挑战。本文深入探讨了DeepSeek与Zabbix结合的创新应用,包括一键式智能告警分析、Zabbix文档知识库助手及钉钉告警增强功能。通过部署指南和实用脚本,展示了如何提升故障排查效率,为运维工程师提供高效解决方案。
976 5
|
12月前
|
存储 运维 监控
金融场景 PB 级大规模日志平台:中信银行信用卡中心从 Elasticsearch 到 Apache Doris 的先进实践
中信银行信用卡中心每日新增日志数据 140 亿条(80TB),全量归档日志量超 40PB,早期基于 Elasticsearch 构建的日志云平台,面临存储成本高、实时写入性能差、文本检索慢以及日志分析能力不足等问题。因此使用 Apache Doris 替换 Elasticsearch,实现资源投入降低 50%、查询速度提升 2~4 倍,同时显著提高了运维效率。
720 3
金融场景 PB 级大规模日志平台:中信银行信用卡中心从 Elasticsearch 到 Apache Doris 的先进实践
|
运维 Prometheus 监控
🎉 WatchAlert - 开源多数据源告警引擎【运维研发必备能力】
WatchAlert 是一个开源的多数据源告警引擎,支持从 Prometheus、Elasticsearch、Kubernetes 等多种数据源获取监控数据,并根据预定义的告警规则触发告警。它具备多数据源支持、灵活的告警规则、多渠道告警通知、可扩展架构和高性能等核心特性,帮助团队更高效地监控和响应问题。项目地址:https://github.com/opsre/WatchAlert
1676 18
🎉 WatchAlert - 开源多数据源告警引擎【运维研发必备能力】