文档备案控制台

开发者社区云原生云原生可观测文章正文

这才是可观测告警运维平台——20个SLS告警运维场景

2021-04-06 2774

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本文以20个SLS告警运维场景说明可观测告警运维平台的痛点需求。

前言

本篇是SLS新版告警系列宣传与培训的第二篇，后续我们会推出20+系列直播与实战培训视频，敬请关注。

系列目录（持续更新）

一站式云原生智能告警运维平台——SLS新版告警发布！
这才是可观测告警运维平台——20个SLS告警运维场景（本篇）
可观测告警运维系统调研——SLS告警与多款方案对比

1. 新版SLS告警介绍

1.1. 常规告警运维系统的痛点

可观测性对于告警监控运维系统是有很高的要求的，但现状却不容乐观，我们可以看到常规监控运维系统存在如下6大痛点：

具体展开细化如下：

1.2. 新版SLS新版告警发布

SLS新版告警在中国站等发布公测（国际站预计4月发布），新版在SLS云原生可观测性平台上提供了一站式智能运维告警系统。新版告警提供对日志、时序等各类数据的告警监控，亦可接受三方告警，对告警进行降噪、事件管理、通知管理等，新增40+功能场景，充分考虑研发、运维、安全以及运营人员的告警监控运维需求。

1.3. 五大优势

使用SLS新版告警，可以有效缓解前面提到的告警运维系统的痛点，和其他自建、商业化或云厂商提供的方案比，具备如下5大优势：

2. 20类功能场景展示

场景样例1：日志、时序、跟踪一套查询分析语法

对日志、指标、跟踪等数据，提供一套通用语法，SLS告警监控的支持大规模日志/时序/跟踪等实时监控，而查询统计语法也是使用通用统一的SQL（并扩展）的方式提供。也就是SQL = Search + PromQL + SQL92。

例如对特定机器是否在线监控，可以使用SQL、PromQL、或者两者子查询协同、甚至多层嵌套使用机器学习的算法来找出异常。

场景样例2：丰富的机器学习算法支持

SLS的机器学习算法是直接在SQL扩展方式提供，覆盖了以下4个场景：

场景样例3：全局监控

不需要同步数据到本地，即可跨库、跨区域、甚至跨账号的监控并告警。

场景样例4：多数据源协同

支持多个（可不同）数据源之间的协同

场景样例5：多目标监控与黑白名单

一条规则可以同时监控日志/时序库中的多个逻辑目标，可分开告警，且支持自定义白名单或黑名单（只针对多目标监控时自动专注或排除）。

场景样例6：动态设置告警严重度

支持根据检测值动态设置告警的严重度。

场景样例7：内置告警监控规则库

内置各场景下告警规则库 (500+)，开箱即用，且持续增加中。

场景样例8：告警静默

可以基于告警来源规则的属性（区域、项目、规则名等），也可以基于告警自身的属性（状态、标签、标注、严重度等）抑制告警。

场景样例9：告警抑制

一个告警可以抑制（忽略）其他的告警，可有效阻止因为一次严重告警触发的告警风暴。

场景样例10：路由合并降噪

支持将告警归类分派到多个合并集合中，进一步的降噪控制（去重、合并等）后，合并发送（通过行动策略）。

在合并集合中，多个告警重复发送会自动去重，在集合首次、变化时发送，或不变时延迟发送。

场景样例11：事件(Incident)阶段管理

自动给告警创建事件(Incident)，可对其确认、解决、忽略、设置处理人、注释等操作。

场景样例12：告警态势大盘

提供多张告警态势大盘：监控规则中心、告警链路中心、告警排错中心、监控规则执行报表等。

场景样例13：通知渠道分派

可以自由按照告警的属性，将对告警分派给不同人和渠道。

场景样例14：日历与工作时段感知

可以自定义日历的时区、工作时段、自动同步节假日，亦可重置。通知渠道自动感知。

案例: 发生告警时，工作日发送短信、钉钉、邮件；法定假日（如国庆长假）和周末时仅发送邮件。
案例: 发生严重告警时，工作时段发短信、钉钉、邮件；非工作时段额外打电话。

场景样例15：告警通知升级

在事件(Incident)一直处于特定未完成状态时可触发通知升级（例如直接打电话、或通知组长等）。

场景样例16：独立的接收人/组管理

支持独立的接收人、组的管理。

场景样例17：值班组/表-轮岗

支持创建值班组，选择特定的时间段、对象（可以是组）、轮岗、交班方式后，自动排班。

可预览最终排班效果：

亦可按细腻度分排班：

可以针对特定不连续的时间段排班

场景样例18：值班组/表-代班

值班人员临时不能值班时，可由他人代班，自动替代原有值班人员值班，可预览效果。

场景案例19：内置渠道扩展

原生内置支持语音（电话）、短信、邮件、钉钉（群机器人）、阿里云管理员消息中心等
短信、语音（电话）支持国际手机号。
支持Webhook灵活定制，可支持企业微信、Slack、飞书等通知渠道。

提供内容模板定制格式、甚至可以引用变量

场景案例20：渠道额度控制

支持设置默认、特定人、特定组的短信、邮件、语言的渠道额度，且支持隔离控制。

3. 进一步参考

SLS（日志服务）云原生观测分析平台：https://www.aliyun.com/product/sls
SLS新版告警文档首页：https://help.aliyun.com/document_detail/207609.html
欢迎扫群加入阿里云-日志服务（SLS）技术交流, 获得第一手资料与支持（含直播培训）

后续系列直播与培训视频会同步到B站，敬请留意

文章标签：

日志服务

Cloud Native

机器学习/深度学习

BI

SQL

监控

运维

机器人

安全

算法

关键词：

日志服务场景

运维平台

日志服务平台

平台日志服务

可观测运维

来源：

开发者社区 > 云存储 > 文章 > 正文

相关实践学习

通过日志服务实现云资源OSS的安全审计

本实验介绍如何通过日志服务实现云资源OSS的安全审计。

成喆

目录

相关文章

Echo_Wish

|

7月前

|

机器学习/深度学习人工智能运维

运维告警别乱飞了！AI智能报警案例解析

运维告警别乱飞了！AI智能报警案例解析

Echo_Wish

709 0 0

中间件小哥

|

12月前

|

运维 Prometheus 监控

基于阿里云可观测产品构建企业级告警体系的通用路径与最佳实践

本文围绕企业级告警体系构建展开，探讨了监控与告警在系统稳定性中的重要作用。通过梳理监控对象、分析指标、采集数据及配置规则等环节，提出告警体系建设的通用流程，并针对多平台告警、误报、告警风暴等问题提供解决思路。结合阿里云可观测产品，分享了某电商企业的实践案例，展示了如何通过标签规范、日志标准和统一管理平台实现高效告警处置，为构建全面且实用的告警体系提供了参考指南。

中间件小哥

1099 1 1

Echo_Wish

|

7月前

|

运维监控自动驾驶

低代码运维平台：是“运维福音”，还是“甩手掌柜”？

低代码运维平台：是“运维福音”，还是“甩手掌柜”？

Echo_Wish

201 29 30

游客6kyzki537plg4

|

12月前

|

运维监控数据可视化

从告警到巡检，YashanDB Cloud Manager 帮我省下一半运维时间

数据库运维常依赖人工操作，易引发业务问题。YashanDB Cloud Manager（YCM）改变这一现状：可视化实例管理、全栈资源监控、智能巡检、灵活告警、高可用保障、权限审计体系，助企业降低故障影响、提升DBA效率、强化安全合规、标准化运维流程。若你被数据库运维困扰，可尝试此国产平台。

游客6kyzki537plg4

254 1 1

Echo_Wish

|

7月前

|

机器学习/深度学习数据采集运维

运维告警不是“撞大运”：聊聊数据驱动的异常检测模型

运维告警不是“撞大运”：聊聊数据驱动的异常检测模型

Echo_Wish

239 3 3

Echo_Wish

|

7月前

|

机器学习/深度学习运维数据挖掘

运维告警不是“玄学”：聊聊怎么用机器学习优化事件关联分析

运维告警不是“玄学”：聊聊怎么用机器学习优化事件关联分析

Echo_Wish

281 3 3

奔跑的数据

|

数据采集运维监控

数据采集监控与告警：错误重试、日志分析与自动化运维

本文探讨了数据采集技术从“简单采集”到自动化运维的演进。传统方式因反爬策略和网络波动常导致数据丢失，而引入错误重试、日志分析与自动化告警机制可显著提升系统稳定性与时效性。正方强调健全监控体系的重要性，反方则担忧复杂化带来的成本与安全风险。未来，结合AI与大数据技术，数据采集将向智能化、全自动方向发展，实现动态调整与智能识别反爬策略，降低人工干预需求。附带的Python示例展示了如何通过代理IP、重试策略及日志记录实现高效的数据采集程序。

奔跑的数据

555 7 8

数据采集监控与告警：错误重试、日志分析与自动化运维

叮叮当当就是我

|

10月前

|

运维监控 Linux

WGCLOUD运维平台的分布式计划任务功能介绍

WGCLOUD是一款免费开源的运维监控平台，支持主机与服务器性能监控，具备实时告警和自愈功能。本文重点介绍其计划任务功能模块，可统一管理Linux和Windows主机的定时任务。相比手动配置crontab或Windows任务计划，WGCLOUD提供直观界面，通过添加cron表达式、执行指令或脚本并选择主机，即可轻松完成任务设置，大幅提升多主机任务管理效率。

叮叮当当就是我

319 0 0

翻滚的樱桃肉

|

监控 Shell Linux

Android调试终极指南：ADB安装+多设备连接+ANR日志抓取全流程解析，覆盖环境变量配置/多设备调试/ANR日志分析全流程，附Win/Mac/Linux三平台解决方案

ADB（Android Debug Bridge）是安卓开发中的重要工具，用于连接电脑与安卓设备，实现文件传输、应用管理、日志抓取等功能。本文介绍了 ADB 的基本概念、安装配置及常用命令。包括：1) 基本命令如 `adb version` 和 `adb devices`；2) 权限操作如 `adb root` 和 `adb shell`；3) APK 操作如安装、卸载应用；4) 文件传输如 `adb push` 和 `adb pull`；5) 日志记录如 `adb logcat`；6) 系统信息获取如屏幕截图和录屏。通过这些功能，用户可高效调试和管理安卓设备。

翻滚的樱桃肉

8436 2 3

Zabbix中国

|

运维监控前端开发

Zabbix告警分析新革命：DeepSeek四大创新场景助力智能运维

面对日益复杂的IT环境，高效分析监控数据并快速响应成为运维的关键挑战。本文深入探讨了DeepSeek与Zabbix结合的创新应用，包括一键式智能告警分析、Zabbix文档知识库助手及钉钉告警增强功能。通过部署指南和实用脚本，展示了如何提升故障排查效率，为运维工程师提供高效解决方案。

Zabbix中国

1222 5 5

云原生

云原生可观测

热门文章

最新文章

扩展AlertManager集成钉钉助力Istio on ACK可观测性监控能力

为 OpenClaw 注入企业级长期记忆——AgentLoop MemoryStore 集成方案

一行命令，给你的 OpenClaw 龙虾装上 X 光机——阿里云可观测，让养虾更经济更安全

MCP Server 开发实战 | 大模型无缝对接 Grafana

Grafana Loki，轻量级日志系统

PTS压测问题之调试返回403如何解决

FinOps云成本分配指南

AIOps已逝，欢迎进入AgenticOps（运维智能体）时代

我们用 AI Observe Stack 观测了 OpenClaw，发现 AI Agent 背后的这些隐患

从 DeepSeek 敏感信息泄露谈可观测系统的数据安全预防

为 OpenClaw 注入企业级长期记忆——AgentLoop MemoryStore 集成方案

一行命令，给你的 OpenClaw 龙虾装上 X 光机——阿里云可观测，让养虾更经济更安全

我们用 AI Observe Stack 观测了 OpenClaw，发现 AI Agent 背后的这些隐患

FinOps云成本分配指南

告别数据库“膨胀”：Dify x SLS 构建高可用生产级 AI 架构

FinOps如何管理共享云成本

如何实践FinOps入门指南

FinOps for AI 概述

AIOps已逝，欢迎进入AgenticOps（运维智能体）时代

别让运维跪着查日志了！给老板看的“业务观测”大盘才是真香

相关课程

更多

企业级运维之云原生与Kubernetes实战课程

大数据知识图谱系列—基于ELK+Flink日志全观测最佳实践

面向运维的 python 脚本速成-1024程序员节创造营公益课

Linux企业运维实战 - 入门及常用命令

场景实践-基于阿里云Quick BI 对MOOC网站日志分析

玩转云上智能运维

相关电子书

更多

PostgresChina2018_赖思超_PostgreSQL10_hash索引的WAL日志修改版final

Kubernetes下日志实时采集、存储与计算实践

日志数据采集与分析对接

下一篇

PHP：将本地文件上传到阿里云OSS存储