可观测告警运维系统调研——SLS告警与多款方案对比

本文涉及的产品
可观测监控 Prometheus 版,每月50GB免费额度
应用实时监控服务-应用监控,每月50GB免费额度
可观测可视化 Grafana 版,10个用户账号 1个月
简介: 本文介绍对比多款告警监控运维平台方案,覆盖阿里云SLS、Azure、AWS、自建系统(ELK、Prometheus、TICK)等方案。

前言

本篇是SLS新版告警系列宣传与培训的第三篇,后续我们会推出20+系列直播与实战培训视频,敬请关注。


系列目录(持续更新)


1. 什么是SLS告警运维系统

1.1. SLS(日志服务)是什么

SLS是阿里云上云原生观测分析平台,为Log/Metric/Trace等数据提供大规模、低成本、实时平台化服务。目前对内已经是“阿里巴巴 + 蚂蚁金服”系统的数据总线,数年稳定支撑双十一、双十二、新春红包活动。对外则已经服务阿里云几十万企业客户。

image.png


1.2. SLS新版告警——一站式智能告警运维系统

SLS新版告警在中国站等发布公测(国际站预计4月发布),新版在SLS云原生可观测性平台上提供了一站式智能运维告警系统。新版告警提供对日志、时序等各类数据的告警监控,亦可接受三方告警,对告警进行降噪、事件管理、通知管理等,新增40+功能场景,充分考虑研发、运维、安全以及运营人员的告警监控运维需求。

image.png



1.3. 优势

使用SLS新版告警,可以有效缓解典型告警运维系统的痛点,和其他自建、商业化或云厂商提供的方案比,具备如下5大优势:

image.png


2. 与自建方案对比

2.1. 与ELK X-Pack 告警 (Watcher/KibanaAlert)对比

2.1.1. 简介

自建方案ELK表示使用开源方案ElasticSearch + Logstash + Kibana组合,但是其不包括告警功能,需要额外购买X-Pack商业包,会拥有2个告警功能,一个是ElasticSearch附带的Watcher,一个是Kibana 7.x+新增的Alert功能,注意:这两个告警功能互相独立,并不能协同和关联。


2.1.2. 评估对比

image.png

2.2. 与Prometheus  & Loki(含AlertManager)告警对比

2.2.1. 简介

自建方案Prometheus&Loki表示使用开源方案Prometheus + Loki + AlertManager组合,其中Prometheus Alert针对时序进行告警监控,Loki针对日志进行告警监控,两者共同将告警发送给Alert Manager进行告警管理


2.2.2. 评估对比

image.png


2.3. 与InfluxDB 2.0 告警(含Kapacitor) 告警对比

2.3.1. 简介

自建方案InfluxDB表示使用开源方案InfluxDB OSS 2.0 + kapacitor组合搭建告警监控系统,如果需要集群部署功能,还需要购买InfluxDB商业版本。注意,该方案只能支持针对时序数据的告警监控。


2.3.2. 评估对比

image.png


3. 与其他云厂商方案对比

3.1. 与AWSCloudWatch 告警 +SNS+SSM对比

3.1.1. 简介

AWS告警监控方案,需要依赖AWS CloudWatch告警加上多个其他AWS服务达到告警监控和管理的能力。一般使用CloudWatch Alarm + SNS + System Manager OpsCenter组合的方式完成对日志、时序的监控管理。CloudWatch Logs支持日志的采集,但实际监控告警时,需要先转换成时序才行。


3.1.2. 评估对比

image.png

3.2. 与AzureMonitor 告警对比

3.2.1. 简介

Azure Monitor支持完整的基于时序与日志的监控,并很好集成了上下游方案提供完整的告警监控与告警管理通知功能。


3.2.2. 评估对比

image.png


4. 进一步参考

4.1. 各方参考


  • ELK:


  • Prometheus & Lock:


  • InfluxDB:


  • AWS:


  • Azure:


4.1. SLS相关

image.png

  • 后续系列直播与培训视频会同步到B站,敬请留意

image.png

相关实践学习
【涂鸦即艺术】基于云应用开发平台CAP部署AI实时生图绘板
【涂鸦即艺术】基于云应用开发平台CAP部署AI实时生图绘板
目录
相关文章
|
2月前
|
数据采集 运维 数据可视化
AR 运维系统与 MES、EMA、IoT 系统的融合架构与实践
AR运维系统融合IoT、EMA、MES数据,构建“感知-分析-决策-执行”闭环。通过AR终端实现设备数据可视化,实时呈现温度、工单等信息,提升运维效率与生产可靠性。(238字)
|
3月前
|
传感器 边缘计算 运维
AR 虚实叠加技术在工业设备运维中的实现流程方案
AR技术通过虚实信息融合,实现工业设备参数可视化、故障立体化、操作直观化,提升运维效率与精度。结合物联网与数字孪生,打造智能运维新范式。
|
2月前
|
传感器 人工智能 运维
AR智慧运维系统介绍
阿法龙XR云平台是一款面向工业领域的增强现实(AR)智能化平台,助力企业实现数字化转型。平台集成智能巡检工作流、远程协助、AI视频验收、人脸识别等功能模块,支持AR眼镜与移动终端,提供虚实融合的运维体验。具备高度定制化能力,适配多种工业场景,提升运维效率与智能化水平。
|
3月前
|
数据采集 运维 监控
运维靠经验拍脑袋?不如上车:构建“数据驱动”的智能决策系统
运维靠经验拍脑袋?不如上车:构建“数据驱动”的智能决策系统
165 0
|
4月前
|
人工智能 运维 监控
聚焦“AI+运维”深度融合,龙蜥系统运维联盟 MeetUp 圆满结束
现场 40 多位开发者进行了深入的技术交流,探索 AI 与运维深度融合的未来路径。
|
3月前
|
人工智能 运维 Prometheus
运维还要天天盯人值班?现代化运维就该让系统自己跑!
运维还要天天盯人值班?现代化运维就该让系统自己跑!
123 4
|
4月前
|
运维 前端开发 JavaScript
半夜服务器告警不再错过!运维人员必备的语音通知方案
为解决深夜服务器宕机错过告警的问题,本文介绍一款专为个人开发者与运维人员设计的语音通知方案。通过电话直接推送重要告警,确保第一时间响应,避免故障扩大。支持多种编程语言调用,配置简单,3步即可完成,实时性强,适合各类关键业务场景。
419 5
|
4月前
|
运维 Prometheus 监控
系统崩了怪运维?别闹了,你该问问有没有自动化!
系统崩了怪运维?别闹了,你该问问有没有自动化!
168 9
|
3月前
|
传感器 运维 监控
AR眼镜在工业运维的场景应用和方案说明
AR眼镜通过虚实融合技术,革新工业运维模式。从设备巡检、故障维修到员工培训,AR实现远程协作、实时数据叠加与沉浸式教学,大幅提升效率与准确性,推动智能工厂发展。
|
3月前
|
运维 数据可视化 vr&ar
AR远程协作在发电领域的运维应用方案
发电厂面临设备故障频发、运维人员经验不足、远程支持困难及维护成本高昂等挑战。为提升运维效率与设备可靠性,越来越多电厂开始采用增强现实(AR)远程协作技术。通过AR设备,现场人员可与远程专家实时协作,实现快速故障诊断与修复、可视化操作指导和精准培训支持。AR技术不仅缩短停机时间,降低运维成本,还提升了应急响应能力与决策效率,助力发电行业向智能化、高效化方向发展。
下一篇
oss云网关配置