可观测告警运维系统调研——SLS告警与多款方案对比

本文涉及的产品
性能测试 PTS,5000VUM额度
应用实时监控服务-可观测链路OpenTelemetry版,每月50GB免费额度
可观测可视化 Grafana 版,10个用户账号 1个月
简介: 本文介绍对比多款告警监控运维平台方案,覆盖阿里云SLS、Azure、AWS、自建系统(ELK、Prometheus、TICK)等方案。

前言

本篇是SLS新版告警系列宣传与培训的第三篇,后续我们会推出20+系列直播与实战培训视频,敬请关注。


系列目录(持续更新)


1. 什么是SLS告警运维系统

1.1. SLS(日志服务)是什么

SLS是阿里云上云原生观测分析平台,为Log/Metric/Trace等数据提供大规模、低成本、实时平台化服务。目前对内已经是“阿里巴巴 + 蚂蚁金服”系统的数据总线,数年稳定支撑双十一、双十二、新春红包活动。对外则已经服务阿里云几十万企业客户。

image.png


1.2. SLS新版告警——一站式智能告警运维系统

SLS新版告警在中国站等发布公测(国际站预计4月发布),新版在SLS云原生可观测性平台上提供了一站式智能运维告警系统。新版告警提供对日志、时序等各类数据的告警监控,亦可接受三方告警,对告警进行降噪、事件管理、通知管理等,新增40+功能场景,充分考虑研发、运维、安全以及运营人员的告警监控运维需求。

image.png



1.3. 优势

使用SLS新版告警,可以有效缓解典型告警运维系统的痛点,和其他自建、商业化或云厂商提供的方案比,具备如下5大优势:

image.png


2. 与自建方案对比

2.1. 与ELK X-Pack 告警 (Watcher/KibanaAlert)对比

2.1.1. 简介

自建方案ELK表示使用开源方案ElasticSearch + Logstash + Kibana组合,但是其不包括告警功能,需要额外购买X-Pack商业包,会拥有2个告警功能,一个是ElasticSearch附带的Watcher,一个是Kibana 7.x+新增的Alert功能,注意:这两个告警功能互相独立,并不能协同和关联。


2.1.2. 评估对比

image.png

2.2. 与Prometheus  & Loki(含AlertManager)告警对比

2.2.1. 简介

自建方案Prometheus&Loki表示使用开源方案Prometheus + Loki + AlertManager组合,其中Prometheus Alert针对时序进行告警监控,Loki针对日志进行告警监控,两者共同将告警发送给Alert Manager进行告警管理


2.2.2. 评估对比

image.png


2.3. 与InfluxDB 2.0 告警(含Kapacitor) 告警对比

2.3.1. 简介

自建方案InfluxDB表示使用开源方案InfluxDB OSS 2.0 + kapacitor组合搭建告警监控系统,如果需要集群部署功能,还需要购买InfluxDB商业版本。注意,该方案只能支持针对时序数据的告警监控。


2.3.2. 评估对比

image.png


3. 与其他云厂商方案对比

3.1. 与AWSCloudWatch 告警 +SNS+SSM对比

3.1.1. 简介

AWS告警监控方案,需要依赖AWS CloudWatch告警加上多个其他AWS服务达到告警监控和管理的能力。一般使用CloudWatch Alarm + SNS + System Manager OpsCenter组合的方式完成对日志、时序的监控管理。CloudWatch Logs支持日志的采集,但实际监控告警时,需要先转换成时序才行。


3.1.2. 评估对比

image.png

3.2. 与AzureMonitor 告警对比

3.2.1. 简介

Azure Monitor支持完整的基于时序与日志的监控,并很好集成了上下游方案提供完整的告警监控与告警管理通知功能。


3.2.2. 评估对比

image.png


4. 进一步参考

4.1. 各方参考


  • ELK:


  • Prometheus & Lock:


  • InfluxDB:


  • AWS:


  • Azure:


4.1. SLS相关

image.png

  • 后续系列直播与培训视频会同步到B站,敬请留意

image.png

相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
目录
打赏
0
0
0
0
3963
分享
相关文章
Zabbix告警分析新革命:DeepSeek四大创新场景助力智能运维
面对日益复杂的IT环境,高效分析监控数据并快速响应成为运维的关键挑战。本文深入探讨了DeepSeek与Zabbix结合的创新应用,包括一键式智能告警分析、Zabbix文档知识库助手及钉钉告警增强功能。通过部署指南和实用脚本,展示了如何提升故障排查效率,为运维工程师提供高效解决方案。
73 5
智能运维,由你定义:SAE自定义日志与监控解决方案
SAE(Serverless应用引擎)是阿里云推出的全托管PaaS平台,致力于简化微服务应用开发与管理。为满足用户对可观测性和运维能力的更高需求,SAE引入Sidecar容器技术,实现日志采集、监控指标收集等功能扩展,且无需修改主应用代码。通过共享资源模式和独立资源模式,SAE平衡了资源灵活性与隔离性。同时,提供全链路运维能力,确保应用稳定性。未来,SAE将持续优化,支持更多场景,助力用户高效用云。
智能运维实战:Prometheus与Grafana的监控与告警体系
【10月更文挑战第26天】Prometheus与Grafana是智能运维中的强大组合,前者是开源的系统监控和警报工具,后者是数据可视化平台。Prometheus具备时间序列数据库、多维数据模型、PromQL查询语言等特性,而Grafana支持多数据源、丰富的可视化选项和告警功能。两者结合可实现实时监控、灵活告警和高度定制化的仪表板,广泛应用于服务器、应用和数据库的监控。
532 3
API明细日志及运维统计日志全面提升API可运维性
在数字化转型的大潮中,数据已成为企业最宝贵的资产之一。而数据服务API可快速为数据应用提供数据接口。面对越来越多的API以及越来越多的应用调用,如何快速查看API的服务情况、异常情况及影响范围,以及查看API的调用详情,进行API的性能优化、错误排查变得越来越重要,本文将介绍如何配置和开通API运维统计及明细日志,以及如何查看日志进行介绍。
226 0
docker运维查看指定应用log文件位置和名称
通过本文的方法,您可以更高效地管理和查看Docker容器中的日志文件,确保应用运行状态可控和可监测。
151 28
智能日志分析:用AI点亮运维的未来
智能日志分析:用AI点亮运维的未来
371 15
🎉 WatchAlert - 开源多数据源告警引擎【运维研发必备能力】
WatchAlert 是一个开源的多数据源告警引擎,支持从 Prometheus、Elasticsearch、Kubernetes 等多种数据源获取监控数据,并根据预定义的告警规则触发告警。它具备多数据源支持、灵活的告警规则、多渠道告警通知、可扩展架构和高性能等核心特性,帮助团队更高效地监控和响应问题。项目地址:https://github.com/opsre/WatchAlert
🎉 WatchAlert - 开源多数据源告警引擎【运维研发必备能力】
云端问道7期方案教学-使用操作系统智能助手OS Copilot轻松运维与编程
本文介绍了阿里云基础软件团队推出的操作系统智能助手 OS Copilot,旨在解决 Linux 开发与运维中的痛点。OS Copilot 基于大模型和操作系统领域知识构建,支持自然语言问答、命令辅助执行、系统运维优化及代码生成等功能,极大降低了学习成本和工作量。文章详细阐述了其产品架构、典型应用场景以及实验反馈渠道,帮助用户更高效地进行系统管理和编程。目前该产品处于公测阶段,免费提供给阿里云 ECS 实例和 Alinux 3 系统用户使用。
云原生之运维监控实践:使用 taosKeeper 与 TDinsight 实现对 时序数据库TDengine 服务的监测告警
在数字化转型的过程中,监控与告警功能的优化对保障系统的稳定运行至关重要。本篇文章是“2024,我想和 TDengine 谈谈”征文活动的三等奖作品之一,详细介绍了如何利用 TDengine、taosKeeper 和 TDinsight 实现对 TDengine 服务的状态监控与告警功能。作者通过容器化安装 TDengine 和 Grafana,演示了如何配置 Grafana 数据源、导入 TDinsight 仪表板、以及如何设置告警规则和通知策略。欢迎大家阅读。
94 0
【赵渝强老师】Oracle的参数文件与告警日志文件
本文介绍了Oracle数据库的参数文件和告警日志文件。参数文件分为初始化参数文件(PFile)和服务器端参数文件(SPFile),在数据库启动时读取并分配资源。告警日志文件记录了数据库的重要活动、错误和警告信息,帮助诊断问题。文中还提供了相关视频讲解和示例代码。
124 1