开发者社区> bigv0616> 正文

运维自动化之监控告警平台

简介: Saturn平台可以解决多种监控平台产生的报警统一管控,类似监控中间件的功能,监控平台产生的告警发送给saturn, 通过saturn统一查询分析报警、控制报警风暴、自定义报警发送渠道(钉钉、电话告警),saturn还支持对收集到ES、云厂商日志服务中的业务日志检索并报警, saturn内置了中通天鸿呼叫中心免费1000条语音告警功能。
+关注继续查看

简介

Saturn平台可以解决多种监控平台产生的报警统一管控,类似监控中间件的功能,监控平台产生的告警发送给saturn, 通过saturn统一查询分析报警、控制报警风暴、自定义报警发送渠道(钉钉、电话告警),saturn还支持对收集到ES、云厂商日志服务中的业务日志检索并报警, saturn内置了中通天鸿呼叫中心免费1000条语音告警功能。
saturn.png

监控大屏

saturn-dashboard.jpg

监控策略

监控策略对产生的告警执行策略参数配置的动作,例如自建业务日志收集到ES中,我们通过配置检索策略及满足执行告警条件后,即会执行策略对应的告警动作。

strategy01.jpg

创建策略

策略分为基础监控和日志监控两种类型:

  • 告警维度:支持主机、产品线、标题、等级等维度对产生的告警匹配策略,匹配到的告警按照对应策略参数执行告警动作。
  • 重复周期与告警次数属于一对配置参数,即策略在周期时间内执行满足配置的告警次数后触发告警动作。
  • 自动恢复: 正常基础告警会发送告警和恢复告警,自动恢复代表不会收到恢复告警,收到告警后会发送一次告警后状态自动变为恢复状态。适用于日志关键告警和自定义类告警即实时告警。
  • 维护时间:是在该时间范围内产生的告警只做记录,不发告警
  • 支持多种渠道告警,钉钉、飞书、电话告警,电话告警采用中通天鸿通信有限公司呼叫中心语音消息,默认每个用户都有1000条的语音消息告警,电话告警可以有效保证告警处理及时性、保证生产业务的稳定性。

以日志监控为例创建策略,每条策略会管理对应的产品线,会自动检索es中对应命名空间和容器名称下的日志内容。同时产生告警后会自动关联产品线的负责人,并按照配置的通知渠道发送告警。具体产品线相关功能请移步到产品线管理Github了解。

es01.png

strategy_create.jpg

监控静默

对于发生暂时未恢复的告警配置静默一段时间,不发送告警提醒
创建静默的方式:

  • 告警历史中的告警记录直接创建静默
  • 可通过发送给钉钉机器人消息中的静默链接静默
  • 可通过云效平台告警管理中的静默管理创建静默

silence.jpg

ddSilence.jpg

告警记录

saturn_history.png

点我进入监控对接方法

gitee代码仓库

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
告警运维中心|构建高效精准的告警协同处理体系
基于报告,ARMS 能快速的整合上下文,包括 Prometheus 监控进行监控。还有前端监控的相关数据,都会整合到报告里面,进行全方位检测来收敛相关问题。
934 0
这才是可观测告警运维平台——20个SLS告警运维场景
本文以20个SLS告警运维场景说明可观测告警运维平台的痛点需求。
1214 0
可观测告警运维系统调研——SLS告警与多款方案对比
本文介绍对比多款告警监控运维平台方案,覆盖阿里云SLS、Azure、AWS、自建系统(ELK、Prometheus、TICK)等方案。
4232 0
一站式云原生智能告警运维平台——SLS新版告警发布!
本文介绍什么是云原生可观测性需求以及告警限制,介绍一站式云原生智能告警运维平台——SLS新版告警。
7141 0
5分钟完成业务实时监控系统搭建,是一种什么样的体验?
道旅需要构建一个全面的指标监控系统,既包括系统的业务指标:如各类业务类型的请求数变化,不同供应商信息的变化,客户请求的明细大盘,各酒店请求量的排名变化,不同城市的订单转换率分析报表等;也包括系统的运行指标:如服务器请求响应时间, 带宽使用情况等。评估了市场上的监控产品之后,道旅选择了阿里云应用实时监控服务 ARMS。
2674 0
SRE技术保障平台-盯屏中心TAC: 混合云一站式告警运维平台
SRE技术保障平台-盯屏中心TAC: 混合云一站式告警运维平台
6729 0
【技术战疫】运维编排灵活审批场景解决方案
运维编排(OOS) 简介 什么是OOS Operation Orchestration Service,简称OOS,是全面、免费的云上自动化运维平台,提供运维任务的管理和执行。典型使用场景包括:事件驱动运维,批量操作运维,定时运维任务,跨地域运维等,OOS为重要运维场景提供审批,通知等功能。OOS帮您实现标准化运维任务,从而实践运维即代码(Operations as Code)的先进理念。关于
786 0
快!5分钟快速完成监控系统搭建之实践篇
快!5分钟快速完成监控系统搭建之实践篇
2045 0
+关注
bigv0616
从事运维开发工作,擅长Devops运维自动化平台开发。熟悉开发语言golang、vue等。 开源项目:https://github.com/zttheff/gops, 一站式运维自动化平台天鸿云效,产品线管理、 Kubernetes 原生 CI/CD、告警管理等。
文章
问答
文章排行榜
最热
最新
相关电子书
更多
容器化应用痛点剖析:问题诊断、监控及运维
立即下载
架构最终用户体验型智能运维
立即下载
上云时代业务压测和诊断最佳实践
立即下载