运维自动化之监控告警平台

简介: Saturn平台可以解决多种监控平台产生的报警统一管控,类似监控中间件的功能,监控平台产生的告警发送给saturn, 通过saturn统一查询分析报警、控制报警风暴、自定义报警发送渠道(钉钉、电话告警),saturn还支持对收集到ES、云厂商日志服务中的业务日志检索并报警, saturn内置了中通天鸿呼叫中心免费1000条语音告警功能。

简介

Saturn平台可以解决多种监控平台产生的报警统一管控,类似监控中间件的功能,监控平台产生的告警发送给saturn, 通过saturn统一查询分析报警、控制报警风暴、自定义报警发送渠道(钉钉、电话告警),saturn还支持对收集到ES、云厂商日志服务中的业务日志检索并报警, saturn内置了中通天鸿呼叫中心免费1000条语音告警功能。
saturn.png

监控大屏

saturn-dashboard.jpg

监控策略

监控策略对产生的告警执行策略参数配置的动作,例如自建业务日志收集到ES中,我们通过配置检索策略及满足执行告警条件后,即会执行策略对应的告警动作。

strategy01.jpg

创建策略

策略分为基础监控和日志监控两种类型:

  • 告警维度:支持主机、产品线、标题、等级等维度对产生的告警匹配策略,匹配到的告警按照对应策略参数执行告警动作。
  • 重复周期与告警次数属于一对配置参数,即策略在周期时间内执行满足配置的告警次数后触发告警动作。
  • 自动恢复: 正常基础告警会发送告警和恢复告警,自动恢复代表不会收到恢复告警,收到告警后会发送一次告警后状态自动变为恢复状态。适用于日志关键告警和自定义类告警即实时告警。
  • 维护时间:是在该时间范围内产生的告警只做记录,不发告警
  • 支持多种渠道告警,钉钉、飞书、电话告警,电话告警采用中通天鸿通信有限公司呼叫中心语音消息,默认每个用户都有1000条的语音消息告警,电话告警可以有效保证告警处理及时性、保证生产业务的稳定性。

以日志监控为例创建策略,每条策略会管理对应的产品线,会自动检索es中对应命名空间和容器名称下的日志内容。同时产生告警后会自动关联产品线的负责人,并按照配置的通知渠道发送告警。具体产品线相关功能请移步到产品线管理Github了解。

es01.png

strategy_create.jpg

监控静默

对于发生暂时未恢复的告警配置静默一段时间,不发送告警提醒
创建静默的方式:

  • 告警历史中的告警记录直接创建静默
  • 可通过发送给钉钉机器人消息中的静默链接静默
  • 可通过云效平台告警管理中的静默管理创建静默

silence.jpg

ddSilence.jpg

告警记录

saturn_history.png

点我进入监控对接方法

gitee代码仓库

相关实践学习
通过日志服务实现云资源OSS的安全审计
本实验介绍如何通过日志服务实现云资源OSS的安全审计。
目录
相关文章
|
4月前
|
机器学习/深度学习 人工智能 运维
运维告警别乱飞了!AI智能报警案例解析
运维告警别乱飞了!AI智能报警案例解析
583 0
|
3月前
|
API 调度 虚拟化
VMware Cloud Foundation Automation 9.0.1.0 发布 - 私有云自动化平台
VMware Cloud Foundation Automation 9.0.1.0 发布 - 私有云自动化平台
216 3
VMware Cloud Foundation Automation 9.0.1.0 发布 - 私有云自动化平台
|
4月前
|
运维 监控 自动驾驶
低代码运维平台:是“运维福音”,还是“甩手掌柜”?
低代码运维平台:是“运维福音”,还是“甩手掌柜”?
158 29
|
9月前
|
运维 监控 数据可视化
从告警到巡检,YashanDB Cloud Manager 帮我省下一半运维时间
数据库运维常依赖人工操作,易引发业务问题。YashanDB Cloud Manager(YCM)改变这一现状:可视化实例管理、全栈资源监控、智能巡检、灵活告警、高可用保障、权限审计体系,助企业降低故障影响、提升DBA效率、强化安全合规、标准化运维流程。若你被数据库运维困扰,可尝试此国产平台。
|
9月前
|
安全 Linux 虚拟化
Palo Alto Cortex XSOAR 8.8 for ESXi - 安全编排、自动化和响应 (SOAR) 平台
Palo Alto Cortex XSOAR 8.8 for ESXi - 安全编排、自动化和响应 (SOAR) 平台
260 0
Palo Alto Cortex XSOAR 8.8 for ESXi - 安全编排、自动化和响应 (SOAR) 平台
|
4月前
|
机器学习/深度学习 数据采集 运维
运维告警不是“撞大运”:聊聊数据驱动的异常检测模型
运维告警不是“撞大运”:聊聊数据驱动的异常检测模型
211 3
|
4月前
|
机器学习/深度学习 运维 数据挖掘
运维告警不是“玄学”:聊聊怎么用机器学习优化事件关联分析
运维告警不是“玄学”:聊聊怎么用机器学习优化事件关联分析
232 3
|
7月前
|
人工智能 搜索推荐 测试技术
通义灵码 Agent+MCP:打造自动化菜品推荐平台,从需求到部署实现全流程创新
通过通义灵码编程智能体模式和 MCP 的集成,开发者可以高效构建在线菜品推荐网站。智能体模式大幅提升了开发效率,MCP 服务则为功能扩展提供了无限可能。
|
Prometheus 运维 监控
智能运维实战:Prometheus与Grafana的监控与告警体系
【10月更文挑战第26天】Prometheus与Grafana是智能运维中的强大组合,前者是开源的系统监控和警报工具,后者是数据可视化平台。Prometheus具备时间序列数据库、多维数据模型、PromQL查询语言等特性,而Grafana支持多数据源、丰富的可视化选项和告警功能。两者结合可实现实时监控、灵活告警和高度定制化的仪表板,广泛应用于服务器、应用和数据库的监控。
1376 3
|
8月前
|
JavaScript 搜索推荐 前端开发
通义灵码2.5智能体模式联合MCP:打造自动化菜品推荐平台,实现从需求到部署的全流程创新
本项目利用通义灵码2.5的智能体模式与MCP服务,构建在线点餐推荐网站。基于Qwen3模型,实现从需求到代码生成的全流程自动化,集成“今天吃什么”和EdgeOne MCP服务,提供个性化推荐、偏好管理等功能。技术架构采用React/Vue.js前端与Node.js后端,结合MCP工具链简化开发。项目涵盖功能测试、部署及未来扩展方向,如餐厅推荐、语音交互等,展示高效开发与灵活扩展能力。

热门文章

最新文章