Prometheus 告警管理--企业级Alert Manager

本文涉及的产品
对象存储 OSS,20GB 3个月
日志服务 SLS,月写入数据量 50GB 1个月
阿里云盘企业版 CDE,企业版用户数5人 500GB空间
简介: Prometheus作为监控告警的事实标准,提供了标准的指标采集、数据查询以及告警管理开源方案。但是同时在短信、语音、微信等告警通知渠道,告警管理的便捷方面都有缺陷。阿里云日志服务SLS致力于为用户提供统一的可观测性平台,为用户提供了企业级的AlertManager服务,解决客户在告警管理工作中遇到的问题。

SLS告警管理

Prometheus作为监控告警的事实标准,配合AlertManager服务,提供了标准的指标采集、数据查询以及告警管理开源方案。但是在实际使用过程中还存在着或多或少的不足,例如通知数据存储扩展性差,渠道过少,规则配置过程繁琐。阿里云日志服务推出的一站式告警解决方案,解决了客户在。下图中的功能对比给出了SLS告警和AlertManager+Prometheus生态的功能对比,可以看出SLS告警提供了企业级的服务,能够极大的方便用户的工作。

SLS开放告警

SLS告警提供的开放告警功能,能够很方便的将三方系统的告警消息接入到SLS告警中心,而且不需要对现有系统做任何改造。Prometheus既可以直接接入到SLS告警,也可以通过AlertManager服务接入到SLS告警。

image.png

告警管理

通知(行动)管理

(AlertManagement)

(ActionManagement)

开放告警

分派升级用户组节假日

AlertHub)

路由抑制去重静默

iS

了小的

值班组轮岗代班WebHk

事务管理处理人

合并

认证过滤额度映射

AlertManager

PrometheusAlert

N?

F

链路中心规则中心存储

语音钉钉短信邮件

下面介绍将Prometheus直接接入到SLS告警的详细流程,包括SLS告警配置和Prometheus配置两部分。

SLS告警配置

1. 创建行动策略

行动策略将决定了SLS在接收Prometheus告警消息后,以何种方式及何种渠道通知您。为此,您需要首先打开告警中心,点击告警管理,在下拉菜单中选择行动策略然后点击页面左上角的添加按钮,在弹出的对话框中配置新的行动策略,然后点击确认。目前,系统支持语音,短信,邮箱,钉钉和企业微信等通知渠道,有关行动策略的具体配置方法,可参阅官方文档创建行动策略

                           

2. 创建开放告警服务

首先打开告警中心,点击告警管理,在下拉菜单中选择开放告警点击页面左上角的创建按钮,在弹出的对话框中配置新的开放告警服务,包括服务ID和服务名称,然后点击保存

                                                                     

3. 创建开放告警应用

选择上一步骤中创建的服务,在操作栏中点击该服务的应用按钮,在弹出的对话框中点击创建,添加新的应用,点击保存。这里的协议请选择Prometheus,行动策略选择在第一步中配置的策略,其余选项可选择默认值。

image.png

修改应用

ID:

9/55

demo-test

promthues

测试promethus

名称:

11/20

信息加工

额度

请求过滤

协议认证

协议:

Prometheus

告警策略:

极简模式

高级模式

普通模式

?O

行动策略:

豁朗测试行动策略(audit.huolang-test)

新增

查看

重复等待:?

5

分钟

密钥ID白名单:

开启额外白名单

保存

取消

4. 获取开放告警应用接口

现在,您在第二步创建的开放告警服务中已经存在一个新的告警应用了。点击该应用操作栏的接口按钮,获取接口信息:

接口地址由两部分构成:

  • 域名部分:SLS的接入地址,和地域相关,每个地域都有各自不同的接入地址;
  • 子路径部分:包括用于发送消息的Access Key Id和开放告警应用Id。需要注意的是,用户需要将子路径部分中的{ACCESS_KEY_ID}替换为具体阿里云RAM账户的Access Key Id,并且将权限策略AliyunLogOpenEventWrite赋予该账户。

Alert Manager接入配置

在Alert Manager配置文件中,您首先需要创建一个告警消息的接收者。为此,您需要在receivers配置项下添加一个Webhook接收者,在url字段中填写上一步骤中获取的接口地址。然后,您需要在route配置项下添加前面创建的接收者。典型的配置文件如下图所示:

route:
  receiver: '{RECIEVER_NAME}'
  ...
...
receivers:
- name: '{RECIEVER_NAME}'
  webhook_configs:
  - url: 'http://{ALIYUN_SLS_ENDPOINT}/event/webhook/RAMAK_{ACCESS_KEY_ID}/{WEBHOOK_APP_ID}'
- name: ...

其中{RECIVER_NAME}为用户为接收者自定义的名称。

效果展示

告警消息查看

在告警中心的事务视图界面,可以查看接收到的告警消息列表,以及该告警消息的详情。

告警接入概览

开放告警大盘,可以查看告警消息过滤、发送情况。

image.png

告警通知概览

告警大盘展示了所有告警消息的概览视图,可以查看通过不同通知渠道发送的消息量。

进一步参考

相关实践学习
通过云拨测对指定服务器进行Ping/DNS监测
本实验将通过云拨测对指定服务器进行Ping/DNS监测,评估网站服务质量和用户体验。
相关文章
|
7月前
|
Prometheus Cloud Native 机器人
Prometheus告警简介
Prometheus告警简介
|
Prometheus 监控 Cloud Native
基于k8s+Prometheus+Alertmanager+Grafana构建企业级监控告警系统(下)
基于k8s+Prometheus+Alertmanager+Grafana构建企业级监控告警系统
|
1月前
|
Prometheus 运维 监控
智能运维实战:Prometheus与Grafana的监控与告警体系
【10月更文挑战第26天】Prometheus与Grafana是智能运维中的强大组合,前者是开源的系统监控和警报工具,后者是数据可视化平台。Prometheus具备时间序列数据库、多维数据模型、PromQL查询语言等特性,而Grafana支持多数据源、丰富的可视化选项和告警功能。两者结合可实现实时监控、灵活告警和高度定制化的仪表板,广泛应用于服务器、应用和数据库的监控。
239 3
|
1月前
|
数据采集 Prometheus 监控
Prometheus的告警规则
Prometheus的告警规则
84 11
|
1月前
|
Prometheus Cloud Native
Prometheus的告警处理
【10月更文挑战第31天】Prometheus的告警处理
35 3
|
1月前
|
Prometheus Kubernetes Cloud Native
Prometheus的告警配置
【10月更文挑战第31天】Prometheus的告警配置
47 1
|
1月前
|
Prometheus 运维 监控
智能运维实战:Prometheus与Grafana的监控与告警体系
【10月更文挑战第27天】在智能运维中,Prometheus和Grafana的组合已成为监控和告警体系的事实标准。Prometheus负责数据收集和存储,支持灵活的查询语言PromQL;Grafana提供数据的可视化展示和告警功能。本文介绍如何配置Prometheus监控目标、Grafana数据源及告警规则,帮助运维团队实时监控系统状态,确保稳定性和可靠性。
205 0
|
4月前
|
存储 Prometheus Cloud Native
[prometheus]配置alertmanager和钉钉告警
[prometheus]配置alertmanager和钉钉告警
219 0
|
7月前
|
存储 Prometheus 运维
All in One:Prometheus 多实例数据统一管理最佳实践
当管理多个Prometheus实例时,阿里云Prometheus托管版相比社区版提供了更可靠的数据采集和便捷的管理。本文比较了全局聚合实例与数据投递方案,两者在不同场景下各有优劣。
62833 23
|
7月前
|
Prometheus 监控 Cloud Native
使用 Prometheus 配置 SLO 监控和告警
使用 Prometheus 配置 SLO 监控和告警