基于Prometheus和Grafana的监控平台 - 运维告警

简介: 基于Prometheus和Grafana的监控平台 - 运维告警

通过前面几篇文章我们搭建好了监控环境并且监控了服务器、数据库、应用,运维人员可以实时了解当前被监控对象的运行情况,但是他们不可能时时坐在电脑边上盯着DashBoard,这就需要一个告警功能,当服务器或应用指标异常时发送告警,通过邮件或者短信的形式告诉运维人员及时处理。

今天我们就来聊聊 基于Prometheus和Grafana的监控平台的异常告警功能,这也是Prometheus系列的最后一篇。


告警方式


Grafana

新版本的Grafana已经提供了告警配置,直接在dashboard监控panel中设置告警即可,但是我用过后发现其实并不灵活,不支持变量,而且好多下载的图表无法使用告警,所以我们不选择使用Grafana告警,而使用Alertmanager。

Alertmanager

相比于Grafana的图形化界面,Alertmanager需要依靠配置文件实现,配置稍显繁琐,但是胜在功能强大灵活。接下来我们就一步一步实现告警通知。


告警类型

Alertmanager告警主要使用以下两种:

  • 邮件接收器 email_config
  • Webhook接收器 webhook_config,会用post形式向配置的url地址发送如下格式的参数。
{
 "version": "2",
 "status": "<resolved|firing>",
 "alerts": [{
         "labels":  < object > ,
         "annotations":  < object > ,
         "startsAt": "<rfc3339>",
         "endsAt": "<rfc3339>"
         }]
 }

这次主要使用邮件的方式进行告警。

实现步骤

  • 下载
    GitHub上下载最新版本的Alertmanager,将其上传解压到服务器上。
    tar -zxvf alertmanager-0.19.0.linux-amd64.tar.gz
  • 配置Alertmanager
vi alertmanager.yml
global:
 resolve_timeout: 5m
 smtp_smarthost: 'mail.163.com:25' #邮箱发送端口
 smtp_from: 'xxx@163.com'
 smtp_auth_username: 'xxx@163.com' #邮箱账号
 smtp_auth_password: 'xxxxxx' #邮箱密码
 smtp_require_tls: false
route:
 group_by: ['alertname']
 group_wait: 10s  # 最初即第一次等待多久时间发送一组警报的通知
 group_interval: 10s # 在发送新警报前的等待时间
 repeat_interval: 1h # 发送重复警报的周期 对于email配置中,此项不可以设置过低,否则将会由于邮件发送太多频繁,被smtp服务器拒绝
 receiver: 'email'
receivers:
- name: 'email'
 email_configs:
 - to: 'xxx@xxx.com'
  • 修改完成后可以使用./amtool check-config alertmanager.yml校验文件是否正确。

  • 校验正确后使用命令启动alertmanager。nohup ./alertmanager &(第一次启动可以不使用nohup静默启动,方便后面查看日志)
    上面的配置中我们只定义了一个路由,那就意味着所有由Prometheus产生的告警在发送到Alertmanager之后都会通过名为email的receiver接收。实际上,对于不同级别的告警,会有不同的处理方式,因此在route中,我们还可以定义更多的子Route。具体配置规则大家可以去百度进一步了解。
  • 配置Prometheus
    在Prometheus安装目录下建立rules文件夹,放置所有的告警规则文件。
alerting:
  alertmanagers:
  - static_configs:
    - targets: ['192.168.249.131:9093']
 rule_files:
   - rules/*.yml
  • 在rules文件夹下建立告警规则文件service_down.yml,当服务器下线时发送邮件。
groups:
- name: ServiceStatus
 rules:
   - alert: ServiceStatusAlert
     expr: up == 0
     for: 2m
     labels:
       team: node
     annotations:
       summary: "Instance {{ $labels.instance }} has bean down"
       description: "{{ $labels.instance }} of job {{ $labels.job }} has been down for more than 2 minutes."
       value: "{{ $value }}"
  • 配置详解
    alert:告警规则的名称。
    expr:基于PromQL表达式告警触发条件,用于计算是否有时间序列满足该条件。
    for:评估等待时间,可选参数。用于表示只有当触发条件持续一段时间后才发送告警。在等待期间新产生告警的状态为PENDING,等待期后为FIRING。
    labels:自定义标签,允许用户指定要附加到告警上的一组附加标签。
    annotations:用于指定一组附加信息,比如用于描述告警详细信息的文字等,annotations的内容在告警产生时会一同作为参数发送到Alertmanager。
    配置完成后重启Prometheus,访问Prometheus查看告警配置。
  • 测试
    关闭node_exporter,过2分钟就可以收到告警邮件啦,截图如下:

  • Alertmanager的告警内容支持使用模板配置,可以使用好看的模板进行渲染,感兴趣的可以试试!

The More

node exporter的一些指标计算语句

  • CPU使用率(单位为percent)
    (avg by (instance) (irate(node_cpu_seconds_total{mode="idle"}[5m])) * 100)
  • 内存已使用(单位为bytes)
    node_memory_MemTotal_bytes - node_memory_MemFree_bytes - node_memory_Cached_bytes - node_memory_Buffers_bytes - node_memory_Slab_bytes
  • 内存使用量(单位为bytes/sec)
    node_memory_MemTotal_bytes - node_memory_MemFree_bytes - node_memory_Cached_bytes - node_memory_Buffers_bytes - node_memory_Slab_bytes
  • 内存使用率(单位为percent)
    ((node_memory_MemTotal_bytes - node_memory_MemFree_bytes - node_memory_Cached_bytes - node_memory_Buffers_bytes - node_memory_Slab_bytes)/node_memory_MemTotal_bytes) * 100
  • server1的内存使用率(单位为percent)
    ((node_memory_MemTotal_bytes{instance="server1"} - node_memory_MemAvailable_bytes{instance="server1"})/node_memory_MemTotal_bytes{instance="server1"}) * 100
  • server2的磁盘使用率(单位为percent) ((node_filesystem_size_bytes{fstype=~"xfs|ext4",instance="server2"} - node_filesystem_free_bytes{fstype=~"xfs|ext4",instance="server2"}) / node_filesystem_size_bytes{fstype=~"xfs|ext4",instance="server2"}) * 100
  • uptime时间(单位为seconds)
    time() - node_boot_time
  • server1的uptime时间(单位为seconds)
    time() - node_boot_time_seconds{instance="server1"}
  • 网络流出量(单位为bytes/sec)
    irate(node_network_transmit_bytes_total{device!~"lo|bond[0-9]|cbr[0-9]|veth.*"}[5m]) > 0
  • server1的网络流出量(单位为bytes/sec)
    irate(node_network_transmit_bytes_total{instance="server1", device!~"lo|bond[0-9]|cbr[0-9]|veth.*"}[5m]) > 0
  • 网络流入量(单位为bytes/sec)
    irate(node_network_receive_bytes_total{device!~"lo|bond[0-9]|cbr[0-9]|veth.*"}[5m]) > 0
  • server1的网络流入量(单位为bytes/sec)
    irate(node_network_receive_bytes_total{instance="server1", device!~"lo|bond[0-9]|cbr[0-9]|veth.*"}[5m]) > 0
  • 磁盘读取速度(单位为bytes/sec) irate(node_disk_read_bytes_total{device=~"sd.*"}[5m])
目录
相关文章
|
网络架构
海康大华云台摄像机使用ONVIF无法控制云台问题
海康大华云台摄像机使用ONVIF无法控制云台问题
913 1
|
缓存 算法 前端开发
协同文档工作机制简介
随着在线办公的兴起,传统办公套件 Office 的在线化需求也随之增加。钉钉文档作为钉钉核心办公套件之一,上线已经三年,其间持续迭代,已成为一个极其复杂的产品。对前端工程师而言,协同文档是一个较为有挑战的领域,除了传统天坑富文本编辑器外,还引入了协同编辑这一挑战,钉钉文档甚至还支持专业排版能力。 来自钉钉的前端技术专家本杰,就在第十六届D2前端技术论坛进行了分享,本次分享以钉钉文档为例,简述协同文档的工作机制。
1167 0
协同文档工作机制简介
|
存储 运维 安全
Spring运维之boot项目多环境(yaml 多文件 proerties)及分组管理与开发控制
通过以上措施,可以保证Spring Boot项目的配置管理在专业水准上,并且易于维护和管理,符合搜索引擎收录标准。
1275 2
|
存储 安全 Java
解密SimpleDateFormat类的线程安全问题和六种解决方案!
提起SimpleDateFormat类,想必做过Java开发的童鞋都不会感到陌生。没错,它就是Java中提供的日期时间的转化类。这里,为什么说SimpleDateFormat类有线程安全问题呢?有些小伙伴可能会提出疑问:我们生产环境上一直在使用SimpleDateFormat类来解析和格式化日期和时间类型的数据,一直都没有问题啊!接下来,我们就一起看下在高并发下SimpleDateFormat类为何会出现安全问题,以及如何解决SimpleDateFormat类的安全问题。
2247 1
解密SimpleDateFormat类的线程安全问题和六种解决方案!
|
监控 前端开发 网络协议
HTTP - 长连接 & 短连接 & 长轮询 & 短轮询 & 心跳机制
HTTP - 长连接 & 短连接 & 长轮询 & 短轮询 & 心跳机制
3845 0
HTTP - 长连接 & 短连接 & 长轮询 & 短轮询 & 心跳机制
|
Linux Docker 容器
最全树莓派4B安装docker-compose(64位Linux)(1),2024年最新一文说清
最全树莓派4B安装docker-compose(64位Linux)(1),2024年最新一文说清
|
前端开发 定位技术 数据库
从零开始实现放置游戏(六)——实现后台管理系统(4)Excel批量导入
前面我们已经实现了在后台管理系统中,对配置数据的增删查改。但每次添加只能添加一条数据,实际生产中,大量数据通过手工一条一条添加不太现实。本章我们就实现通过Excel导入配置数据的功能。这里我们还是以地图数据为例,其他配置项可参照此例。
从零开始实现放置游戏(六)——实现后台管理系统(4)Excel批量导入
LeetCode每日一题(17)—— 乘积小于 K 的子数组(双指针)
乘积小于 K 的子数组 1.题目 2.示例 3.思路 4.代码
247 0
|
5天前
|
缓存 测试技术 API
Qwen 3.7 Plus 与 Max 实测:性价比与多模态能力差异解析(2026)
2026 年 6 月 1 日,阿里悄无声息地发布了 Qwen 3.7 Plus,距 Qwen 3.7 Max 上线刚好 11 天。同样的 1M 上下文,同样的 35 小时自治上限。但价格才是头条:Plus 是 0.40/M输入,Max是 2.50/M——便宜约 6 倍——并且还能看图、看视频。Vision Arena 上 Plus 已经排到 #16。所以这周真正值得讨论的问题不是”要不要为视觉能力买单”,而是”Max 凭什么用 6 倍价格换来 2 个百分点的 benchmark 领先”。