Prometheus+Grafana新手友好教程:从零开始搭建轻松掌握强大的警报系统

简介: 本文介绍了使用 Prometheus 和 Grafana 实现邮件报警的方案,包括三种主要方法:1) 使用 Prometheus 的 Alertmanager 组件;2) 使用 Grafana 的内置告警通知功能;3) 使用第三方告警组件如 OneAlert。同时,详细描述了环境准备、Grafana 安装配置及预警设置的步骤,确保用户能够成功搭建并测试邮件报警功能。通过这些配置,用户可以在系统或应用出现异常时及时收到邮件通知,保障系统的稳定运行。

一、预警方案

Prometheus+Grafana 实现邮件报警的方案主要有以下几种:

方案一:使用 Prometheus 的 Alertmanager 组件

Prometheus 的 Alertmanager 组件是一个专门用于告警的组件,它可以将告警发送到多种通知渠道,包括邮件。要使用 Alertmanager 实现邮件报警,需要在 Alertmanager 的配置文件中添加邮件通知配置。以下是邮件通知配置的示例:

receivers: - name: "mail"   email_configs:   - to: "user@example.com"     from: "alertmanager@example.com"     server: "smtp.example.com"     port: 25     username: "user"     password: "password"

在 Grafana 中,可以创建告警规则,并将告警规则与 Alertmanager 的邮件通知配置关联起来。

方案二:使用 Grafana 的 Alert Notification

Grafana 的 Alert Notification 功能可以让您直接在 Grafana 中配置邮件通知。

要使用 Grafana 的 Alert Notification 实现邮件报警,需要在 Grafana 的配置文件中添加邮件通知配置。以下是邮件通知配置的示例:

alerts: - name: "CPU usage is too high"   alert_rules:   - alert_rule_id: "1"   notification_channels:   - name: "mail"     email_configs:     - to: "user@example.com"       from: "alertmanager@example.com"       server: "smtp.example.com"       port: 25       username: "user"       password: "password"

在 Grafana 中,可以创建告警规则,并将告警规则与 Grafana 的邮件通知配置关联起来。

方案三:使用第三方告警组件

除了 Prometheus 和 Grafana 自带的告警功能外,还可以使用第三方告警组件来实现邮件报警。例如,OneAlert 是一个开源的告警组件,它可以将告警发送到多种通知渠道,包括邮件。要使用 OneAlert 实现邮件报警,需要在 OneAlert 的配置文件中添加邮件通知配置。以下是邮件通知配置的示例:

alerts: - name: "CPU usage is too high"   alert_rules:   - alert_rule_id: "1"   notification_channels:   - name: "mail"     email_configs:     - to: "user@example.com"       from: "alertmanager@example.com"       server: "smtp.example.com"       port: 25       username: "user"       password: "password"

在 Grafana 中,可以创建告警规则,并将告警规则与 OneAlert 的邮件通知配置关联起来。


二、搭建预警

环境准备

以下是本文所需的环境:

  • 一台运行 Linux 的服务器(建议使用 CentOS 或 Ubuntu)
  • Docker环境
  • Prometheus
  • Node Exporter

Grafana安装

修改配置文件

vim /data/grafana/grafana.ini

复制以下内容

###SMTP / Emailing ### [smtp] enabled = true host = smtp.exmail.qq.com:465 #这里换成自己的smtp及端口 user = xx.qq.com #这里换成自己的邮箱地址 password = xx #这里换成自己的邮箱密码 ;cert_file = ;key_file = ;skip_verify = false from_address = xx.qq.com #一般与上面的邮箱地址一致 from_name = Grafana ehlo_identity =  startTLS_policy =  [emails] welcome_email_on_sign_up = true templates_pattern = emails/*.html, emails/*.txt content_types = text/html

除了注明要改的其它的都可以不变,然后启动docker

docker  run -d --name=grafana  -p 3000:3000  \ -v /data/grafana/grafana.ini:/etc/grafana/grafana.ini \ grafana/grafana

基本设置

打开grafana的控制台:http://xx.xx.xx.xx:3000/   用户名、密码:admin/admin


添加图片注释,不超过 140 字(可选)


设置数据源,如果设置过的可以跳过。


添加图片注释,不超过 140 字(可选)



添加图片注释,不超过 140 字(可选)



添加图片注释,不超过 140 字(可选)


保存就可以了,接下来我们来设置预警。


添加图片注释,不超过 140 字(可选)


Contact points(创建告警渠道)

进入后选择Contact points->New contact points


添加图片注释,不超过 140 字(可选)



添加图片注释,不超过 140 字(可选)


设置完成后可以试试邮件是否设置成功,点击Test


添加图片注释,不超过 140 字(可选)


弹出的窗体点击


添加图片注释,不超过 140 字(可选)


这样就说明邮件设置成功,如果有异常这里也会红色的提示。


添加图片注释,不超过 140 字(可选)


这是收到的测试邮件效果


添加图片注释,不超过 140 字(可选)


没问题后就保存


添加图片注释,不超过 140 字(可选)


Notification policies(创建告警通道匹配规则)


添加图片注释,不超过 140 字(可选)



添加图片注释,不超过 140 字(可选)


Alert rules(配置告警策略)


添加图片注释,不超过 140 字(可选)



添加图片注释,不超过 140 字(可选)



添加图片注释,不超过 140 字(可选)


Folder下拉没有东西,可以随便填个名称:


添加图片注释,不超过 140 字(可选)


填写时会在下拉列表出现Create:的效果


添加图片注释,不超过 140 字(可选)


在这栏

添加图片注释,不超过 140 字(可选)

的最下面会多出一条


添加图片注释,不超过 140 字(可选)


我们选择一个变量,并设置它的预警规则


添加图片注释,不超过 140 字(可选)


当最近的F值(可用内存值)高于3时就会预警。


添加图片注释,不超过 140 字(可选)


条件就是上面的G表达式不用变,下面的时间可以调整一下,每30秒进行一次规则检查,如果符合报警条件,延迟5分钟进行报警。

Add details for your alert,这里填写一个信息就可以保存。


添加图片注释,不超过 140 字(可选)


等待 30s - 1min之后,观察是否可以接收到告警  

添加图片注释,不超过 140 字(可选)


如果发现这些按钮的地址都是localhost想修改的话


添加图片注释,不超过 140 字(可选)


可以vim  grafana.ini增加

[server] protocol = http http_port = 3000 domain = 10.9.2.50

然后docker restart grafana

目录
相关文章
|
4天前
|
调度 云计算 芯片
云超算技术跃进,阿里云牵头制定我国首个云超算国家标准
近日,由阿里云联合中国电子技术标准化研究院主导制定的首个云超算国家标准已完成报批,不久后将正式批准发布。标准规定了云超算服务涉及的云计算基础资源、资源管理、运行和调度等方面的技术要求,为云超算服务产品的设计、实现、应用和选型提供指导,为云超算在HPC应用和用户的大范围采用奠定了基础。
179562 18
|
12天前
|
存储 运维 安全
云上金融量化策略回测方案与最佳实践
2024年11月29日,阿里云在上海举办金融量化策略回测Workshop,汇聚多位行业专家,围绕量化投资的最佳实践、数据隐私安全、量化策略回测方案等议题进行深入探讨。活动特别设计了动手实践环节,帮助参会者亲身体验阿里云产品功能,涵盖EHPC量化回测和Argo Workflows量化回测两大主题,旨在提升量化投研效率与安全性。
云上金融量化策略回测方案与最佳实践
|
13天前
|
人工智能 自然语言处理 前端开发
从0开始打造一款APP:前端+搭建本机服务,定制暖冬卫衣先到先得
通义灵码携手科技博主@玺哥超carry 打造全网第一个完整的、面向普通人的自然语言编程教程。完全使用 AI,再配合简单易懂的方法,只要你会打字,就能真正做出一个完整的应用。
9163 23
|
17天前
|
Cloud Native Apache 流计算
资料合集|Flink Forward Asia 2024 上海站
Apache Flink 年度技术盛会聚焦“回顾过去,展望未来”,涵盖流式湖仓、流批一体、Data+AI 等八大核心议题,近百家厂商参与,深入探讨前沿技术发展。小松鼠为大家整理了 FFA 2024 演讲 PPT ,可在线阅读和下载。
4850 12
资料合集|Flink Forward Asia 2024 上海站
|
17天前
|
自然语言处理 数据可视化 API
Qwen系列模型+GraphRAG/LightRAG/Kotaemon从0开始构建中医方剂大模型知识图谱问答
本文详细记录了作者在短时间内尝试构建中医药知识图谱的过程,涵盖了GraphRAG、LightRAG和Kotaemon三种图RAG架构的对比与应用。通过实际操作,作者不仅展示了如何利用这些工具构建知识图谱,还指出了每种工具的优势和局限性。尽管初步构建的知识图谱在数据处理、实体识别和关系抽取等方面存在不足,但为后续的优化和改进提供了宝贵的经验和方向。此外,文章强调了知识图谱构建不仅仅是技术问题,还需要深入整合领域知识和满足用户需求,体现了跨学科合作的重要性。
|
25天前
|
人工智能 自动驾驶 大数据
预告 | 阿里云邀您参加2024中国生成式AI大会上海站,马上报名
大会以“智能跃进 创造无限”为主题,设置主会场峰会、分会场研讨会及展览区,聚焦大模型、AI Infra等热点议题。阿里云智算集群产品解决方案负责人丛培岩将出席并发表《高性能智算集群设计思考与实践》主题演讲。观众报名现已开放。
|
13天前
|
人工智能 容器
三句话开发一个刮刮乐小游戏!暖ta一整个冬天!
本文介绍了如何利用千问开发一款情侣刮刮乐小游戏,通过三步简单指令实现从单个功能到整体框架,再到多端优化的过程,旨在为生活增添乐趣,促进情感交流。在线体验地址已提供,鼓励读者动手尝试,探索编程与AI结合的无限可能。
三句话开发一个刮刮乐小游戏!暖ta一整个冬天!
|
13天前
|
消息中间件 人工智能 运维
12月更文特别场——寻找用云高手,分享云&AI实践
我们寻找你,用云高手,欢迎分享你的真知灼见!
994 67