Grafana+Prometheus实现Ceph监控和钉钉告警

本文涉及的产品
可观测可视化 Grafana 版,10个用户账号 1个月
可观测监控 Prometheus 版,每月50GB免费额度
简介: Grafana+Prometheus实现Ceph监控和钉钉告警 获取软件包 最新的软件包获取地址 https://prometheus.io/download/ Prometheus 1、下载Prometheus $ wget https://github.

Grafana+Prometheus实现Ceph监控和钉钉告警

获取软件包

最新的软件包获取地址

https://prometheus.io/download/

Prometheus

1、下载Prometheus

$ wget https://github.com/prometheus/prometheus/releases/download/v2.6.0/prometheus-2.6.0.linux-amd64.tar.gz
AI 代码解读

2、解压软件包

$ tar xf prometheus-2.6.0.linux-amd64.tar.gz
AI 代码解读

3、配置Prometheus启动程序

把解压出来的文件移动到/usr/local/目录下,并重命名为prometheu

$ mv prometheus-2.6.0.linux-amd64 /usr/local/prometheus
AI 代码解读

生成启动脚本

$ vim /usr/lib/systemd/system/prometheus.service
[Unit]
Description=Prometheus: the monitoring system
Documentation=http://prometheus.io/docs/

[Service]
ExecStart=/usr/local/prometheus/prometheus \
        --config.file=/usr/local/prometheus/prometheus.yml \
        --storage.tsdb.path=/var/lib/prometheus \
        --web.console.templates=/usr/local/prometheus/consoles \
        --web.console.libraries=/usr/local/prometheus/console_libraries \
        --web.listen-address=0.0.0.0:9090 --web.external-url=
Restart=always
StartLimitInterval=0
RestartSec=10

[Install]
WantedBy=multi-user.target 
AI 代码解读

创建监控数据存储目录

$ mkdir /var/lib/prometheus
AI 代码解读

4、启动Prometheus

$ systemctl daemon-reload
$ systemctl enable prometheus
$ systemctl start prometheus
AI 代码解读

5、查看端口监听状态

Prometheus监听的端口为9090,启动成功后可以通过netstat命令进行查看端口的监听状态

$ netstat -antpu | grep 9090
tcp        0      0 127.0.0.1:33270         127.0.0.1:9090          ESTABLISHED 6426/prometheus    
tcp6       0      0 :::9090                 :::*                    LISTEN      6426/prometheus    
tcp6       0      0 ::1:9090                ::1:51821               ESTABLISHED 6426/prometheus    
tcp6       0      0 ::1:51821               ::1:9090                ESTABLISHED 6426/prometheus    
tcp6       0      0 127.0.0.1:9090          127.0.0.1:33270         ESTABLISHED 6426/prometheus
AI 代码解读

6、通过浏览器进行访问

Prometheus启动成功后,可以通过浏览器访问查看状态和配置信息

affc46f28587b4fbf22a766b47a81bc727b5c519

Ceph_export

Ceph_export 需要使用Go进行编译,也可以下载已经编译好的Ceph_exporter直接使用

链接:https://pan.baidu.com/s/1AEF_pdDvSJ5gMPapaBuBrA

提取码:jkuh

1、安装软件Go环境

$ yum -y install golang
AI 代码解读

2、查看Go环境变量

$ go env
GOARCH="amd64"
GOBIN=""
GOCACHE="/root/.cache/go-build"
GOEXE=""
GOFLAGS=""
GOHOSTARCH="amd64"
GOHOSTOS="linux"
GOOS="linux"
GOPATH="/root/go"
GOPROXY=""
GORACE=""
GOROOT="/usr/lib/golang"
GOTMPDIR=""
GOTOOLDIR="/usr/lib/golang/pkg/tool/linux_amd64"
GCCGO="gccgo"
CC="gcc"
CXX="g++"
CGO_ENABLED="1"
GOMOD=""
CGO_CFLAGS="-g -O2"
CGO_CPPFLAGS=""
CGO_CXXFLAGS="-g -O2"
CGO_FFLAGS="-g -O2"
CGO_LDFLAGS="-g -O2"
PKG_CONFIG="pkg-config"
GOGCCFLAGS="-fPIC -m64 -pthread -fmessage-length=0 -fdebug-prefix-map=/tmp/go-build359765015=/tmp/go-build -gno-record-gcc-switches"
AI 代码解读

3、设置Go环境变量

$ vim /etc/profile.d/go.sh
export GOROOT=/usr/lib/golang
export GOBIN=$GOROOT/bin
export GOPATH=/root/go
export PATH=$PATH:$GOROOT/bin:$GOPATH/bin

$ source /etc/profile.d/go.sh
AI 代码解读

4、下载并编译Ceph_exporter

$ mkdir go/src/github.com/digitalocean/
$ cd go/src/github.com/digitalocean/
$ git clone https://github.com/digitalocean/ceph_exporter
$ cd ceph_exporter
$ go build
AI 代码解读

5、创建Ceph_exporter启动程序

$ mkdir ~/go/bin/
$ cp ~/go/src/github.com/digitalocean/ceph_exporter/ceph_exporter ~/go/bin/
$ vim /usr/lib/systemd/system/ceph_exporter.service
[Unit]
Description=Prometheus's ceph metrics exporter
 
[Service]
User=root
Group=root
ExecStart=/root/go/bin/ceph_exporter
 
[Install]
WantedBy=multi-user.target
Alias=ceph_exporter.service
AI 代码解读

6、启动Ceph_exporter

$ systemctl daemon-reload
$ systemctl enable ceph_exporter
$ systemctl start ceph_exporter
AI 代码解读

7、查看端口监听状态

Ceph_exporter使用的是9128端口,可以通过netstat进行查看端口的监听状态

$ netstat -antpu | grep 9128
tcp6       0      0 :::9128                 :::*                    LISTEN      6839/ceph_exporter
AI 代码解读

8、修改Prometheus配置

Ceph_exporter的接口添加到Prometheus的配置中

$ vim /usr/local/prometheus/prometheus.yml
scrape_configs:
  - job_name: 'ceph'
    honor_labels: true
    static_configs:
    - targets: ['192.168.1.10:9128']
      labels:
        instance: Ceph测试集群
AI 代码解读

9、重启Prometheus进程

$ systemctl restart prometheus
AI 代码解读

10、浏览器访问验证

38f6e3e386cfe417f9d3b64e2ce4117d5a6c9590

Grafana

1、下载软件包

不同系统的最新软件包可以在Grafana的官网获取下载地址https://grafana.com/grafana/download

$ wget https://dl.grafana.com/oss/release/grafana-5.4.3-1.x86_64.rpm
AI 代码解读

2、安装Grafana

$ yum -y install grafana-5.4.3-1.x86_64.rpm
AI 代码解读

3、启动Grafana

$ systemctl enable grafana-server
$ systemctl start grafana-server
AI 代码解读

4、查看端口监听状态

Grafana监听端口为3000,可以使用netstat查看监听状态

$ netstat -antpu | grep 3000
tcp6       0      0 :::3000                 :::*                    LISTEN      7147/grafana-server
AI 代码解读

5、浏览器访问登录

访问地址为http://$IP:3000,初始用户名和密码均为admin,首次登录后会提示设置新的密码

9aba06e98a5298bab2cee2e7fa28504e3b77dca1

6、配置Dashboard

点击Add data source添加数据源

c53e5fa2e4099f69f1651f0ac106843219252985

选择Prometheus

6dc756809a2f36b12274ec35096c7f13d7b3a1f5

URL地址为Prometheus的访问地址http://$IP:9090

b9d8305e0b437fab2d73ee46677044e3c922ec71

导入Dashboard,模板的编号为917,如果无法连接互联网,也可以在Grafana的官网下载模板后手动导入https://grafana.com/dashboards/917

4d3e5965a304f574f89292fdc3cd3c313e18566e

5a6f0038fefb4e8f8cab51879d905b8b335dccc1

查看监控状态

740dd72cd19bcb9904943ba77c399a20f5348da3

AlertManager

1、安装Alertmanager

$ wget https://github.com/prometheus/alertmanager/releases/download/v0.16.0/alertmanager-0.16.0.linux-amd64.tar.gz
$ tar xf alertmanager-0.16.0-alpha.0.linux-amd64.tar.gz
$ cd alertmanager-0.16.0-alpha.0.linux-amd64
$ cp alertmanager amtool /usr/bin/
$ cp alertmanager.yml /usr/local/prometheus/
AI 代码解读

2、生成启动程序

$ vim /usr/lib/systemd/system/alertmanager.service
[Unit]
Description=Prometheus: the alerting system
Documentation=http://prometheus.io/docs/
After=prometheus.service

[Service]
ExecStart=/usr/bin/alertmanager --config.file=/usr/local/prometheus/alertmanager.yml
Restart=always
StartLimitInterval=0
RestartSec=10

[Install]
WantedBy=multi-user.target
AI 代码解读

3、启动Alertmanager

$ systemctl enable alertmanager
$ systemctl start alertmanager
AI 代码解读

4、查看端口监听状态

Alertmanager的监听端口为9093,可以使用netstat查看端口监听状态

$ netstat -antpu | grep 9093
tcp6       0      0 :::9093                 :::*                    LISTEN      7381/alertmanager 
AI 代码解读

5、配置Prometheus,添加Alertmanager端点

$ vim /usr/local/prometheus/prometheus.yml
alerting:
  alertmanagers:
  - static_configs:
    - targets: ["192.168.1.10:9093"]
AI 代码解读

6、重启Prometheus

$ systemctl restart prometheus
AI 代码解读

配置钉钉告警

1、配置webhook

$ mkdir -p /usr/lib/golang/src/github.com/timonwong/
$ cd /usr/lib/golang/src/github.com/timonwong/
$ git clone https://github.com/timonwong/prometheus-webhook-dingtalk.git
$ cd prometheus-webhook-dingtalk
$ make
$ nohup ./prometheus-webhook-dingtalk --ding.profile="webhook=https://oapi.dingtalk.com/robot/send?access_token=8fe12c1a58b0769d7fcbf6ebf3bcd2cfcba825f2c45b4b39055890fd705df543" &> /var/log/dingding.log &
AI 代码解读

2、添加webhook告警

$ vim /usr/local/prometheus/alertmanager.yml
global:
  resolve_timeout: 5m
 
route:
  group_by: ['alertname']
  group_wait: 10s
  group_interval: 10s
  repeat_interval: 1h
  receiver: 'web.hook'

receivers:
- name: 'web.hook'
  webhook_configs:
  - url: 'http://192.168.1.10:8060/dingtalk/webhook/send'

inhibit_rules:
  - source_match:
      severity: 'critical'
    target_match:
      severity: 'warning'
    equal: ['alertname', 'dev', 'instance']
AI 代码解读

3、添加告警规则文件

$ vim /usr/local/prometheus/prometheus.yml
rule_files:
  - /usr/local/prometheus/ceph.yml
AI 代码解读

4、配置告警规则

$ vim /usr/local/prometheus/ceph.yml
groups:
- name: ceph-rule
  rules:
  - alert: Ceph OSD Down
    expr: ceph_osd_down > 0
    for: 2m
    labels:
      product: Ceph测试集群
    annotations:
      Warn: "{{$labels.instance}}: 有{{ $value }}个OSD挂掉了"
      Description: "{{$labels.instance}}:{{ $labels.osd }}当前状态为{{ $labels.status }}"

  - alert: 集群空间使用率
    expr: ceph_cluster_used_bytes / ceph_cluster_capacity_bytes * 100 > 80
    for: 2m
    labels:
      product: Ceph测试集群
    annotations:
      Warn: "{{$labels.instance}}:集群空间不足"
      Description: "{{$labels.instance}}:当前空间使用率为{{ $value }}"
AI 代码解读

5、重启进程使配置生效

$ systemctl restart alertmanager
$ systemctl restart prometheus.service
AI 代码解读

6、钉钉验证

停掉一个OSD后,钉钉收到如下告警

b932c49513cb45222821ce4743d7ce9106752eb7

重新启动后收到恢复通知

efb7ea345a38084f3df5c1a3160e1fff53310c7f

相关实践学习
通过可观测可视化Grafana版进行数据可视化展示与分析
使用可观测可视化Grafana版进行数据可视化展示与分析。
目录
打赏
0
0
0
0
201
分享
相关文章
云原生监控实战:Prometheus+Grafana快速搭建指南
云原生监控实战:Prometheus+Grafana快速搭建指南
OSS监控体系搭建:Prometheus+Grafana实时监控流量、错误码、存储量(开源方案替代云监控自定义视图)
本方案基于Prometheus构建OSS监控系统,涵盖架构设计、指标采集、可视化、告警及性能优化,助力企业实现高可用、低成本的自建监控体系。
134 1
除了Prometheus,还有哪些工具可以监控Docker Swarm集群的资源使用情况?
除了Prometheus,还有哪些工具可以监控Docker Swarm集群的资源使用情况?
259 79
Docker 部署 Prometheus 和 Grafana 监控 Spring Boot 服务
Docker 部署 Prometheus 和 Grafana 监控 Spring Boot 服务实现步骤
云原生监控实战:Prometheus+Grafana打造RDS多维度预警体系
本方案构建了基于Prometheus与Thanos的云原生RDS监控体系,涵盖数据采集、存储、可视化与告警全流程。支持10万+QPS采集、90%存储压缩,具备<30秒告警延迟能力。通过自定义指标与智能预警策略,显著提升故障发现效率,实现分钟级响应。
110 5
Prometheus+Grafana(docker安装)
本文档详细介绍了如何使用Docker容器快速部署Prometheus监控系统和Grafana数据可视化平台。该方案适用于需要快速搭建监控环境的开发测试场景,具备部署简单、资源占用低、易于维护等特点。
Kubernetes监控:Prometheus与AlertManager结合,配置邮件告警。
完成这些步骤之后,您就拥有了一个可以用邮件通知你的Kubernetes监控解决方案了。当然,所有的这些配置都需要相互照应,还要对你的Kubernetes集群状况有深入的了解。希望这份指南能帮助你创建出适合自己场景的监控系统,让你在首次发现问题时就能做出响应。
176 22
Grafana Prometheus Altermanager 监控系统
Grafana、Prometheus 和 Alertmanager 是一套强大的开源监控系统组合。Prometheus 负责数据采集与存储,Alertmanager 处理告警通知,Grafana 提供可视化界面。本文简要介绍了这套系统的安装配置流程,包括各组件的下载、安装、服务配置及开机自启设置,并提供了访问地址和重启命令。适用于希望快速搭建高效监控平台的用户。
325 20
Prometheus+Grafana监控Linux主机
通过本文的步骤,我们成功地在 Linux 主机上使用 Prometheus 和 Grafana 进行了监控配置。具体包括安装 Prometheus 和 Node Exporter,配置 Grafana 数据源,并导入预设的仪表盘来展示监控数据。通过这种方式,可以轻松实现对 Linux 主机的系统指标监控,帮助及时发现和处理潜在问题。
591 7

推荐镜像

更多
AI助理
登录插画

登录以查看您的控制台资源

管理云资源
状态一览
快捷访问

你好,我是AI助理

可以解答问题、推荐解决方案等