prometheus监控ceph集群环境

本文涉及的产品
可观测监控 Prometheus 版,每月50GB免费额度
简介: 文章介绍了如何使用Prometheus监控Ceph集群环境,包括启用Prometheus模块、验证模块启用成功、访问Ceph的exporter、修改Prometheus配置文件、热加载配置,以及Grafana采集数据的方法。同时,还涵盖了监控Ceph集群宿主机的步骤,如在所有节点安装node-exporter、修改Prometheus配置文件、热加载配置,以及Grafana采集数据。

一.prometheus监控ceph集群环境

1.启用prometheus模块

[root@ceph141 ~]# ceph mgr module enable prometheus


Prometheus模块也是mgr组件的模块之一,用于Prometheus监控Ceph集群提供遍历。

参考链接:
    https://docs.ceph.com/en/nautilus/mgr/dashboard/#enabling-the-embedding-of-grafana-dashboards

2.验证模块是否启用成功

[root@ceph141 ~]# ceph mgr module ls | jq .enabled_modules
[
  "dashboard",
  "iostat",
  "prometheus",
  "restful"
]
[root@ceph141 ~]#

3.查看服务的访问地址

[root@ceph141 ~]# ceph mgr services
{
    "dashboard": "https://ceph141:8443/",
    "prometheus": "http://ceph141:9283/"
}
[root@ceph141 ~]# 
[root@ceph141 ~]# 
[root@ceph141 ~]# ss -ntl | grep 9283
LISTEN     0      5         [::]:9283                  [::]:*                  
[root@ceph141 ~]#

4.访问ceph的exporter

http://ceph141:9283/metrics

5.修改prometheus的配置文件

[root@prometheus-server31 ~]# vim /yinzhengjie/softwares/prometheus/prometheus.yml 
...
global:
  scrape_interval: 5s

scrape_configs:
  ...
  - job_name: "yinzhengjie_ceph_custom_metrics"
    static_configs:
    - targets:
      - 10.0.0.142:9283
[root@prometheus-server31 ~]

6.热加载配置

[root@prometheus-server31 ~]# curl -X POST http://10.0.0.31:9090/-/reload

7.grafana去prometheus采集数据

2842: 
    ceph集群模板

5336: 
    OSD模板

5342:
    存储池模板

二.监控ceph集群宿主机

1.ceph所有节点安装node-exporter

[root@ceph141 ~]# cat install-node-exporter.sh 
#!/bin/bash
# auther: JasonYin


VERSION=1.7.0
SOFTWARE=node_exporter-${VERSION}.linux-amd64.tar.gz
URL=https://github.com/prometheus/node_exporter/releases/download/v${VERSION}/${SOFTWARE}
DOWNLOAD=./download
INSTALLDIR=/yinzhengjie/softwares
BASEDIR=${INSTALLDIR}/node_exporter-${VERSION}.linux-amd64

# 判断目录是否存在,若不存在则创建
[ -d $INSTALLDIR ] || mkdir -pv ${INSTALLDIR}
[ -d $DOWNLOAD ] || mkdir -pv ${DOWNLOAD}

# 判断系统是否安装curl
# [ -f /usr/bin/wget ] || apt update && apt -y install wget

# 判断文件是否存在,若不存在则下载
[ -s ${DOWNLOAD}/${SOFTWARE} ] || wget $URL -O ${DOWNLOAD}/${SOFTWARE}

if [ $? -eq 0 ]; then
  # 解压文件软件包
  tar xf ${DOWNLOAD}/${SOFTWARE} -C ${INSTALLDIR}

  # 生成启动脚本
cat > /etc/systemd/system/node-exporter.service <<EOF
[Unit]
Description=yinzhengjie Linux Node Exporter
Documentation=https://prometheus.io/docs/introduction/overview/
After=network.target

[Service]
ExecStart=${BASEDIR}/node_exporter --web.listen-address=:9100

[Install]
WantedBy=multi-user.target
EOF

  # 将服务设置为开机自启动
  systemctl daemon-reload
  systemctl enable --now node-exporter.service
fi
[root@ceph141 ~]#
[root@ceph141 ~]# bash install-node-exporter.sh 
Created symlink from /etc/systemd/system/multi-user.target.wants/node-exporter.service to /etc/systemd/system/node-exporter.service.
[root@ceph141 ~]#

2.修改prometheus的配置文件

[root@prometheus-server31 ~]# vim /yinzhengjie/softwares/prometheus/prometheus.yml 
...
global:
  scrape_interval: 5s

scrape_configs:
  ...
  - job_name: "yinzhengjieceph-node-exporter"
    honor_labels: true
    static_configs:
    - targets:
      - 10.0.0.141:9100
      - 10.0.0.142:9100
      - 10.0.0.143:9100

3.热加载配置

[root@prometheus-server31 ~]# curl -X POST http://10.0.0.31:9090/-/reload

4.grafana去prometheus采集数据

1860
相关实践学习
容器服务Serverless版ACK Serverless 快速入门:在线魔方应用部署和监控
通过本实验,您将了解到容器服务Serverless版ACK Serverless 的基本产品能力,即可以实现快速部署一个在线魔方应用,并借助阿里云容器服务成熟的产品生态,实现在线应用的企业级监控,提升应用稳定性。
目录
相关文章
|
3月前
|
Prometheus 监控 Cloud Native
【监控】prometheus传统环境监控告警常用配置
【监控】prometheus传统环境监控告警常用配置
【监控】prometheus传统环境监控告警常用配置
|
7天前
|
Prometheus 监控 Cloud Native
在 HBase 集群中,Prometheus 通常监控哪些类型的性能指标?
在 HBase 集群中,Prometheus 监控关注的核心指标包括 Master 和 RegionServer 的进程存在性、RPC 请求数、JVM 内存使用率、磁盘和网络错误、延迟和吞吐量、资源利用率及 JVM 使用信息。通过 Grafana 可视化和告警规则,帮助管理员实时监控集群性能和健康状况。
|
2月前
|
Prometheus Kubernetes 监控
prometheus学习笔记之集群内服务发现环境准备
本文介绍了在Kubernetes集群中部署Prometheus监控系统的详细步骤。首先创建用于监控的命名空间,并配置Docker以顺利下载镜像。接着,通过DaemonSet方式在集群中部署Node Exporter,确保每个节点上的指标都能被收集。然后,安装并配置NFS存储类别,以便为Prometheus提供持久化存储。最后,详细展示了如何在Kubernetes中部署Prometheus服务器,包括创建相关的配置文件、部署服务、设置角色权限以及暴露服务等
|
2月前
|
Prometheus 监控 Cloud Native
Ceph Reef(18.2.X)的内置Prometheus监控集群
这篇文章是关于Ceph Reef(18.2.X)版本中内置Prometheus监控集群的使用方法,包括如何查看集群架构、访问Prometheus、Grafana、Node-Exporter和Alertmanager的Web界面,以及推荐阅读的自实现Prometheus监控资源链接。
68 2
|
3月前
|
Prometheus 监控 Cloud Native
在 HBase 集群中,Prometheus 通常监控哪些类型的性能指标?
在 HBase 集群中,Prometheus 通常监控哪些类型的性能指标?
120 2
|
3月前
|
Prometheus 监控 Cloud Native
在 HBase 集群中,Prometheus 通常监控哪些类型的性能指标?
在 HBase 集群中,Prometheus 通常监控哪些类型的性能指标?
|
6月前
|
SQL 运维 监控
关系型数据库性能监控工具
【5月更文挑战第21天】
117 2
|
3月前
|
监控 Java 开发者
揭秘Struts 2性能监控:选对工具与方法,让你的应用跑得更快,赢在起跑线上!
【8月更文挑战第31天】在企业级应用开发中,性能监控对系统的稳定运行至关重要。针对流行的Java EE框架Struts 2,本文探讨了性能监控的工具与方法,包括商用的JProfiler、免费的VisualVM以及Struts 2自带的性能监控插件。通过示例代码展示了如何在实际项目中实施这些监控手段,帮助开发者发现和解决性能瓶颈,确保应用在高并发、高负载环境下稳定运行。选择合适的监控工具需综合考虑项目需求、成本、易用性和可扩展性等因素。
43 0
|
3月前
|
Java 开发者 前端开发
Struts 2、Spring MVC、Play Framework 上演巅峰之战,Web 开发的未来何去何从?
【8月更文挑战第31天】在Web应用开发中,Struts 2框架因强大功能和灵活配置备受青睐,但开发者常遇配置错误、类型转换失败、标签属性设置不当及异常处理等问题。本文通过实例解析常见难题与解决方案,如配置文件中遗漏`result`元素致页面跳转失败、日期格式不匹配需自定义转换器、`&lt;s:checkbox&gt;`标签缺少`label`属性致显示不全及Action中未捕获异常影响用户体验等,助您有效应对挑战。
88 0
|
3月前
|
SQL 监控 关系型数据库
SQL性能监控与调优工具的神奇之处:如何用最佳实践选择最适合你的那一个,让你的数据库飞起来?
【8月更文挑战第31天】在现代软件开发中,数据库性能监控与调优对应用稳定性至关重要。本文对比了数据库内置工具、第三方工具及云服务工具等几种常用SQL性能监控与调优工具,并通过示例代码展示了如何利用MySQL的EXPLAIN功能分析查询性能。选择最适合的工具需综合考虑功能需求、数据库类型及成本预算等因素。遵循了解工具功能、试用工具及定期维护工具等最佳实践,可帮助开发者更高效地管理和优化数据库性能,迎接未来软件开发中的挑战与机遇。
54 0