使用Prometheus+grafana打造高逼格监控平台

本文涉及的产品
可观测监控 Prometheus 版,每月50GB免费额度
可观测可视化 Grafana 版,10个用户账号 1个月
简介:

前言:

笔者看来, 监控不应该只是监控,除了及时有效的报警,更应该”好看”,因为视觉上的感受更能给我们直观的感受,更能从绚丽的走势中发现异常, 如果你觉得监控就应该像老牌监控nagios,cacti一样,我想也没什么不对的,因为也许那是你们最适合的,但,你还是可以瞧瞧这个监控能给你带来什么。


文章目录:

效果图

Prometheus架构

安装

配置

可视化

可视化自定义

报警

其他exporter

自定义exporter



效果图

为了你能有更多的动力看下去,这里放一部分通过Prometheus + grafana打造出来的监控平台,效果图如下。






如果你觉得不错可以继续看下去,上面主要是kvm宿主机, ceph集群, 物理机监控,以及ping, 最后一张的监控图没有展开是为了让你可以瞥一眼所能监控的指标条目。



Prometheus架构图


参考:https://prometheus.io/docs/introduction/overview/

如果你对Prometheus没有接触过,也许会看不懂上面说什么,但是没关系,如果你看完之后,在回过头来瞧瞧,也许就了解这个架构了,也会对Prometheus有一个更深的认识。
这里简单说一下Prometheus的各个部分。
Prometheus Server: Prometheus服务端,由于存储及收集数据,提供相关api对外查询用。
Exporter: 类似传统意义上的被监控端的agent,有区别的是,它不会主动推送监控数据到server端,而是等待server端定时来手机数据,即所谓的主动监控。
Pushagateway: 用于网络不可直达而居于exporter与server端的中转站。
Alertmanager: 报警组件,将报警的功能单独剥离出来放在alertmanager。
Web UI: Prometheus的web接口,可用于简单可视化,及语句执行或者服务状态监控。



安装

由于Prometheus是go语言写的,所以不需要编译,安装的过程非常简单,仅需要解压然后运行。
Prometheus官方下载地址:https://prometheus.io/download/

注:为了演示方便,这里node_exporter, Prometheus server, grafana都安装再同一台机器,系统环境Ubuntu14.04



安装Prometheus server

解压

1
tar  xf prometheus-2.0.0-rc.2.linux-amd64. tar .gz



运行

1
2
cd  prometheus-2.0.0-rc.2.linux-amd64
. /prometheus   --config. file =prometheus.yml


然后我们可以访问 http://<服务器IP地址>:9090,验证Prometheus是否已安装成功,web显示应该如下


通过点击下拉栏选取指标,点击”Excute” 我们能够看到Prometheus的性能指标。


点击”status”可以查看相关状态。

但是光安装Prometheus server意义不大,下面我们再安装node_exporter以及grafana


node_exporter安装

解压

1
tar  xf node_exporter-0.15.0.linux-amd64. tar .gz


运行

cd node_exporter-0.15.0.linux-amd64
./node_exporter


验证node_exporter是否安装成功

1
curl 127.0.0.1:9100



1
curl 127.0.0.1:9100 /metrics

返回一大堆性能指标。



grafana安装

下载deb安装

wget https://s3-us-west-2.amazonaws.com/grafana-releases/release/grafana_4.5.2_amd64.deb
dpkg -i grafana_4.5.2_amd64.deb


安装依赖

1
sudo  apt-get  install  -y adduser libfontconfig


启动grafana

1
sudo  service grafana-server start


加入自启动

1
sudo  update-rc.d grafana-server defaults

注:其他系统安装参考:http://docs.grafana.org/installation/


启动grafana并查看状态

systemctl daemon-reload
systemctl start grafana-serversystemctl status grafana-server


访问grafana, http://<服务器IP>:3000
默认用户名密码:admin/admin


为grafana添加Prometheus数据源

至此所有安装已完成
但是还存在以下问题
一:Prometheus server并没有配置被监控端的IP地址,即没有取指定的机器取数据
二:启动的方式太不人性化了,没有启动脚本。
三:grafana没有可用的dashboard用于展示
这些问题我们放在下面的配置,可视化段落处理。



配置

关闭之前之间运行的node_exporter及prometheus

增加一个被监控端配置项

创建目录/etc/prometheus/

1
mkdir  /etc/prometheus/


创建配置文件

1
vi  /etc/prometheus/prometheus .yml


修改如下(在有配置文件基础上增加红色区域)

# my global configglobal:
  scrape_interval:     15s # Set the scrape interval to every 15 seconds. Default is every 1 minute.
  evaluation_interval: 15s # Evaluate rules every 15 seconds. The default is every 1 minute.
  # scrape_timeout is set to the global default (10s).

  # Attach these labels to any time series or alerts when communicating with
  # external systems (federation, remote storage, Alertmanager).
  external_labels:
      monitor: 'codelab-monitor'# Load rules once and periodically evaluate them according to the global 'evaluation_interval'.rule_files:  # - "first.rules"
  # - "second.rules"# A scrape configuration containing exactly one endpoint to scrape:# Here it's Prometheus itself.scrape_configs:  # The job name is added as a label `job=<job_name>` to any timeseries scraped from this config.
  - job_name: 'prometheus'

    # metrics_path defaults to '/metrics'
    # scheme defaults to 'http'.

    static_configs:
      - targets: ['localhost:9090']

注意:缩进是必须的



添加启动脚本
下载地址:https://github.com/youerning/blog/tree/master/prometheus

cp node-exporter.service /etc/init.d/node-exporter
cp prometheus.service /etc/init.d/prometheuschmod +x /etc/init.d/node-exporterchmod +x /etc/init.d/prometheus


将上面的可执行二进制文件移到/usr/local/bin

cp prometheus-2.0.0-rc.2.linux-amd64/prometheus /usr/local/bin/prometheus
mv node_exporter-0.15.0.linux-amd64/node_exporter /usr/local/bin/node_exporter


然后启动Prometheus,node-exporter
创建工作目录(Prometheus的数据会存在这,启动脚本里面我写的是/data)

mkdir /data
service prometheus startservice node-exporter start


在Prometheus的web页面能看到被监控端

image.png


然后grafana导入dashboard
下载地址:https://grafana.com/dashboards/1860

:https://grafana.com/dashboards还有很多的dashboard可以下载


按照以下步骤导入

image.png

点击import以后grafana就会多一个dashboard

至此一个系统层面性能指标监控已经全部完成。



可视化自定义
由于grafana的界面配置都是页面点击,需要截图标注,如果截太多图就文章太冗长了,这里就不进一步说明了,相关配置参考
http://docs.grafana.org/features/panels/
通过上面的安装配置发现,其实整个监控的流程还缺少了报警的环节,如果不能及时通报异常情况再好看也白搭。



报警

解压

1
tar  xf alertmanager-0.11.0.linux-amd64. tar .gz


规则配置

1
cat  /etc/prometheus/alert .rules


groups:

  • name: uptime
    rules:

    Alert for any instance that is unreachable for >1 minutes.

  • - alert: InstanceDown
    expr: up == 0
    for: 1m
    labels:
    severity: page
    annotations:
    summary: "Instance {{ $labels.instance }} down"
    description: "{{ $labels.instance }} of job {{ $labels.job }} has been down for more than 5 minutes."


prometheus.yml增加以下内容

  • 1
    <br data-filtered= "filtered" >
1
2
3
4
5
6
7
8
9
rule_files:
    "/etc/prometheus/alert.rules"
  
alerting:
   alertmanagers:
   - scheme: http
     static_configs:
     - targets:
       "localhost:9093"

详细配置参考: https://github.com/youerning/blog/blob/master/prometheus/prometheus-alertmanager.yml


启动alertmanager

1
. /alertmanager  --config. file = /etc/prometheus/alertmanager .yml


查看监控状态

image.png

image.png

不过Prometheus的报警操作真的很扯淡。
支持的接受操作如下

<email_config>

<hipchat_config>

<pagerduty_config>

<pushover_config>

<slack_config>

<opsgenie_config>

<victorops_config>

<webhook_config>

而email报警有个扯淡的地方就是如果邮件服务器必须tls认证且ssl是自签名的话就会starttls failed: x509: certificate signed by unknown authority
而且没有一个in_secure:true的选项。


所以需要邮件报警的话有两种方法,
一:再报警服务器里面植入自己的证书,
参考:http://blog.amigapallo.org/2016/04/14/alertmanager-docker-container-self-signed-smtp-server-certificate/
二:允许smtp不使用tls

其实上面两种方法都不太优雅,观法推荐的是使用web_hook
但是又得保证web_hook的服务是运行的,这就很扯淡了,不过,如果是全部跑在docker管理平台,如k8s,倒是不错的。



下面是一个简单的实现。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
from  __future__  import  print_function
import  falcon
from  wsgiref  import  simple_server
from  email.mime.text  import  MIMEText
import  smtplib
import  json
smtpServer  =  "mx.example.com"
smtpUser  =  "sender@example.com"
smtpPass  =  "password"
sender  =  "sender@example.com"
reciver  =  "reciver@example.com"
tpl  =  """
status: {status}
alerts: {alerts}
"""
def  sendMail(reciver, subject, message):
     server  =  smtplib.SMTP(smtpServer,  587 )
     server.ehlo()
     server.starttls()
     server.ehlo()
     server.login(smtpUser, smtpPass)
     server.set_debuglevel( 1 )
     msg  =  MIMEText(message,  "plain" "utf8" )
     msg[ "Subject" =  subject
     server.sendmail(sender, [reciver], msg.as_string())
     server.quit()
class  WebHook( object ):
     def  on_post( self , req, resp):
         """Handles GET requests"""
         body  =  req.stream.read()
         postData  =  json.loads(body.decode( 'utf-8' ))
         msg  =  tpl. format ( * * postData)
         print (msg)
         sendMail(reciver,  "alert" , msg)
         resp.status  =  falcon.HTTP_200   # This is the default status
         resp.body  =  "OK"
app  =  falcon.API()
app.add_route( '/' , WebHook())
if  __name__  = =  '__main__' :
     httpd  =  simple_server.make_server( '0.0.0.0' 80 , app)
     httpd.serve_forever()



源码:https://github.com/youerning/blog/blob/master/prometheus/webhookmail.py

注意:有falcon的依赖,需要pip install falcon


效果如下

image.png

注:由于我没有进一步处理post过来的json数据,所以显得不是很直观,大家可以根据自己的需要编排数据



其他exporter
除了基本的node_exporter,Prometheus官方还提供其他的exporter,如mysql, memcache,haproxy等
除了官方提供的,也还有很多第三方的expoter,参考:https://prometheus.io/docs/instrumenting/exporters/



自定义exporter
本文太长了, 直接看官方example吧。
参考:https://github.com/prometheus/client_golang/blob/master/examples/random/main.go



后记:个人认为,其实你不一定知道你要监控什么的,但是足够多的监控数据,能够支撑你对异常的全面审查及追溯。
其实Prometheus的很多细节没有说,比如监控规则编写,Prometheus的查询语法,不过本文太长了,如果有机会在详细说明吧。





本文转自 youerning 51CTO博客,原文链接:http://blog.51cto.com/youerning/2050543

相关实践学习
通过可观测可视化Grafana版进行数据可视化展示与分析
使用可观测可视化Grafana版进行数据可视化展示与分析。
相关文章
|
1月前
|
Prometheus 运维 监控
智能运维实战:Prometheus与Grafana的监控与告警体系
【10月更文挑战第26天】Prometheus与Grafana是智能运维中的强大组合,前者是开源的系统监控和警报工具,后者是数据可视化平台。Prometheus具备时间序列数据库、多维数据模型、PromQL查询语言等特性,而Grafana支持多数据源、丰富的可视化选项和告警功能。两者结合可实现实时监控、灵活告警和高度定制化的仪表板,广泛应用于服务器、应用和数据库的监控。
215 3
|
19天前
|
数据采集 Prometheus 监控
监控堆外第三方监控工具Grafana
监控堆外第三方监控工具Grafana
28 5
|
19天前
|
存储 Prometheus 监控
监控堆外第三方监控工具Prometheus
监控堆外第三方监控工具Prometheus
38 3
|
22天前
|
存储 Prometheus 运维
在云原生环境中,阿里云ARMS与Prometheus的集成提供了强大的应用实时监控解决方案
在云原生环境中,阿里云ARMS与Prometheus的集成提供了强大的应用实时监控解决方案。该集成结合了ARMS的基础设施监控能力和Prometheus的灵活配置及社区支持,实现了全面、精准的系统状态、性能和错误监控,提升了应用的稳定性和管理效率。通过统一的数据视图和高级查询功能,帮助企业有效应对云原生挑战,促进业务的持续发展。
30 3
|
1月前
|
Prometheus 监控 Cloud Native
在 HBase 集群中,Prometheus 通常监控哪些类型的性能指标?
在 HBase 集群中,Prometheus 监控关注的核心指标包括 Master 和 RegionServer 的进程存在性、RPC 请求数、JVM 内存使用率、磁盘和网络错误、延迟和吞吐量、资源利用率及 JVM 使用信息。通过 Grafana 可视化和告警规则,帮助管理员实时监控集群性能和健康状况。
|
1月前
|
Prometheus 监控 Cloud Native
基于Docker安装Grafana和Prometheus
Grafana 是一款用 Go 语言开发的开源数据可视化工具,支持数据监控和统计,并具备告警功能。通过 Docker 部署 Grafana 和 Prometheus,可实现系统数据的采集、展示和告警。默认登录用户名和密码均为 admin。配置 Prometheus 数据源后,可导入主机监控模板(ID 8919)进行数据展示。
93 2
|
1月前
|
Prometheus 运维 监控
智能运维实战:Prometheus与Grafana的监控与告警体系
【10月更文挑战第27天】在智能运维中,Prometheus和Grafana的组合已成为监控和告警体系的事实标准。Prometheus负责数据收集和存储,支持灵活的查询语言PromQL;Grafana提供数据的可视化展示和告警功能。本文介绍如何配置Prometheus监控目标、Grafana数据源及告警规则,帮助运维团队实时监控系统状态,确保稳定性和可靠性。
173 0
|
4月前
|
Prometheus 监控 Cloud Native
【监控】prometheus传统环境监控告警常用配置
【监控】prometheus传统环境监控告警常用配置
【监控】prometheus传统环境监控告警常用配置
|
3月前
|
Prometheus 监控 Cloud Native
介绍如何使用Prometheus进行监控
介绍如何使用Prometheus进行监控
272 3
|
3月前
|
Prometheus 监控 Cloud Native
docker安装prometheus+Granfan并监控容器
【9月更文挑战第14天】本文介绍了在Docker中安装Prometheus与Grafana并监控容器的步骤,包括创建配置文件、运行Prometheus与Grafana容器,以及在Grafana中配置数据源和创建监控仪表盘,展示了如何通过Prometheus抓取数据并利用Grafana展示容器的CPU使用率等关键指标。
120 1