搭建监控系统 (Node exporter、Grafana、Prometheus、Alertmanager)

本文涉及的产品
可观测监控 Prometheus 版,每月50GB免费额度
可观测可视化 Grafana 版,10个用户账号 1个月
全局流量管理 GTM,标准版 1个月
简介: 了解如何搭建监控系统 (Node exporter、Grafana、Prometheus、Alertmanager)

一、环境搭建


1、安装Node exporter


1) a、mac 安装 brew install node_exporter

微信图片_20220218203003.jpgb、启动 node_exporter


node_exporter --web.listen-address=":9600" --web.telemetry-path="/node_metrics"

微信图片_20220218203034.png

c、访问启动页面

微信图片_20220218203101.png


  • node_boot_time:系统启动时间
  • node_cpu:系统CPU使用量
  • nodedisk*:磁盘IO
  • nodefilesystem*:文件系统用量
  • node_load1:系统负载
  • nodememeory*:内存使用量
  • nodenetwork*:网络带宽
  • node_time:当前系统时间
  • go_*:node exporter中go相关指标
  • process_*:node exporter自身进程相关运行指标



2) docker启动


a、docker pull prom/node-exporter

微信图片_20220218203126.png


b、docker run -d --name=node  -p 9100:9100 prom/node-exporter:latest

微信图片_20220218203130.png

c、验证启动结果

微信图片_20220218203134.png




2、安装Prometheus

1) docker pull prom/prometheus

微信图片_20220218203222.png

2)启动prometheus


docker run -d -p 9090:9090 -v /tmp/prometheus/prometheus.yml:/etc/prometheus/prometheus.yml  prom/prometheus



a、prometheusyml



global:                  
  scrape_interval:     15s 
  external_labels:   
    monitor: 'codelab-monitor'
# Alertmanager配置
alerting:
 alertmanagers:
 - static_configs:
   - targets: ["192.168.50.100:9093"] # 设定alertmanager和prometheus交互的接口,即alertmanager监听的ip地址和端口
rule_files: 
  - '/tmp/prometheus/prometheus_rules.yml'
  - '/tmp/prometheus/alertmanager/alertmanager_rules.yml' 
scrape_configs: 
  - job_name: 'prometheus' 
    # 覆盖全局的 scrape_interval
    scrape_interval: 5s
    static_configs:  
      - targets: ['192.168.50.100:9090']
  - job_name: 'node'
    scrape_interval: 10s
    metrics_path: "/metrics"
    static_configs:
      - targets: ['192.168.50.100:9100']  # 本机 node_exporter 的 endpoint 这里若配置成127.0.0.1 会出现gramtheus访问node不通问题


b、prometheus_rules.yml


(base) mengfaniaodeMBP:prometheus mengfanxiao$ cat prometheus_rules.yml 
groups:
- name: example   #报警规则的名字
  rules:
  # Alert for any instance that is unreachable for >5 minutes.
  - alert: InstanceDown     #检测job的状态,持续1分钟metrices不能访问会发给altermanager进行报警
    expr: up == 0
    for: 1m    #持续时间
    labels:
      serverity: page
    annotations:
      summary: "Instance {{ $labels.instance }} down"
      description: "{{ $labels.instance }} of job {{ $labels.job }} has been down for more than 5 minutes."
  #- alert: "it's has problem"  #报警的名字
  #  expr: "test_tomcat{exported_instance="uat",exported_job="uat-app-status",host="test",instance="uat",job="uat-apps-status"} -  test_tomcat{exported_instance="uat",exported_job="uat-app-status",host="test",instance="uat",job="uat-apps-status"} offset 1w > 5"   # 这个意思是监控该表达式查询出来的值与一周前的值进行比较,大于5且持续10m钟就发送给altermanager进行报警
  #  for: 1m  #持续时间
  #  labels:
 #     serverity: warning
  #  annotations:
  #    summary: "{{ $labels.type }}趋势增高"
  #    description: "机器:{{ $labels.host }} tomcat_id:{{ $labels.id }} 类型:{{ $labels.type }} 与一周前的差值大于5,当前的差值为:{{ $value }}"    #自定义的报警内容


c、alertmanager_rules.yml


(base) mengfaniaodeMBP:alermanager mengfanxiao$ cat alertmanager_rules.yml 
groups:
 - name: test-rules
   rules:
   - alert: InstanceDown # 告警名称
     expr: up == 0 # 告警的判定条件,参考Prometheus高级查询来设定
     for: 2m # 满足告警条件持续时间多久后,才会发送告警
     labels: #标签项
      team: node
     annotations: # 解析项,详细解释告警信息
      summary: "{{$labels.instance}}: has been down"
      description: "{{$labels.instance}}: job {{$labels.job}} has been down "
      value: {{$value}}
(base) mengfaniaodeMBP:alermanager mengfanxiao$ ls
alertmanager.ymlalertmanager_rules.ymlconfig.ymltemplate
(base) mengfaniaodeMBP:alermanager mengfanxiao$ 
(base) mengfaniaodeMBP:alermanager mengfanxiao$ cat alertmanager_rules.yml 
groups:
 - name: test-rules
   rules:
   - alert: InstanceDown # 告警名称
     expr: up == 0 # 告警的判定条件,参考Prometheus高级查询来设定
     for: 2m # 满足告警条件持续时间多久后,才会发送告警
     labels: #标签项
      team: node
     annotations: # 解析项,详细解释告警信息
      summary: "{{$labels.instance}}: has been down"
      description: "{{$labels.instance}}: job {{$labels.job}} has been down "
   #   value: {{$value}}


3)

a、验证是否启动成功

微信图片_20220218203344.png

微信图片_20220218203338.png


b、prometheus的数据

微信图片_20220218203426.png


c、看配置的2个数据源是否成功

微信图片_20220218203434.png

问题:


Get http://127.0.0.1:9100/metrics: dial tcp 127.0.0.1:9100: connect: connection refused


但telnet 127.0.0.1 9100是可以的


原因是:

容器具有单独的网络名称空间,这意味着容器中的127.0.0.1在主机上不是127.0.0.1。

您应该使用主机的IP或使用--network = host启动容器。


host模式下使用-p或者-P会出现WARNING: Published ports are discarded when using host network mode 当你是host模式的时候,主机会自动把他上面的端口分配给容器,这个时候使用-p或者-P是无用的。但是还是可以在Dockerfile中声明EXPOSE端口 后续文章再详谈



3、安装grafana

1)docker pull grafana/grafana

微信图片_20220218203512.png

2)查看下载情况

docker images|grep grafana/grafana

微信图片_20220218203605.png

3)创建一个grafana/grafana容器并启动

docker run -d --name=grafana -p 3000:3000 grafana/grafana

微信图片_20220218203633.png

微信图片_20220218203636.png

4)访问启动页面

微信图片_20220218203708.png

默认账号admin/admin

5)登陆了之后 配置数据源

微信图片_20220218203736.png

微信图片_20220218203739.png

微信图片_20220218203750.png

数据源配置好之后 创建仪表盘用于显示数据源的数据

微信图片_20220218203840.png

选择配置好的这个数据源

微信图片_20220218203844.png

这里选择具体的数据指标仪表盘中就会画出对应的折线

微信图片_20220218203926.png

不同的仪表盘模式供选择

微信图片_20220218203929.png

4、安装Alertmanager

1) docker pull docker.io/prom/alertmanager:latest

微信图片_20220218204006.png

2) docker run -d -p 9093:9093 -v /tmp/prometheus/alermanager/alertmanager.yml:/etc/alertmanager/config.yml --name alertmanager docker.io/prom/alertmanager:latest


a、alertmanager.yml


(base) mengfaniaodeMBP:alermanager mengfanxiao$ cat alertmanager.yml 
# 全局配置项
global: 
  resolve_timeout: 5m #处理超时时间,默认为5min
  smtp_smarthost: 'smtp.sina.com:25' # 邮箱smtp服务器代理
  smtp_from: '******@sina.com' # 发送邮箱名称
  smtp_auth_username: '******@sina.com' # 邮箱名称
  smtp_auth_password: '******' # 邮箱密码或授权码
  wechat_api_url: 'https://qyapi.weixin.qq.com/cgi-bin/' # 企业微信地址
# 定义模板信心
templates:
  - 'template/*.tmpl'
# 定义路由树信息
route:
  group_by: ['alertname'] # 报警分组依据
  group_wait: 10s # 最初即第一次等待多久时间发送一组警报的通知
  group_interval: 10s # 在发送新警报前的等待时间
  repeat_interval: 1m # 发送重复警报的周期 对于email配置中,此项不可以设置过低,否则将会由于邮件发送太多频繁,被smtp服务器拒绝
  receiver: 'email' # 发送警报的接收者的名称,以下receivers name的名称
# 定义警报接收者信息
receivers:
  - name: 'email' # 警报
    email_configs: # 邮箱配置
    - to: '******@163.com'  # 接收警报的email配置
      html: '{{ template "test.html" . }}' # 设定邮箱的内容模板
      headers: { Subject: "[WARN] 报警邮件"} # 接收邮件的标题
    # 第三方开发配置
     #webhook_configs: # webhook配置
    #- url: 'http://127.0.0.1:5001'
    #send_resolved: true
    #wechat_configs: # 企业微信报警配置
    #- send_resolved: true
     #to_party: '1' # 接收组的id
      #agent_id: '1000002' # (企业微信-->自定应用-->AgentId)
      #corp_id: '******' # 企业信息(我的企业-->CorpId[在底部])
      #api_secret: '******' # 企业微信(企业微信-->自定应用-->Secret)
      #message: '{{ template "test_wechat.html" . }}' # 发送消息模板的设定
# 一个inhibition规则是在与另一组匹配器匹配的警报存在的条件下,使匹配一组匹配器的警报失效的规则。两个警报必须具有一组相同的标签。 
inhibit_rules: 
  - source_match: 
     severity: 'critical' 
    target_match: 
     severity: 'warning' 
    equal: ['alertname', 'dev', 'instance']

b、test.tmpl


(base) mengfaniaodeMBP:template mengfanxiao$ cat test.tmpl 
{{ define "test.html" }}
<table border="1">
        <tr>
                <td>报警项</td>
                <td>实例</td>
                <td>报警阀值</td>
                <td>开始时间</td>
        </tr>
        {{ range $i, $alert := .Alerts }}
                <tr>
                        <td>{{ index $alert.Labels "alertname" }}</td>
                        <td>{{ index $alert.Labels "instance" }}</td>
                        <td>{{ index $alert.Annotations "value" }}</td>
                        <td>{{ $alert.StartsAt }}</td>
                </tr>
        {{ end }}
</table>
{{ end }}



3) 验证启动结果

微信图片_20220218204044.png

微信图片_20220218204049.png


这里可看到 Prometheus sever 端发过来的 alerts,并可做 alerts 搜索,分组,静音等操作

微信图片_20220218204144.png



二、遗留问题下次解析


1、告警相关

a、promtheus的alert页面没有显示告警配置

b、node正常运行的时候 promtheus的alert页面没有显示

c、node停止运行时 promtheus的alert页面没有显示且alertmanage没有收到告警

d、alertmanager还没有配置receiver信息


2、简述各个组件是干什么的


3、简述原理及应用场景

a、简述原理

b、应用场景

4、docker host模式解析



参考资料


1、https://www.ibm.com/developerworks/cn/cloud/library/cl-lo-prometheus-getting-started-and-practice/index.html

2、https://www.jianshu.com/p/7f586b482c44?utm_campaign=studygolang.com&utm_medium=studygolang.com&utm_source=studygolang.com


相关文章
|
25天前
|
Prometheus 运维 监控
智能运维实战:Prometheus与Grafana的监控与告警体系
【10月更文挑战第26天】Prometheus与Grafana是智能运维中的强大组合,前者是开源的系统监控和警报工具,后者是数据可视化平台。Prometheus具备时间序列数据库、多维数据模型、PromQL查询语言等特性,而Grafana支持多数据源、丰富的可视化选项和告警功能。两者结合可实现实时监控、灵活告警和高度定制化的仪表板,广泛应用于服务器、应用和数据库的监控。
135 3
|
26天前
|
Prometheus 监控 Cloud Native
基于Docker安装Grafana和Prometheus
Grafana 是一款用 Go 语言开发的开源数据可视化工具,支持数据监控和统计,并具备告警功能。通过 Docker 部署 Grafana 和 Prometheus,可实现系统数据的采集、展示和告警。默认登录用户名和密码均为 admin。配置 Prometheus 数据源后,可导入主机监控模板(ID 8919)进行数据展示。
65 2
|
1月前
|
缓存 JSON JavaScript
Node.js模块系统
10月更文挑战第4天
40 2
|
24天前
|
Prometheus 运维 监控
智能运维实战:Prometheus与Grafana的监控与告警体系
【10月更文挑战第27天】在智能运维中,Prometheus和Grafana的组合已成为监控和告警体系的事实标准。Prometheus负责数据收集和存储,支持灵活的查询语言PromQL;Grafana提供数据的可视化展示和告警功能。本文介绍如何配置Prometheus监控目标、Grafana数据源及告警规则,帮助运维团队实时监控系统状态,确保稳定性和可靠性。
123 0
|
1月前
|
Web App开发 JavaScript API
构建高效后端系统:Node.js与Express框架的实践之路
【9月更文挑战第37天】在数字化时代的浪潮中,后端开发作为技术架构的核心,承载着数据处理和业务逻辑的重要职责。本文将深入探讨如何利用Node.js及其强大的Express框架来搭建一个高效、可扩展的后端系统。我们将从基础概念讲起,逐步引导读者理解并实践如何设计、开发和维护一个高性能的后端服务。通过实际代码示例和清晰的步骤说明,本文旨在为初学者和有经验的开发者提供一个全面的指南,帮助他们在后端开发的旅途上走得更远。
49 3
|
2月前
|
Prometheus 监控 Cloud Native
prometheus学习笔记之node-export
prometheus 监控 node-exporter
|
1月前
|
运维 JavaScript Linux
容器内的Nodejs应用如何获取宿主机的基础信息-系统、内存、cpu、启动时间,以及一个df -h的坑
本文介绍了如何在Docker容器内的Node.js应用中获取宿主机的基础信息,包括系统信息、内存使用情况、磁盘空间和启动时间等。核心思路是将宿主机的根目录挂载到容器,但需注意权限和安全问题。文章还提到了使用`df -P`替代`df -h`以获得一致性输出,避免解析错误。
|
2月前
|
存储 Prometheus 监控
在Ubuntu系统上安装与配置Prometheus的步骤
通过以上步骤,您应该已经成功在Ubuntu系统上安装并配置了Prometheus。您现在可以开始使用Prometheus收集和分析您的系统和应用程序的指标数据了。
181 1
|
3月前
|
Prometheus 监控 Cloud Native
自定义grafana_table(数据源Prometheus)
综上所述,自定义 Grafana 表格并将 Prometheus 作为数据源的关键是理解 PromQL 的查询机制、熟悉 Grafana 面板的配置选项,并利用 Grafana 强大的转换和自定义功能使数据展示更为直观和有洞见性。随着对这些工具更深入的了解,您将可以创建出更高级的监控仪表盘,以支持复杂的业务监控需求。
303 1
|
3月前
|
Prometheus 监控 Cloud Native
prometheus学习笔记之Grafana安装与配置
prometheus学习笔记之Grafana安装与配置
下一篇
无影云桌面