docker 安装 prometheus、grafana 和 alertmanager

本文涉及的产品
可观测可视化 Grafana 版,10个用户账号 1个月
可观测监控 Prometheus 版,每月50GB免费额度
简介: docker 安装 prometheus、grafana 和 alertmanager

安装 prometheus

docker run \
        --name=prometheus \
        --volume=/data/app/prometheus/config/:/etc/prometheus/ \
        --volume=/etc/localtime:/etc/localtime \
        --volume=/data/app/prometheus/data:/prometheus \
        --network=host \
        --expose=9090/tcp \
        --restart=always \
        prom/prometheus \
        --config.file=/etc/prometheus/prometheus.yml --web.enable-lifecycle

配置文件(prometheus)

#my global config
global:
  scrape_interval:     15s # Set the scrape interval to every 15 seconds. Default is every 1 minute.
  evaluation_interval: 15s # Evaluate rules every 15 seconds. The default is every 1 minute.
  # scrape_timeout is set to the global default (10s).
# Alertmanager configuration
alerting:
  alertmanagers:
  - static_configs:
    - targets:
       - XXX:9093
rule_files:
  - /etc/prometheus/rules.yml
scrape_configs:
  - job_name: 'XXX'
    scrape_interval: 10s
    file_sd_configs:
      - refresh_interval: 1m
        files: ["/etc/prometheus/json/*.json"]

rules配置文件(sample)

groups:
- name: test
  rules:
  - alert: InstanceDown
    expr: up == 0
    for: 5s
    labels:
      severity: fire
      alertName: Instance
    annotations:
      summary: "Target:{{ $labels.instance }} Down"
      description: "{{ $labels.instance }} has been down for more than 5s"

  - alert: CPUUsage 90%
    expr: 100 - (avg by (instance,hostName,hostIp)(irate(node_cpu_seconds_total{mode="idle"}[1m]) )) * 100 > 90
    for: 1m
    labels:
      severity: fire
      alertName: CPU
    annotations:
      summary: "Target:{{ $labels.instance }} CPU使用率超过90%"
      description: "{{ $labels.instance }} CPU使用率超过90% 已经持续1m"

  - alert: CPUUsage 85%
    expr: 100 - (avg by (instance,hostName,hostIp)(irate(node_cpu_seconds_total{mode="idle"}[1m]) )) * 100 > 85
    for: 1m
    labels:
      severity: critical
      alertName: CPU
    annotations:
      summary: "Target:{{ $labels.instance }} CPU使用率超过85%"
      description: "{{ $labels.instance }} CPU使用率超过85% 已经持续1m"

  - alert: CPUUsage 70%
    expr: 100 - (avg by (instance,hostName,hostIp)(irate(node_cpu_seconds_total{mode="idle"}[1m]) )) * 100 > 70
    for: 5m
    labels:
      severity: warning
      alertName: CPU
    annotations:
      summary: "Target:{{ $labels.instance }} CPU使用率超过70%"
      description: "{{ $labels.instance }} CPU使用率超过70% 已经持续5m"

  - alert: MEMUsage 90%
    expr: (node_memory_MemTotal_bytes - (node_memory_MemFree_bytes+node_memory_Buffers_bytes+node_memory_Cached_bytes )) / node_memory_MemTotal_bytes * 100 > 90
    for: 1m
    labels:
      severity: fire
      alertName: MEM
    annotations:
      summary: "Target:{{ $labels.instance }} 内存使用率超过90%"
      description: "{{ $labels.instance }} 内存使用率超过90% 已经持续1m"

  - alert: MEMUsage 80%
    expr: (node_memory_MemTotal_bytes - (node_memory_MemFree_bytes+node_memory_Buffers_bytes+node_memory_Cached_bytes )) / node_memory_MemTotal_bytes * 100 > 80
    for: 1m
    labels:
      severity: critical
      alertName: MEM
    annotations:
      summary: "Target:{{ $labels.instance }} 内存使用率超过80%"
      description: "{{ $labels.instance }} 内存使用率超过80% 已经持续1m"

  - alert: MEMUsage 70%
    expr: (node_memory_MemTotal_bytes - (node_memory_MemFree_bytes+node_memory_Buffers_bytes+node_memory_Cached_bytes )) / node_memory_MemTotal_bytes * 100 > 70
    for: 5m
    labels:
      severity: warning
      alertName: MEM
    annotations:
      summary: "Target:{{ $labels.instance }} 内存使用率超过70%"
      description: "{{ $labels.instance }} 内存使用率超过70% 已经持续5m"

  - alert: DISKUsage 90%
    expr: (node_filesystem_size_bytes - node_filesystem_avail_bytes) / node_filesystem_size_bytes * 100 > 90
    for: 1m
    labels:
      severity: fire
      alertName: DISK
    annotations:
      summary: "Target:{{ $labels.instance }} 磁盘使用率超过90%"
      description: "{{ $labels.instance }} 磁盘使用率超过90% 已经持续1m"

  - alert: DISKUsage 85%
    expr: (node_filesystem_size_bytes - node_filesystem_avail_bytes) / node_filesystem_size_bytes * 100 > 80
    for: 1m
    labels:
      severity: critical
      alertName: DISK
    annotations:
      summary: "Target:{{ $labels.instance }} 磁盘使用率超过80%"
      description: "{{ $labels.instance }} 磁盘使用率超过80% 已经持续1m"

  - alert: DISKUsage 70%
    expr: (node_filesystem_size_bytes - node_filesystem_avail_bytes) / node_filesystem_size_bytes * 100 > 70
    for: 5m
    labels:
      severity: warning
      alertName: DISK
    annotations:
      summary: "Target:{{ $labels.instance }} 磁盘使用率超过70%"
      description: "{{ $labels.instance }} 磁盘使用率超过70% 已经持续5m"

安装 grafana

docker run \
        --name=grafana \
        -p 3000:3000 \
        --restart=always \
        grafana/grafana

安装 alertmanager

docker run \
        --name=alertmanager \
        --volume=/data/app/alertmanager/conf/alertmanager.yml:/etc/alertmanager/alertmanager.yml \
        --network=host \
        --restart=no \
        prom/alertmanager

配置文件

global:
  resolve_timeout: 30m

route:
  group_by: ['instance']
  group_wait: 1s
  group_interval: 1s
  repeat_interval: 5m
  receiver: "webhook"
receivers:
- name: "webhook"
  webhook_configs:
  - url: 'http://xxx/xx/xx/'
    send_resolved: true
inhibit_rules:
  - source_match:
      severity: 'fire'
    target_match:
      severity: 'critical'
    equal: ['alertName', 'instance']
  - source_match:
      severity: 'critical'
    target_match:
      severity: 'warning'
    equal: ['alertName','alertName']
相关实践学习
通过可观测可视化Grafana版进行数据可视化展示与分析
使用可观测可视化Grafana版进行数据可视化展示与分析。
相关文章
|
25天前
|
Prometheus 监控 Cloud Native
基于Docker安装Grafana和Prometheus
Grafana 是一款用 Go 语言开发的开源数据可视化工具,支持数据监控和统计,并具备告警功能。通过 Docker 部署 Grafana 和 Prometheus,可实现系统数据的采集、展示和告警。默认登录用户名和密码均为 admin。配置 Prometheus 数据源后,可导入主机监控模板(ID 8919)进行数据展示。
63 2
|
27天前
|
消息中间件 Linux RocketMQ
在Red Hat Enterprise Linux 9上使用Docker快速安装并部署
通过以上步骤,你可以在Red Hat Enterprise Linux 9上使用Docker快速安装并部署RocketMQ。这种方法不仅简化了安装过程,还提供了一个灵活的环境来管理和扩展消息队列系统。RocketMQ作为一款高性能的分布式消息系统,通过Docker可以实现快速部署和高效管理。
56 2
|
28天前
|
消息中间件 Linux RocketMQ
在Red Hat Enterprise Linux 9上使用Docker快速安装并部署
通过以上步骤,你可以在Red Hat Enterprise Linux 9上使用Docker快速安装并部署RocketMQ。这种方法不仅简化了安装过程,还提供了一个灵活的环境来管理和扩展消息队列系统。RocketMQ作为一款高性能的分布式消息系统,通过Docker可以实现快速部署和高效管理。
34 3
|
15天前
|
Docker 容器
【赵渝强老师】使用二进制包方式安装Docker
本文介绍了在企业生产环境中无法直接访问外网时,如何使用Docker官方提供的二进制包进行Docker的离线安装。文章详细列出了从安装wget、下载Docker安装包、解压、复制命令到启动Docker服务的具体步骤,并提供了相关命令和示例图片。最后,还介绍了如何设置Docker为开机自启模式。
|
15天前
|
缓存 Ubuntu Linux
如何安装Docker
如何安装Docker
97 0
|
13天前
|
Kubernetes Cloud Native Docker
云原生时代的容器化实践:Docker和Kubernetes入门
【10月更文挑战第37天】在数字化转型的浪潮中,云原生技术成为企业提升敏捷性和效率的关键。本篇文章将引导读者了解如何利用Docker进行容器化打包及部署,以及Kubernetes集群管理的基础操作,帮助初学者快速入门云原生的世界。通过实际案例分析,我们将深入探讨这些技术在现代IT架构中的应用与影响。
55 2
|
Prometheus 监控 Cloud Native
基于Docker+Prometheus+Grafana监控SpringBoot健康信息
使用最新的开源监控系统,监控springboot应用程序
7293 0
|
10天前
|
运维 Cloud Native 虚拟化
一文吃透云原生 Docker 容器,建议收藏!
本文深入解析云原生Docker容器技术,涵盖容器与Docker的概念、优势、架构设计及应用场景等,建议收藏。关注【mikechen的互联网架构】,10年+BAT架构经验倾囊相授。
一文吃透云原生 Docker 容器,建议收藏!
|
3天前
|
Kubernetes Linux 开发者
深入探索容器化技术——Docker 的实战应用
深入探索容器化技术——Docker 的实战应用
23 5
|
4天前
|
关系型数据库 MySQL Java
【Docker最新版教程】一文带你快速入门Docker常见用法,实现容器编排和自动化部署上线项目
Docker快速入门到项目部署,MySQL部署+Nginx部署+docker自定义镜像+docker网络+DockerCompose项目实战一文搞定!
下一篇
无影云桌面