Prometheus实战篇:Prometheus监控docker

2024-01-11 1340

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Prometheus实战篇:Prometheus监控docker

Prometheus实战篇:Prometheus监控docker

准备环境

监控docker

为了能够获取到Docker容器的运行状态,用户可以通过Docker的stats命令获取当前主机上运行容器的统计信息,可以查看容器的CPU利用率,内存使用量,网络IO总量以及磁盘IO总量等信息.

docker stats

除了使用命令以外,用户还可以通过Docker提供的HTTP API查看容器详细的监控统计信息.

使用CAdvisor

CAdvisor是谷歌开源的一款用于展示和分析容器运行状态的可视化工具.通过在主机上运行CAdvisor用户可以轻松的获取到当前主机上容器的运行统计信息,并以图标的形式向用户展示.

docker命令安装

docker run -d \
  --volume=/:/rootfs:ro \
  --volume=/var/run:/var/run:rw \
  --volume=/sys:/sys:ro \
  --volume=/var/lib/docker/:/var/lib/docker:ro \
  --publish=8080:8080 \
  --name=cadvisor \
  google/cadvisor:latest

Docker-compose安装

mkdir /data/cadvisor
cd /data/cadvisor
#通过cat新建docker-compose.yaml文件

直接访问localhost:8080/containers/进入可视化界面

也可以在访问路径后面加上一个/metrics,可以看到输出的日志内容

http://localhost:8080/metrics

Prometheus配置

配置Prometheus去采集(拉取)nginx_exporter的监控样本数据

cd /data/docker-prometheus
# 在scrapc_configs(搜刮配置):下面增加如下配置:
cat >prometheus/prometheus.yml <<FOF
 - job_name: 'cadvisor'
   static_configs:
   - targets: ['localhost:8080']
     labels:
      instance: test服务器 
EOF

重新加载配置

curl -x POST http://localhost:9090/-/reload

检查

常用的docker监控指标

指标名称	类型	含义
container_cpu_load_average_10s	gauge	过去10秒容器CPU平均负载
container_cpu_usage_seconds_total	counter	容器在每个CPU内核上累计占用时间(单位:秒)
container_cpu_system_seconds_total	counter	System CPU累计占用时间(单位:秒)
container_cpu_user_seconds_total	counter	User CPU累计占用时间(单位:秒)
container_fs_usage_bytes	gauge	容器中文件系统的使用量(单位:字节)
container_fs_limit_bytes	gauge	容器可以使用的文件系统总量(单位:字节)
container_fs_reads_bytes_total	counter	容器类及读取数据的总量(单位:字节)
container_fs_writes_bytes_total	counter	容器累计写入数据的总量(单位:字节)
container_memory_max_usage_bytes	gauge	容器的最大内存使用量(单位:字节)
container_memory_usage_bytes	gauge	容器当前的内存使用量
container_spec_memory_limit_bytes	gauge	容器内存使用量限制
machine_memory_bytes	gauge	当前主机的内存总量
container_network_receive_bytes_total	counter	容器网络累计接收数据总量(单位:字节)
container_network_transmit_bytes_total	counter	容器网络累计传输数据总量(单位:字节)

触发器配置

由于之前的触发器是全部写在了一个yml里面就是alert.yam,这样随着后面配置的触发器越来越多最终会变得难以维护.这里我们让它去读rules目录下所有的yml文件即可

Prometheus配置

rule_files:
  - "alert.yml"
  - "rules/*.yml"

配置docker容器触发器

因为是单机所以未配置集群的触发器

cat >prometheus/rules/mongodb.yml <<"EOF"
groups:
- name: DockerContainers
  rules:
    - alert: ContainerKilled
      expr: time() - container_last_seen >60
      for: 0m
      labels:
        severity: warning
      annotations:
          summary: "Docker容器被杀死,容器:$labels.instance"
          description: "{{ $value }}个容器消失了"
    - alert: ContainerAbsent
      expr: absent(container_last_seen)
      for: 5m
      labels:
        severity: warning
      annotations:
          summary: "无容器 容器:{{$labels.instance }}"
          description: "5分钟检查容器不存在,当前值为:{{ $value }}"
    - alert: ContainerCpuUsage
      expr: (sum(rate(container_cpu_usage_seconds_total{name!=""}[3m])) BY(instance, name)*100 ) > 300
      for: 2m
      labels:
        severity: warning
      annotations:
          summary: "容器cpu使用率告警,容器:{{$labels.instance }}"
          description: "容器cpu使用率超过300%,当前值为:{{ $value }}"
    - alert: ContainerMemoryUsage
      expr: (sum(container_memory_working_set_bytes{name!=""})BY (instance, name) /sum(container_spec_memory_limit_bytes > 0) BY (instance, name) * 100 ) > 80
      for: 2m
      labels:
        severity: warning
      annotations:
          summary: "容器内存使用率告警,容器:{{$labels.instance }}"
          description: "容器内存使用率超过80%,当前值为:{{ $value }}"
    - alert: ContainerVolumeIOUsage
      expr: (sum(container_fs_io_current{name!=""}) BY (instance, name) * 100) >80 
      for: 2m
      labels:
        severity: warning
      annotations:
          summary: "容器存储IO使用率告警,容器:{{$labels.instance }}"
          description: "容器存储IO使用率超过80%,当前值为:{{ $value }}"
    - alert: ContainerHighThrottleRate
      expr: rate(container_cpus_cfs_throttled_seconds_total[3m]) > 1 
      for: 2m
      labels:
        severity: warning
      annotations:
          summary: "容器限制告警,容器:{{$labels.instance }}"
          description: "容器被限制,当前值为:{{ $value }}"
EOF

一定记住这里需要仔细校对yaml语法,最好是能去在线验证yaml语法的网站上看看.yaml语法还是比较严格的一点缩进错误都不能有

检查配置

docker exec -it prometheus promtool check config /etc/prometheus/prometheus.yml

重新加载配置

curl -x POST http://localhost:9090/-/reload

检查

http://localhost:9090/alerts?search=

或:

http://localhost:9090/rules

dashboard

这里在grafana中搜索id=11600的仪表盘模板

id=11600

Prometheus实战篇:Prometheus监控docker

Prometheus实战篇:Prometheus监控docker

准备环境

监控docker

使用CAdvisor

docker命令安装

Docker-compose安装

Prometheus配置

检查

常用的docker监控指标

触发器配置

配置docker容器触发器

检查配置

重新加载配置

检查

dashboard

热门文章

最新文章

相关课程

相关电子书

推荐镜像

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

Prometheus实战篇:Prometheus监控docker

Prometheus实战篇:Prometheus监控docker

准备环境

监控docker

使用CAdvisor

docker命令安装

Docker-compose安装

Prometheus配置

检查

常用的docker监控指标

触发器配置

配置docker容器触发器

检查配置

重新加载配置

检查

dashboard

热门文章

最新文章

相关课程

相关电子书

推荐镜像