容器监控知多少 (3) Prometheus

本文涉及的产品
容器镜像服务 ACR,镜像仓库100个 不限时长
简介: 上一篇介绍了Google开发的容器监控工具cAdvisor,但是其提供的操作界面较为简陋,且不支持监控多Host,实用性有待提高。因此,本篇会介绍一个流行的生产级监控工具,不,准确说来应该是一个监控方案,它就是Prometheus!Prometheus提供了一整套的包括监控数据搜集、存储、处理、可视化和告警的完整解决方案。

本篇已加入《.NET Core on K8S学习实践系列文章索引》,可以点击查看更多容器化技术相关系列文章。上一篇介绍了Google开发的容器监控工具cAdvisor,但是其提供的操作界面较为简陋,且不支持监控多Host,实用性有待提高。因此,本篇会介绍一个流行的生产级监控工具,不,准确说来应该是一个监控方案,它就是Prometheus!

实验环境:阿里云ECS主机(两台),CentOS 7.4

一、Prometheus简介

1.1 关于Prometheus

  Prometheus是由SoundCloud开发的开源监控系统的开源版本。2016年,由Google发起的云原生基金会CNCF (Cloud Native Computing Foundation) 将其纳入为其第二大开源项目(第一大开源项目是Kubernetes)。Prometheus提供了一整套的包括监控数据搜集存储处理可视化和告警完整解决方案

  Prometheus官网地址:https://prometheus.io/

  Prometheus GitHub:https://github.com/prometheus/prometheus/

1.2 Prometheus架构

  Prometheus在其官方github上贴出的其架构图如下:  

   为了更容易理解这个架构,这里我们采用园友Cloud Man(他也是本文参考资料《每天5分钟玩转Docker》作者)总结的下图,它去掉了一些部分,只保留了最重要的组件,可以帮助我们避免注意力分散。

   从上图看来,我们着重需要关注以下几个核心组件:

  (1)Prometheus Server:负责从Exporter中拉取和存储监控数据,并提供一套查询语言(PromQL)供用户使用。

  (2)Exporter:负责收集目标对象(如Host或Container)的性能数据,并通过HTTP接口供Prometheus Server获取。

  (3)可视化组件 Grafana:获取Prometheus Server提供的监控数据并通过Web UI的方式完美展现数据。

  (4)AlertManager:负责根据告警规则和预定义的告警方式发出例如Email、Webhook之类的告警。

1.3 Prometheus数据模型

  Prometheus 中存储的数据为时间序列,是由 metric 的名字和一系列的标签(键值对)唯一标识的,不同的标签则代表不同的时间序列。

  • metric 名字:该名字应该具有语义,一般用于表示 metric 的功能,例如:http_requests_total, 表示 http 请求的总数。其中,metric 名字由 ASCII 字符,数字,下划线,以及冒号组成,且必须满足正则表达式 a-zA-Z_:*。
  • 标签:使同一个时间序列有了不同维度的识别。例如 http_requests_total{method="Get"} 表示所有 http 请求中的 Get 请求。当 method="post" 时,则为新的一个 metric。标签中的键由 ASCII 字符,数字,以及下划线组成,且必须满足正则表达式 a-zA-Z_:*。
  • 样本:实际的时间序列,每个序列包括一个 float64 的值和一个毫秒级的时间戳。

  时间序列格式:


<metric name>{<label name>=<label value>, ...}

  示例:


api_http_requests_total{method="POST", handler="/messages"}

  之前有分享过另一个时序数据库InfluxDB,它也是一个不错的时序数据库,经常用来作为监控数据的存储。OK,关于Prometheus的简介就到这儿,下面那我们开始动手将Prometheus初步用起来。

二、Prometheus实践

2.1 实验环境说明

  此次实验会搭建一个基于Prometheus的监控系统,用于监控两台阿里云ECS主机,监控目标为Host和容器两个层次。

主机 IP 运行组件
阿里云ECS1 47.102.140.100 Prometheus Server、Grafana、Exporter(Node Exporter & cAdvisor)
阿里云ECS2 47.102.140.101 Exporter(Node Exporter & cAdvisor)


Note:Prometheus支持多种Exporter,这里我们使用Node Exporter 和 cAdvisor。其中,Node Exporter用于收集Host相关数据,cAdvisor用于收集容器相关数据。Node Exporter 和 cAdvisor 会运行在所有实验主机上。

2.2 运行Node Exporter

  在两台主机上执行以下命令运行Node Exporter:

docker run -d -p 9100:9100 \
-v "/proc:/host/proc" \
-v "/sys:/host/sys" \
-v "/:/rootfs" \
prom/node-exporter \
--path.procfs /host/proc \
--path.sysfs /host/sys \
--collector.filesystem.ignored-mount-points "^/(sys|proc|dev|host|etc)($|/)"

  执行成功后,会创建一个Node Exporter的容器实例,访问两台主机的地址 http://[ECS1/2-HostIP]:9100/metrics,你可以看到如下图所示的信息:

   如果能看到上图,说明你的Node Exporter可以为Prometheus提供该Host的监控数据了。

2.3 运行cAdvisor

  这部分我们在上一篇《容器监控(2)cAdvisor》中已经介绍过了,这里我们继续在这两台主机中执行以下命令安装运行cAdvisor(如果已经运行了,就不必再执行了):

docker run \
  --volume=/:/rootfs:ro \
  --volume=/var/run:/var/run:rw \
  --volume=/sys:/sys:ro \
  --volume=/var/lib/docker/:/var/lib/docker:ro \
  --volume=/dev/disk/:/dev/disk:ro \
  --publish=8080:8080 \
  --detach=true \
  --name=cadvisor \
  google/cadvisor:latest

  同样,我们也可以通过访问 http://[ECS1/2-HostIP]:8080/metrics 来查看cAdvisor提供的监控数据,如下图所示:

   如果能看到上图,说明你的cAdvisor可以为Prometheus提供该Host的监控数据了。

2.4 运行Prometheus Server

  这里我们在主机A(表中的ECS1)上执行以下命令来运行Prometheus Server:

docker run -d -p 9090:9090 \
  -v /edc/prometheus/prometheus.yml:/etc/prometheus/prometheus.yml \
  --name prometheus \
  prom/prometheus

  此外,这里的prometheus.yml 是Prometheus Server的配置文件,需要事先编辑好并放到指定目录下(这里是/edc/prometheus/目录下)让docker可以读取到,内容如下:

global:
  scrape_interval: 15s
  evaluation_interval: 15s
  external_labels:
    monitor: 'edc-lab-monitor'

alerting:
  alertmanagers:
  - static_configs:
    - targets:
      # - alertmanager:9093

rule_files:
  # - "first.rules"
  # - "second.rules"
  
scrape_configs:
  - job_name: 'prometheus'
    static_configs:
      - targets: ['47.102.140.100:9090']
  
  - job_name: 'host'
    static_configs:
      - targets: ['47.102.140.100:9100','47.102.140.101:9100']

  - job_name: 'container'
    static_configs:
      - targets: ['47.102.140.100:8080','47.102.140.101:8080']

  这里需要注意的配置是scrape_configs中的static_configs,里面定义了Prometheus会从哪些Exporter中抓取监控数据,这里指定了两台云主机的Node Exporter与cAdvisor。

  执行成功后,Prometheus容器已经创建好了,访问这台ECS1的地址:http://[ECS1 Host IP]:9090/metrics,如下图所示:

   然后,我们直接访问http://[ECS1-HostIP]:9090,会进入Prometheus主页:

   单击菜单Status => Targets,会看到所有监控的目标Exporters:

   可以看到所有监控目标的状态都是Up,表示Prometheus Server可以正常获取监控数据。

2.5 运行Grafana

  这里我们继续在主机A(ECS1)上执行以下命令运行Grafana:

docker run -d -i -p 3000:3000 \
-e "GF_SERVER_ROOT_URL=http://grafana.server.name" \
-e "GF_SECURITY_ADMIN_PASSWORD=secret" \
grafana/grafana

  -e "GF_SECURITY_ADMIN_PASSWORD=secret" 则指定了Admin用户的密码为secret,这里你也可以随你的意愿改为你可以记得住的。

  执行成功后,我们可以通过访问:http://[ECS1-HostIP]:3000 看到以下Grafana的登录界面

  下面几个步骤用于初始化配置Grafana让其可以展示监控数据仪表盘Dashboard:

  Step1.登陆之后进入主页,选择引导页,从"add data source"开始,第一步选择时序数据库,这里选择Prometheus

  Step2.配置Prometheus Server地址及Name,完成后点击“Save&Test”:

  Step3.回到引导主页,选择Add Dashboard按钮,进入Dashboard页,选择Import Dashboard,进入下图:

   这里选择的Dashboard,你可以在grafana的dashboard官网的搜索你喜欢的关于Docker监控主题的各种Dashboard样式。这里我们要做的就是将其ID(这里我选择的一个Docker监控的dashboard ID是193,其余的我不记得了)复制到图中的文本框中(当然,你也可以下载json并粘贴进去)。

  Step4.Grafana识别之后,就会显示其详情让你确认。在确认页选择Prometheus的数据源,这里选择我们刚刚添加的数据源,然后点击Import即可完成导入。

   完成以上导入Dashboard步骤之后,这里我的Dashboard列表有了三个Dashboard:

  这里我们主要关注第一个(Docker-Monitor)和第三个(Host-Monitor),先来看第一个Dashboard,它主要是为我们展示Docker层次的监控面板:

   从上图可以看到两台Host中的所有容器监控数据一览无遗。

   第三个面板(Host-Monitor)的展示面板如下图所示:

   在上图中,我们选择的分组是Host,它主要是收集来自Node-Exporter中反馈的基于Host的监控数据,可以实时展示Host的关键指标。不过,它每次只能显示单台Host的数据,我们可以通过切换Host IP下拉列表查看不同Host的性能数据。

  此外,我们一般会将其投屏到工作区的电视上,所以我们可以点击下面这个按钮以投屏模式显示在电视上,供整个团队及时查看。

三、监控工具大比较

  这里我们仍然引用Cloud Man总结的一张表来看看:

   毫无疑问,Prometheus作为生产级的监控方案,对其他几个工具形成了压倒性的优势。而事实上,Prometheus + Grafana + cAdvisor这一套方案也是大家广泛采用的结构。

四、小结

  本文首先简单介绍了Prometheus及其架构,然后通过搭建基于Prometheus + cAdvisor + Grafana的监控系统,能够实现对于多台云主机的性能监控(包括Host和容器两个层次的数据)。当然,Prometheus还有很多的配置和好玩的地方例如Alert Manager可以及时发送告警通知等,笔者也只是初步把玩,还有很多东西不知道。后面我会分享引入K8S后,结合Prometheus + cAdvisor + Grafana实现K8S集群的监控,敬请期待。

参考资料

Cloud Man,《每天5分钟玩转Docker容器技术

无涯,《从零开始搭建Prometheus自动监控告警系统

三无程序员,《Prometheus

虎纠卫,《监控神器-普罗米修斯Prometheus

项思凯,《Prometheus介绍详解

rj-bai,《Prometheus+Grafana打造全方位监控系统

GeekerLou,《云原生监控系统Prometheus

Cloud Man,《一文搞懂各种容器监控方案

相关实践学习
容器服务Serverless版ACK Serverless 快速入门:在线魔方应用部署和监控
通过本实验,您将了解到容器服务Serverless版ACK Serverless 的基本产品能力,即可以实现快速部署一个在线魔方应用,并借助阿里云容器服务成熟的产品生态,实现在线应用的企业级监控,提升应用稳定性。
目录
相关文章
|
1月前
|
Prometheus 运维 监控
智能运维实战:Prometheus与Grafana的监控与告警体系
【10月更文挑战第26天】Prometheus与Grafana是智能运维中的强大组合,前者是开源的系统监控和警报工具,后者是数据可视化平台。Prometheus具备时间序列数据库、多维数据模型、PromQL查询语言等特性,而Grafana支持多数据源、丰富的可视化选项和告警功能。两者结合可实现实时监控、灵活告警和高度定制化的仪表板,广泛应用于服务器、应用和数据库的监控。
261 3
|
2天前
|
存储 数据采集 Prometheus
Grafana Prometheus Altermanager 监控系统
Grafana、Prometheus 和 Alertmanager 是一套强大的开源监控系统组合。Prometheus 负责数据采集与存储,Alertmanager 处理告警通知,Grafana 提供可视化界面。本文简要介绍了这套系统的安装配置流程,包括各组件的下载、安装、服务配置及开机自启设置,并提供了访问地址和重启命令。适用于希望快速搭建高效监控平台的用户。
49 20
|
5天前
|
Prometheus 运维 监控
Prometheus+Grafana+NodeExporter:构建出色的Linux监控解决方案,让你的运维更轻松
本文介绍如何使用 Prometheus + Grafana + Node Exporter 搭建 Linux 主机监控系统。Prometheus 负责收集和存储指标数据,Grafana 用于可视化展示,Node Exporter 则采集主机的性能数据。通过 Docker 容器化部署,简化安装配置过程。完成安装后,配置 Prometheus 抓取节点数据,并在 Grafana 中添加数据源及导入仪表盘模板,实现对 Linux 主机的全面监控。整个过程简单易行,帮助运维人员轻松掌握系统状态。
49 3
|
5天前
|
Prometheus 监控 Cloud Native
无痛入门Prometheus:一个强大的开源监控和告警系统,如何快速安装和使用?
Prometheus 是一个完全开源的系统监控和告警工具包,受 Google 内部 BorgMon 系统启发,自2012年由前 Google 工程师在 SoundCloud 开发以来,已被众多公司采用。它拥有活跃的开发者和用户社区,现为独立开源项目,并于2016年加入云原生计算基金会(CNCF)。Prometheus 的主要特点包括多维数据模型、灵活的查询语言 PromQL、不依赖分布式存储、通过 HTTP 拉取时间序列数据等。其架构简单且功能强大,支持多种图形和仪表盘展示模式。安装和使用 Prometheus 非常简便,可以通过 Docker 快速部署,并与 Grafana 等可
58 2
|
29天前
|
存储 Prometheus 监控
监控堆外第三方监控工具Prometheus
监控堆外第三方监控工具Prometheus
47 3
|
1月前
|
存储 Prometheus 运维
在云原生环境中,阿里云ARMS与Prometheus的集成提供了强大的应用实时监控解决方案
在云原生环境中,阿里云ARMS与Prometheus的集成提供了强大的应用实时监控解决方案。该集成结合了ARMS的基础设施监控能力和Prometheus的灵活配置及社区支持,实现了全面、精准的系统状态、性能和错误监控,提升了应用的稳定性和管理效率。通过统一的数据视图和高级查询功能,帮助企业有效应对云原生挑战,促进业务的持续发展。
42 3
|
1月前
|
Prometheus 监控 Cloud Native
在 HBase 集群中,Prometheus 通常监控哪些类型的性能指标?
在 HBase 集群中,Prometheus 监控关注的核心指标包括 Master 和 RegionServer 的进程存在性、RPC 请求数、JVM 内存使用率、磁盘和网络错误、延迟和吞吐量、资源利用率及 JVM 使用信息。通过 Grafana 可视化和告警规则,帮助管理员实时监控集群性能和健康状况。
|
1月前
|
Prometheus 运维 监控
智能运维实战:Prometheus与Grafana的监控与告警体系
【10月更文挑战第27天】在智能运维中,Prometheus和Grafana的组合已成为监控和告警体系的事实标准。Prometheus负责数据收集和存储,支持灵活的查询语言PromQL;Grafana提供数据的可视化展示和告警功能。本文介绍如何配置Prometheus监控目标、Grafana数据源及告警规则,帮助运维团队实时监控系统状态,确保稳定性和可靠性。
220 0
|
3月前
|
Prometheus 监控 Cloud Native
介绍如何使用Prometheus进行监控
介绍如何使用Prometheus进行监控
326 3
|
3月前
|
Prometheus 监控 Cloud Native
docker安装prometheus+Granfan并监控容器
【9月更文挑战第14天】本文介绍了在Docker中安装Prometheus与Grafana并监控容器的步骤,包括创建配置文件、运行Prometheus与Grafana容器,以及在Grafana中配置数据源和创建监控仪表盘,展示了如何通过Prometheus抓取数据并利用Grafana展示容器的CPU使用率等关键指标。
142 1