【监控】InfluxDB与 Prometheus的监控分析-阿里云开发者社区

【监控】InfluxDB与 Prometheus的监控分析

2020-07-30 4860

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： InfluxDB 与 Prometheus 两个时序数据库可以说是在一个十字路口，背向而行的两个数据库。怎么这么说呢？InfluxDB 是 push 的方式获取监控指标数据， Prometheus 是 pull 的方式获取监控指标数据， promethues 的生态也很完善，比如我们可以使用 cortex 来实现多租户的管理， influxDB ，还不清楚。这里需要简单的去看一下 influxDB 和 prometheus 两个数据库，做一个比较。

InfluxDB 与 Prometheus 两个时序数据库可以说是在一个十字路口，背向而行的两个数据库。怎么这么说呢？InfluxDB 是 push 的方式获取监控指标数据， Prometheus 是 pull 的方式获取监控指标数据， promethues 的生态也很完善，比如我们可以使用 cortex 来实现多租户的管理， influxDB ，还不清楚。这里需要简单的去看一下 influxDB 和 prometheus 两个数据库，做一个比较。

获取指标的方式

Prometheus 和 InfluxDB 在数据的采集上两者选择了不同的极端，前者只能 pull , 后者只能 push .

Promethues 的数据采集器，我们称之为 exporter ,每一个 exporter 会对外开放一个端口，供 Prometheus Server 拉取数据。

InfluxDB 的数据采集器 Telegraf, influxDB 官方宣传插件化驱动。这玩意的默认配置文件很多，包括 push 的目的地址，以及各种插件的控制目的等等。相比之下， Prometheus 的 exporter 是不需要任何的配置的，也不需要任何的依赖关系，也就是所谓的开箱即用。

数据存储

InfluxDB 的存储引擎是基于一种叫做TSM的自研引擎,

Prometheus 则是柔和了 leveldb 与自研的存储引擎.

Prometheus 提供了后端的存储，比如说 Cortex ，还可以基于 Cortex 进行多租户的管理设置。同时，InfluxDB 也可以作为 Prometheus 的存储后端。

InfluxDB嘛，再看。

数据查询(1分钟内 CPU 使用率)

在数据查询上面, InfluxDB 的查询语言 InfluxQL 与 SQL 类似, 但是不能像 SQL 那样做强大的表与表之间的操作.

SELECT 100 - usage_idel FROM "autogen"."cpu" WHERE time > now() - 1m and "cpu"='cpu0'

Prometheus 的查询语言也很有特点, 看起来会像 JSON , 但是通过它也可以实现各种强大的查询操作.

100 - (node_cpu{job="node",mode="idle"}[1m])

高可用与集群功能

目前这两者从开源的角度上来说，做的都不是很友好。

influxDB 的集群功能是商业功能，目前开源的有一个高可用的套件: influxdb-relay .但是这个其实就是在 influxDB 前面增加了一个代理转发，数据经过的时候会被它分发到各个数据库实例上。但是这个不支持 QUuery 的操作，也就是说，在查询上，这个代理这边的数据聚合是一件很麻烦的事情。

Prometheus 这边目前也是没有什么高可用集群概念的，但是 Prometheus 有一个联邦的概念，目的就是解决不同的 Prometheus 采集不同的类型的指标，最后有一个Prometheus进行汇总。同时，Prometheus这边的扩展性会比InfluxDB好很多，比如说远程存储后端，Prometheu可以配置 Cortex 作为租户的管理，配置 Cassandra 作为数据的存储点，这一点是 influxdb比不上的。

告警

监控体系

InfluxDB

一般的，使用 Telegraf + InfluxDB + Grafana + Kapacitor 搭建一套监控体系

Telegraf

Telegraf 是实现 数据采集 的工具。Telegraf 具有内存占用小的特点，通过插件系统开发人员可轻松添加支持其他服务的扩展。

在平台监控系统中，可以使用 Telegraf 采集多种组件的运行信息，而不需要自己手写脚本定时采集，大大降低数据获取的难度；且 Telegraf 配置极为简单，只要有基本的 Linux 基础即可快速上手。Telegraf 按照时间序列采集数据，数据结构中包含时序信息，借助 Influxdb 可以针采集得到的数据完成各种分析计算操作。

influxdb组合监控架构体系

Prometheus

一般的，我们使用 Exporter+ Prometheus+ Grafana + Alertmanager 搭建一套监控体系

Prometheus重视可靠性，但是做不到准确性（100%），比如说，请求计费，Prometheus 就不是一个很好的选择，因为 Prometheus 收集到的数据存在不够详细和完整。在这种情况下，用 InfluxDB 来收集和分析数据以进行计费计算回事比较好的，使用 Prometheus 来进行其他的监控。

结论

如果只考虑监控， Prometheus 是最好的选择，至少在 Prometheus 和 InfluxDB 里面。 Prometheus 是最优秀的。
但是，如果除了监控，还会有其他的一些业务指标，InfluxDB 是比较合适的。

【监控】InfluxDB与 Prometheus的监控分析

获取指标的方式

数据存储

数据查询(1分钟内 CPU 使用率)

高可用与集群功能

告警

监控体系

InfluxDB

Telegraf

Prometheus

结论

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

【监控】InfluxDB与 Prometheus的监控分析

获取指标的方式

数据存储

数据查询(1分钟内 CPU 使用率)

高可用与集群功能

告警

监控体系

InfluxDB

Telegraf

Prometheus

结论

热门文章

最新文章

相关课程

相关电子书