什么?还没听说过Prometheus,或许你需要了解这些知识点

本文涉及的产品
可观测监控 Prometheus 版,每月50GB免费额度
简介: 在学习Prometheus之前,你需要先了解一些监控的基础知识,本文将循序渐进地介绍什么是监控、以及通用的监控方法。

导语:Prometheus是一个开源的监控系统,它从应用程序中实时获取时间序列数据,然后通过功能强大的规则引擎,帮助你识别监控环境所需的信息。在学习Prometheus之前,你需要先了解一些监控的基础知识,本文将循序渐进地介绍什么是监控、以及通用的监控方法。

一、 监控的客户

从技术角度来看,监控是衡量和管理技术系统的工具和流程。但监控远不止于此,监控将系统和应用程序生成的指标转换为对应的业务价值。你的监控系统会将这些指标转换为衡量用户体验的依据,该依据为业务提供反馈,以确保为客户提供了所需的产品。同时该依据还提供了对技术的反馈,指出哪些组件不起作用或者导致服务质量下降。

实际上,监控系统有以下两个“客户”:

  • 技术
  • 业务

1 技术作为客户

监控系统的第一个客户是技术。这是你、你的团队以及其他管理和维护技术环境的同事(可能被称为运维工程师、DevOps或是SRE)。你可以通过监控来了解技术环境状况,还可以帮助检测、诊断和解决技术环境中的故障和问题(尤其是在影响用户之前)。监控提供了大量的数据,帮助洞察关键的产品和技术决策,并衡量这些项目是否成功。监控也是产品管理生命周期以及与内部客户关系的基础,有助于验证项目资金是否得到充分利用。如果没有监控,最好的情况是没有问题发生,最糟糕的是问题发生了但没有被发现。

2 业务作为客户

业务是监控系统的第二个客户。监控系统是为了支持业务,并确保业务持续开展。监控可以提供报告,使企业能够进行良好的产品和技术投资,还有助于业务衡量技术带来的价值。

二 监控基础知识

监控是管理基础架构和业务的核心工具。监控也是必需的,应该和应用程序一起构建和部署。没有监控,你将无法了解你的系统环境、进行诊断故障、制定容量计划,也无法向组织提供系统的性能、成本和状态的信息。

关于监控,Google服务层次结构图就是一个很好的的阐述。

image.png
图1 服务层级

但是监控没有那么容易实施,如果你监控了错误的东西或者使用错误的方式,那监控系统的价值将大大降低,这里列举一些关于监控的反模式和解决方案。

1 事后监控

对于任何应用程序开发方法,在构建之前确定要构建的内容都是个好主意。遗憾的是,有一种常见的反模式,即将监控和其他运维工作,比如安全性,视为应用程序的增值组件而非核心功能。与安全性一样,监控也应该是应用程序的核心功能。如果你要为应用程序构建规范或用户故事,务必先把应用程序每个组件的监控指标考虑进来,千万不要等到项目结束或部署之前再做这件事情。我保证你会错过一些需要监控的东西。

2 机械式监控

许多环境会为所有应用程序建立货物崇拜(Cargo Cult)式的监控系统。团队始终复用他们过去使用的检查机制,而不会为新系统或应用程序进行更新。一个常见的例子是监控每台主机上的CPU、内存和磁盘,但不监控可以指示主机上的应用程序是否正常运行的关键服务。如果应用程序在你没有注意到的情况下发生故障,即使进行了监控,你也需要重新考虑你正在监控的内容是否合理。

根据服务价值设计自上而下的监控系统是一个很好的方式,这会帮助明确应用程序中更有价值的部分,并优先监控这些内容,再从技术堆栈中依次向下推进。

image.png

图2 监控设计

从业务逻辑和业务输出开始,向下到应用程序逻辑,最后到基础架构。这并不意味着你不去收集基础架构或操作系统指标 - 它们在诊断和容量规划中很有帮助 - 但你不太可能使用这些来报告应用程序的价值。

注: 如果无法从业务指标开始,则试着从靠近用户侧的地方开始监控。因为他们才是最终的客户,他们的体验是推动业务发展的动力,了解他们的体验并发现他们何时遇到问题本身就很有价值。

3 不够准确的监控

这个反模式的一个常见形式是虽然监控了主机上的服务状态,但不够准确。例如,通过检查HTTP的200状态码可以监控Web应用程序是否正常运行,它会告诉你应用程序正在响应请求,但是它并不会反映出是否返回了正确的数据。

因此需要找准服务监控的内容 - 例如,监控业务事务的内容或速率,而不是监控它运行的Web服务器的运行时间。你会这两种好处:如果服务因为配置错误、程序bug或受损导致内容不正确,你会及时查看到;如果是因为底层Web服务出现故障,你同样也会知道。

4 静态监控

另一种反模式是使用静态阈值 - 例如,如果主机的CPU使用率是否超过80%就发出警报。这种检查通常是不灵活的布尔逻辑或者一段时间内的固定阈值,它们通常会匹配特定的结果或范围,这种模式没有考虑到大多数复杂系统的动态性。阈值的匹配或许很重要,它可能由异常事件触发 - 或者甚至可能是自然增长的结果。

静态阈值几乎总是错误的。数据库性能分析供应商VividCortex首席执行官Baron Schwartz对此评论道:

它们比一个停摆的时钟更糟糕,至少时钟每天还会有两次准的时候。任何给定系统的阈值都是错误的,因为所有系统都略有不同,并且在任何给定时刻也都是错误的,因为系统在经历不断变化的负载和其他情况。

为了更好地监控,我们需要查看数据窗口,而不是静态的时间点,我们需要使用更智能的技术来分析指标和阈值。

5 不频繁的监控

对于许多监控工具来说,设定监控周期都是一项挑战,一般默认检查周期设置了一个较大的值 - 例如,每隔5到15分钟仅检查一次应用程序。这通常会导致检查之间发生的关键事件丢失。你应该频繁地监控应用程序,以获得以下好处:

识别故障或异常

满足响应时间预期 - 你绝对希望在用户报告故障之前找到问题

提供更细颗粒度的数据,以识别性能的问题和趋势

始终记住存储足够多的历史数据可以有效地帮助识别性能的问题和趋势。在很多情况下,这可能只需要数天或数周的数据 - 但如果丢弃了这些数据,则可能无法识别出趋势或发现重复出现的问题。

6 监控模式总结

一个良好的监控系统应该能提供以下内容:

全局视角,从最高层(业务)依次展开

协助故障诊断

作为基础架构、应用程序开发和业务人员的信息源

同时它也应该是:

内置于应用程序设计、开发和部署的生命周期中

尽可能自动化,并提供自服务

注: 这种对监控系统“良好”的定义与另一个新出现的术语 - 可观察性 - 是交叉重叠的。你可以在Cindy Sridharan的精彩博客文章中了解更多相关信息,了解两者之间的差异。

7 警报和通知

警报和通知是监控工具的主要输出。那么警报和通知之间有什么区别呢?警报是当某些事件发生了,如指标达到阈值时。然而,这并不意味着有人被告知此事件发生,这是通知的来源。通知接收警报并告知某人或某事:通过发送电子邮件、发送短信或者创建工单等。看起来这应该是一个非常简单的领域,但它通常包含很多复杂因素,并且很难实施和管理。

要建立一个出色的通知系统,需要考虑以下基础信息:

哪些问题需要通知

谁需要被告知

如何告知他们

多久告知他们一次

何时停止告知,何时升级到其他人。

如果配置不当导致生成了过多通知,那么人们将无法对它们采取任何行动,甚至可能将它们忽略掉。我们都有过这样的故事:收件箱中充满了来自监控系统的成千上万封通知邮件。有时你会因为收到很多通知,而出现警报疲劳忽略它们(或者更糟糕的是,对通知邮件直接全选 -> 删除)。因此,你可能会错过真正的重要通知。

最重要的是,你需要考虑通知内容。通常当出现问题或者有事件需要你注意时,通知是唯一的途径。它们需要简洁、清晰、准确,易于理解并且可操作。设计有价值、有意义的通知至关重要。让我们通过一个示例,看看通知内容为什么很重要。以下是Nagios关于磁盘空间的通知。

代码清单1.1 Nagios通知样例

image.png

想象一下,你刚刚在凌晨3点36分收到这条通知。它都告诉了你哪些信息?首先,这是一个主机磁盘空间警报,并且/data目录存储已达到91%。乍一看这很有价值,但实际上并没有那么实用。首先,这是一个存储空间突增导致的?还是逐渐增长的结果?增常速度是多少?(1 GB分区上9%的可用磁盘空间与1 TB磁盘上9%的可用磁盘空间完全不同)你可以忽略或静音这类通知嘛?还是需要立即采取行动?如果没有其他上下文,采取的行动就会受到限制,你需要投入相当多的时间来收集上下文。

在我们的框架中,将重点关注以下内容:

使通知清晰、准确、可操作。使用由人而不是计算机编写的通知在清晰度和实用性方面有显著差异

为通知添加上下文。通知应包含组件的其他相关信息

仅发送有意义的通知

提示: 在这里给出的最简单的建议是记住:通知是供人而不是计算机阅读的,请用心地设计它们。Datadog团队也发布了一篇关于可视化时间序列数据的文章,同样值得一读。

在本章中,我们介绍了现代监控方法,列举了几种监控实现的细节。我们讨论了监控的最佳实践和反模式,以及如何避免反模式的设计。

我们还详细地介绍了时间序列数据和指标,细分并讲解了不同的指标类型。此外,本章还演示了一些应用在指标上的常见数学函数和聚合操作。

三 小结

在本文中,我们介绍了现代监控方法,列举了几种监控实现的细节。我们讨论了监控的最佳实践和反模式,以及如何避免反模式的设计。

以上内容摘自《Prometheus监控实战》一书,经出版方授权发布。

文章来源:微信公众号Linux云计算网络

相关实践学习
容器服务Serverless版ACK Serverless 快速入门:在线魔方应用部署和监控
通过本实验,您将了解到容器服务Serverless版ACK Serverless 的基本产品能力,即可以实现快速部署一个在线魔方应用,并借助阿里云容器服务成熟的产品生态,实现在线应用的企业级监控,提升应用稳定性。
目录
相关文章
|
存储 Prometheus 监控
【2023】Prometheus-相关知识点(面试点)
【2023】Prometheus-相关知识点(面试点)
1525 0
|
2月前
|
Prometheus 运维 监控
智能运维实战:Prometheus与Grafana的监控与告警体系
【10月更文挑战第26天】Prometheus与Grafana是智能运维中的强大组合,前者是开源的系统监控和警报工具,后者是数据可视化平台。Prometheus具备时间序列数据库、多维数据模型、PromQL查询语言等特性,而Grafana支持多数据源、丰富的可视化选项和告警功能。两者结合可实现实时监控、灵活告警和高度定制化的仪表板,广泛应用于服务器、应用和数据库的监控。
284 3
|
10天前
|
存储 数据采集 Prometheus
Grafana Prometheus Altermanager 监控系统
Grafana、Prometheus 和 Alertmanager 是一套强大的开源监控系统组合。Prometheus 负责数据采集与存储,Alertmanager 处理告警通知,Grafana 提供可视化界面。本文简要介绍了这套系统的安装配置流程,包括各组件的下载、安装、服务配置及开机自启设置,并提供了访问地址和重启命令。适用于希望快速搭建高效监控平台的用户。
80 20
|
7天前
|
Prometheus 监控 Cloud Native
Prometheus+Grafana监控Linux主机
通过本文的步骤,我们成功地在 Linux 主机上使用 Prometheus 和 Grafana 进行了监控配置。具体包括安装 Prometheus 和 Node Exporter,配置 Grafana 数据源,并导入预设的仪表盘来展示监控数据。通过这种方式,可以轻松实现对 Linux 主机的系统指标监控,帮助及时发现和处理潜在问题。
35 7
|
13天前
|
Prometheus 运维 监控
Prometheus+Grafana+NodeExporter:构建出色的Linux监控解决方案,让你的运维更轻松
本文介绍如何使用 Prometheus + Grafana + Node Exporter 搭建 Linux 主机监控系统。Prometheus 负责收集和存储指标数据,Grafana 用于可视化展示,Node Exporter 则采集主机的性能数据。通过 Docker 容器化部署,简化安装配置过程。完成安装后,配置 Prometheus 抓取节点数据,并在 Grafana 中添加数据源及导入仪表盘模板,实现对 Linux 主机的全面监控。整个过程简单易行,帮助运维人员轻松掌握系统状态。
99 3
|
5月前
|
Prometheus 监控 Cloud Native
【监控】prometheus传统环境监控告警常用配置
【监控】prometheus传统环境监控告警常用配置
【监控】prometheus传统环境监控告警常用配置
|
13天前
|
Prometheus 监控 Cloud Native
无痛入门Prometheus:一个强大的开源监控和告警系统,如何快速安装和使用?
Prometheus 是一个完全开源的系统监控和告警工具包,受 Google 内部 BorgMon 系统启发,自2012年由前 Google 工程师在 SoundCloud 开发以来,已被众多公司采用。它拥有活跃的开发者和用户社区,现为独立开源项目,并于2016年加入云原生计算基金会(CNCF)。Prometheus 的主要特点包括多维数据模型、灵活的查询语言 PromQL、不依赖分布式存储、通过 HTTP 拉取时间序列数据等。其架构简单且功能强大,支持多种图形和仪表盘展示模式。安装和使用 Prometheus 非常简便,可以通过 Docker 快速部署,并与 Grafana 等可
97 2
|
2月前
|
存储 Prometheus 监控
监控堆外第三方监控工具Prometheus
监控堆外第三方监控工具Prometheus
53 3
|
2月前
|
存储 Prometheus 运维
在云原生环境中,阿里云ARMS与Prometheus的集成提供了强大的应用实时监控解决方案
在云原生环境中,阿里云ARMS与Prometheus的集成提供了强大的应用实时监控解决方案。该集成结合了ARMS的基础设施监控能力和Prometheus的灵活配置及社区支持,实现了全面、精准的系统状态、性能和错误监控,提升了应用的稳定性和管理效率。通过统一的数据视图和高级查询功能,帮助企业有效应对云原生挑战,促进业务的持续发展。
48 3
|
2月前
|
Prometheus 监控 Cloud Native
在 HBase 集群中,Prometheus 通常监控哪些类型的性能指标?
在 HBase 集群中,Prometheus 监控关注的核心指标包括 Master 和 RegionServer 的进程存在性、RPC 请求数、JVM 内存使用率、磁盘和网络错误、延迟和吞吐量、资源利用率及 JVM 使用信息。通过 Grafana 可视化和告警规则,帮助管理员实时监控集群性能和健康状况。