Kubernetes监控实践(2):可行监控方案之Prometheus和Sensu

本文涉及的产品
可观测监控 Prometheus 版,每月50GB免费额度
简介: 本文介绍两个可行的K8s监控方案:Prometheus和Sensu。两个方案都能全面提供系统级的监控数据,帮助开发人员跟踪K8s关键组件的性能、定位故障、接收预警。

本文介绍两个可行的K8s监控方案:Prometheus和Sensu。两个方案都能全面提供系统级的监控数据,帮助开发人员跟踪K8s关键组件的性能、定位故障、接收预警。

拓展阅读:Kubernetes监控实践(1):K8s的工作原理与监控实践

一、K8s监控之Prometheus

1.1 简介

Prometheus是针对容器和微服务的开源监控预警工具,功能稳健,适用于开发流程中的云端管理员和开发人员等各个相关方。Prometheus定时聚合配置对象中的指标数据,评估规则表达式,展示结果,发送预警。

Prometheus不仅能够监控预定义指标,还能实现多维数据模型,进行深度分析,并针对多个指标建立关联,从多个角度为开发人员和管理员提供数据支持。

1.2 工作原理

Prometheus是K8s环境的附加层。首次安装时应定义数据采集参数和数据采集时间间隔。Prometheus既能实时监控K8s节点,也能对监控数据进行定时分析。Prometheus也可以针对节点失效等故障发送预警。

1.3 Prometheus Operator

很多用户会混淆controller和operator。K8s Operator是指Controller向K8s API中添加新的对象、配置管理Prometheus等应用的模式。简而言之,operator是针对特定领域的controller。

PrometheusOperator简化了Prometheus在K8s中的运行,不需要改变K8s的配置。使用Prometheus Operator可以轻松监控K8s的服务。可以通过预定义的.yml文件运行Prometheus。Prometheus Operator能够创建、配置并管理K8s上的所有监控实例。部署新应用时,K8s会创建新的pod(容器)。创建完毕后,原有pod会被销毁。Prometheus持续监控API,如发现不一致,则基于服务或pod变化创建新的Prometheus配置。

1.4 核心组件

作为一款稳健的监控工具,Prometheus从服务上拉取数据,不需要服务主动推送数据。不过Prometheus提供推送入口,但无法拉取数据时可以接受服务推送上来的数据。

此外,Prometheus支持将时间序列与指标名称和键值对关联起来,简化了对多云端的监控。Prometheus不仅监控应用全局,还能钻取到微服务层面。用户可通过查询功能管理数据,了解应用状况;也可以使用PromQL创建图表和表格,实现数据可视化,并根据具体参数生成预警。

Prometheus的Web控制台展示了所有功能和工具。用户可通过正则表达式和高级PromQL检索条件创建数据集和预警。Prometheus还支持外网访问。

1.5 优势

Prometheus最大的优势在于简单灵活,可以实现监控的多维数据模型。用户可以轻松搭建容器集群的监控框架,还可以结合Grafana,进一步提高监控数据的可视化水平。

Prometheus可以通过K8s的本地服务发现配置采集node、pod和服务指标。用户可直接定义表达式,创建预警,不需要在不同的监控系统中来回切换。

Prometheus的抓取能力能够集成到K8s、Docker和StatsD等工具中。用户还可以通过Web GUI配置预警、管理图表。

不过Prometheus也存在不足:数据模型受限。Prometheus默认的时序数据采集模型有利有弊:一方面,这种模型有助于按照标准格式采集数据;另一方面,标准化数据格式导致数据模型受限。Prometheus通过discovery机制与K8s保持通信,因此存在延迟。

二、K8s监控之Sensu

2.1 简介

Sensu是多云端容器基础设施监控工具。Sensu agent是跨平台事件生成器,用户可通过执行service check监控系统和服务的健康状况,同时采集分析metrics,不仅提供预警或事件管理功能、监控API、客户端库以及多脚本或编程语言插件,还支持自定义工作流,丰富了Sensu能力。

Prometheus通过拉取的方式主动抓取数据,而Sensu则采用消息总线的通信机制,通过发布/订阅(Pub/Sub)的方式推送或拉取数据。

2.2 工作原理

Sensu使用本地插件从StatsD库、Prometheus exporter、Nagios插件、SNMP陷阱等主流程序中采集数据。不同于Prometheus等其他监控工具,Sensu开箱即用,支持多云端环境,用户配置框架后即可提供高可用性。

Sensu提供event filter、mutator和operator handler,支持创建并自动化模型工作量。这样,外部监控工具的数据便可与Sensu的监控数据整合,形成基于事件的监控路径。

2.3 核心组件

Sensu针对K8s容器优化了自动发现能力。用户可针对K8s和Docker等容器环境轻松配置监控check和collector,也可以针对K8s所有组件和运行在K8s上的应用配置多个check。

Sensu也支持本地集成和插件,可以与日志工具和Prometheus同时使用。用户可同时运行Sensu和Prometheus,处理不同的数据集。Sensu可以采集StatsD metrics,并将采集结果写入Prometheus。

Sensu还能在K8s环境中运行。假设一开始将Sensu部署在某个容器中,后来决定将整个应用迁移到其他容器环境中。迁移完成后,Sensu agent依然能够在新的环境中正常运行,也能被Sensu发现,因为Sensu具备自动发现机制。

2.4 在K8s中的应用

Sensu可扩展性强,可随着部署应用和云环境的增加不断扩展,提供具体的功能监控服务。Sensu监控对象的数量没有上限,也不会因为监控对象的增加变得更加复杂。

三、K8s监控之Sensu+Prometheus

同时运行Sensu和Prometheus能够提高监控的可见性,实现各自功能的优势互补。

3.1 工作原理

SensuPrometheus Collector是Sensu Check插件,聚合从Prometheus exporter或Prometheus query API抓取的数据。采集的数据以Influx(默认)、Graphite、JSON格式存储在STDOUT中。

SensuPrometheus Collector集成了Sensu的工作量自动化能力和Prometheus的数据抓取能力。用户可根据需求自行设计实现代码和预警接收时间。Sensu还可以将采集到的metrics数据存储到InfluxDB、Graphite和Prometheus等外部时序数据集中。

3.2 安装Sensu PrometheusCollector

用户可以通过Sensu的资产索引库Bonsai发现、下载、共享资产。点击Bonsai信息页面的下载按钮,下载Sensu后端平台和架构的资产定义。收到check、filter、mutator或handler请求时,Sensu会根据资产定义下载验证资产。

下载资产定义后,可以通过Sensu的资源管理命令行工具sensuctl进行资产注册,然后创建监控工作流。

下方是Prometheus collector的资产定义及相应的Linux sensuctl命令:

下方为Prometheus Collector的check实例:

3.3 优势

同时运行Sensu和Prometheus具有下列优势:

  • 既能监控K8s集群的健康状况又能动态监控周边基础设施的健康状况,并采集相关指标。
  • 既能实现问题自动发现,又能通过自动化工作流简化监控流程。
  • 同时运行Prometheus和Sensu能够获得更多上下文信息,实现更细粒度的数据抓取分析。
  • Sensu采用标准通信密码,可通过单个agent安全采集传输数据。
  • 便于管理配置监控设置。
  • 能够监控整个基础设施。

四、结论

Sensu能够监控整个基础设施,且定制化水平高,上下文更丰富。Prometheus模型稳健,能够实现深度数据钻取;Sensu则采用行业标准技术和格式(如Nagios和StatsD),监控整个基础设施。Sensu能够与Prometheus相互补充,提供更加丰富的上下文信息。

随着我们对软件依赖程度的加深,软件的可用性和故障修复时间对企业的存活非常重要。因此,只有充分了解系统才能克服这些挑战,基础设施和应用监控正是关键的一环。要想充分利用K8s的能力,必须实施统一的监控解决方案,实现新老技术的有效衔接。

本篇为译文,原文作者:STEFAN THORPE

原文链接:https://dzone.com/refcardz/monitoring-kubernetes

译文首发于UAVStack智能运维

相关实践学习
深入解析Docker容器化技术
Docker是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的Linux机器上,也可以实现虚拟化,容器是完全使用沙箱机制,相互之间不会有任何接口。Docker是世界领先的软件容器平台。开发人员利用Docker可以消除协作编码时“在我的机器上可正常工作”的问题。运维人员利用Docker可以在隔离容器中并行运行和管理应用,获得更好的计算密度。企业利用Docker可以构建敏捷的软件交付管道,以更快的速度、更高的安全性和可靠的信誉为Linux和Windows Server应用发布新功能。 在本套课程中,我们将全面的讲解Docker技术栈,从环境安装到容器、镜像操作以及生产环境如何部署开发的微服务应用。本课程由黑马程序员提供。     相关的阿里云产品:容器服务 ACK 容器服务 Kubernetes 版(简称 ACK)提供高性能可伸缩的容器应用管理能力,支持企业级容器化应用的全生命周期管理。整合阿里云虚拟化、存储、网络和安全能力,打造云端最佳容器化应用运行环境。 了解产品详情: https://www.aliyun.com/product/kubernetes
相关文章
|
7月前
|
存储 负载均衡 测试技术
ACK Gateway with Inference Extension:优化多机分布式大模型推理服务实践
本文介绍了如何利用阿里云容器服务ACK推出的ACK Gateway with Inference Extension组件,在Kubernetes环境中为多机分布式部署的LLM推理服务提供智能路由和负载均衡能力。文章以部署和优化QwQ-32B模型为例,详细展示了从环境准备到性能测试的完整实践过程。
|
8月前
|
Prometheus Kubernetes 监控
Kubernetes监控:Prometheus与AlertManager结合,配置邮件告警。
完成这些步骤之后,您就拥有了一个可以用邮件通知你的Kubernetes监控解决方案了。当然,所有的这些配置都需要相互照应,还要对你的Kubernetes集群状况有深入的了解。希望这份指南能帮助你创建出适合自己场景的监控系统,让你在首次发现问题时就能做出响应。
456 22
|
8月前
|
存储 人工智能 Kubernetes
ACK Gateway with AI Extension:面向Kubernetes大模型推理的智能路由实践
本文介绍了如何利用阿里云容器服务ACK推出的ACK Gateway with AI Extension组件,在Kubernetes环境中为大语言模型(LLM)推理服务提供智能路由和负载均衡能力。文章以部署和优化QwQ-32B模型为例,详细展示了从环境准备到性能测试的完整实践过程。
|
8月前
|
存储 人工智能 物联网
ACK Gateway with AI Extension:大模型推理的模型灰度实践
本文介绍了如何使用 ACK Gateway with AI Extension 组件在云原生环境中实现大语言模型(LLM)推理服务的灰度发布和流量分发。该组件专为 LLM 推理场景设计,支持四层/七层流量路由,并提供基于模型服务器负载感知的智能负载均衡能力。通过自定义资源(CRD),如 InferencePool 和 InferenceModel,可以灵活配置推理服务的流量策略,包括模型灰度发布和流量镜像。
|
9月前
|
Kubernetes 监控 Serverless
基于阿里云Serverless Kubernetes(ASK)的无服务器架构设计与实践
无服务器架构(Serverless Architecture)在云原生技术中备受关注,开发者只需专注于业务逻辑,无需管理服务器。阿里云Serverless Kubernetes(ASK)是基于Kubernetes的托管服务,提供极致弹性和按需付费能力。本文深入探讨如何使用ASK设计和实现无服务器架构,涵盖事件驱动、自动扩展、无状态设计、监控与日志及成本优化等方面,并通过图片处理服务案例展示具体实践,帮助构建高效可靠的无服务器应用。
|
9月前
|
Kubernetes 持续交付 开发工具
阿里云协同万兴科技落地ACK One GitOps方案,全球多机房应用自动化发布,效率提升50%
阿里云协同万兴科技落地ACK One GitOps方案,全球多机房应用自动化发布,效率提升50%
336 2
|
9月前
|
监控 Kubernetes Cloud Native
基于阿里云容器服务Kubernetes版(ACK)的微服务架构设计与实践
本文介绍了如何基于阿里云容器服务Kubernetes版(ACK)设计和实现微服务架构。首先概述了微服务架构的优势与挑战,如模块化、可扩展性及技术多样性。接着详细描述了ACK的核心功能,包括集群管理、应用管理、网络与安全、监控与日志等。在设计基于ACK的微服务架构时,需考虑服务拆分、通信、发现与负载均衡、配置管理、监控与日志以及CI/CD等方面。通过一个电商应用案例,展示了用户服务、商品服务、订单服务和支付服务的具体部署步骤。最后总结了ACK为微服务架构提供的强大支持,帮助应对各种挑战,构建高效可靠的云原生应用。
|
9月前
|
Kubernetes 持续交付 开发工具
阿里云协同万兴科技落地ACK One GitOps方案,全球多机房应用自动化发布,效率提升50%
阿里云协同万兴科技落地ACK One GitOps方案,全球多机房应用自动化发布,效率提升50%
|
9月前
|
监控 Cloud Native Java
基于阿里云容器服务(ACK)的微服务架构设计与实践
本文介绍如何利用阿里云容器服务Kubernetes版(ACK)构建高可用、可扩展的微服务架构。通过电商平台案例,展示基于Java(Spring Boot)、Docker、Nacos等技术的开发、容器化、部署流程,涵盖服务注册、API网关、监控日志及性能优化实践,帮助企业实现云原生转型。
|
5月前
|
Prometheus 监控 Cloud Native
云原生监控实战:Prometheus+Grafana快速搭建指南
云原生监控实战:Prometheus+Grafana快速搭建指南

推荐镜像

更多