干货|EasyMR 基于 Kubernetes 应用的监控实践

本文涉及的产品
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云数据库 RDS MySQL,高可用系列 2核4GB
简介: 在云原生时代,Promtheus+Grafana 的组合已经成为了可观测性工具中不可或缺的一部分。在本文中,我们将详细探讨在大数据计算引擎 EasyMR 中如何动态采集 Kubernetes 应用监控数据。

在之前的内容中,我们深入探讨了 EasyMR 如何利用 Kubernetes 进行部署。大家已经了解到,在 EasyMR 的整体架构中,我们使用 Prometheus 进行节点和服务监控数据的采集、查询和存储。同时,Grafana 作为强大的可视化工具,将 Prometheus 中的监控数据以多样化的方式展示出来。


在本文中,我们将详细探讨在 EasyMR 中如何动态采集 Kubernetes 应用监控数据。


传统采集方案的痛点

在主机模式下,EasyMR 使用 Prometheus 监控的配置主要依赖于 static_configs 和 file_sd_configs。因为在这种部署方案下,节点与应用的稳定性较高,涉及到的变更与不确定性较小,除非出现节点宕机这样的极端情况,我们才需要手动去修改对应采集 Job 配置。


但是在云原生时代的背景下,监控作为可观察性实践中的关键部分,相对于传统架构下的系统和应用监控发生了一些重大的变化:

· 微服务和应用容器化导致监控对象和指标的指数级增加

· 监控对象的生命周期更加短暂,导致监控数据量和复杂度成倍增加


通俗来说,就是我们的 Kubernetes 集群中会有很多 Node/Service/Pod 等资源,这些资源会随着需求规模的变化而动态变化,同一个应用 Pod 的 IP、名称也会随着应用的重启、滚动更新而发生改变。


所以当 Kubernetes 资源创建或者更新时,如果一个个去修改 Prometheus 中的 Job 任务会是一个非常庞大的工作量,因为你无法判断 Pod 重启的时间(Kubernetes 有自己的 scheduler,可能 Pod 当前所在主机 CPU/内存/磁盘压力过大,可能 Pod 达到设置资源限制等等,这些都会导致 Pod 的重新调度)。在这个背景下,我们就需要 Prometheus 拥有服务自动发现的功能。


Prometheus 服务自动发现

对于上述无法使用静态采集配置static_configs 和 file_sd_configs 的场景,Prometheus 自身提供了一个解决方案:引入一个服务注册中心。这个注册中心掌握着当前所有监控目标的访问信息,Prometheus 只需要向它询问有哪些监控目标即可。Prometheus 查询到需要监控的 Target 列表,然后轮训这些 Target 获取监控数据。


Prometheus 支持多种服务发现机制:文件、DNS、Consul、Kubernetes、OpenStack、EC2 等,本文以 Kubernetes 服务发现机制为例详细讨论。


在 Kubernetes 下,Prometheus 通过与 Kubernetes API 集成主要支持5种服务发现模式:Node、Service、Pod、Endpoints、Ingress。


不同的服务发现模式适用于不同的场景,例如:Node 适用于与主机相关的监控资源,如节点中运行的 Kubernetes 组件状态、节点上运行的容器状态等;Service 和 Ingress 适用于通过黑盒监控的场景,如对服务的可用性以及服务质量的监控;Endpoints 和 Pod 均可用于获取 Pod 实例的监控数据,如监控用户或者管理员部署的支持 Prometheus 的应用。


EasyMR 对 K8S 应用的监控实践

Prometheus 使用 pull 模式来获取指标,所以对需要监控的目标应用来说需要暴露/metrics 接口。接下来我们从部署 Prometheus 的步骤开始,以采集 MySQL 的监控信息来具体描述 EasyMR 是如何运用 Prometheus 的服务发现机制的。


创建 Prometheus 配置文件

Prometheus 自动发现的核心之处在于 relabel_configs 的相关配置,首先是通过 source_labels 配置以 _meta 开头的这些元数据标签,声明要匹配的资源,然后通过 regex 匹配规则找到相关的资源对象,最后再对采集过来的指标做二次处理,比如保留、过来、替换等操作。


创建 ServiceAccount/Role/RoleBinding

由于 Prometheus 是需要访问 Kubernetes 资源的,而且 Kubernetes 有详细的 RBAC 权限控制机制,所以在部署 Prometheus 之前需要创建对应的账号,并为该账号赋予对应接口的权限。出于安全考虑,EasyMR 只需要获取对应 namespace 的权限,所以我们不需要全局的 ClusterRole 权限。


创建 Prometheus Deployment

由于 Prometheus 是需要存储数据的,所以事先需要创建对应 PV,官方建议使用 localpv,这里不做描述。在 Deployment 的配置文件中我们只需指定 PVC 名称即可,这里把关键配置展示出来。


部署 MySQL Statefulset、MySQL Exporter、MySQL Service

由于同一个 Pod 是共享网络跟存储的,所以在部署架构中我们将 MySQL Exporter 作为一个单独的 Container 与 MySQL 的 Container 部署在同一个 Pod 中,只需要将 MySQL Exporter 的监控端口暴露给 Prometheus 的注册中心即可,部分重要配置如下:


● MySQL Statefulset


● MySQL Service

在 Service 配置的 annotations 下添加两个配置:

· prometheus.io/port: 9104

· prometheus.io/scrpae: true


查看 Prometheus Targets 配置

能看到 Prometheus 已经动态发现了部署上去的 MySQL 服务暴露的监控数据,状态是 UP,无需手动干预。


查看 EasyMR Grafana 仪表盘

经过上述操作,我们可以很轻松地在 EasyMR 页面上看到丰富的 MySQL 监控信息,其余的服务也可以通过类似的步骤完成。


结语

在云原生时代,Promtheus+Grafana 的组合已经成为了可观测性工具中不可或缺的一部分,但是怎么将它们的作用最大化还是需要大家深度去探索。未来 EasyMR 还会在可观测性的其他领域(logging、tracing)做出自己的探索。


《数据治理行业实践白皮书》下载地址:https://www.dtstack.com/resources/1001?src=szsm

《数栈V6.0产品白皮书》下载地址:https://www.dtstack.com/resources/1004?src=szsm

想了解或咨询更多有关大数据产品、行业解决方案、客户案例的朋友,浏览袋鼠云官网:https://www.dtstack.com/?src=szalykfz

相关实践学习
通过Ingress进行灰度发布
本场景您将运行一个简单的应用,部署一个新的应用用于新的发布,并通过Ingress能力实现灰度发布。
容器应用与集群管理
欢迎来到《容器应用与集群管理》课程,本课程是“云原生容器Clouder认证“系列中的第二阶段。课程将向您介绍与容器集群相关的概念和技术,这些概念和技术可以帮助您了解阿里云容器服务ACK/ACK Serverless的使用。同时,本课程也会向您介绍可以采取的工具、方法和可操作步骤,以帮助您了解如何基于容器服务ACK Serverless构建和管理企业级应用。 学习完本课程后,您将能够: 掌握容器集群、容器编排的基本概念 掌握Kubernetes的基础概念及核心思想 掌握阿里云容器服务ACK/ACK Serverless概念及使用方法 基于容器服务ACK Serverless搭建和管理企业级网站应用
目录
相关文章
|
23天前
|
人工智能 运维 监控
阿里云ACK容器服务生产级可观测体系建设实践
本文整理自2024云栖大会冯诗淳(花名:行疾)的演讲,介绍了阿里云容器服务团队在生产级可观测体系建设方面的实践。冯诗淳详细阐述了容器化架构带来的挑战及解决方案,强调了可观测性对于构建稳健运维体系的重要性。文中提到,阿里云作为亚洲唯一蝉联全球领导者的容器管理平台,其可观测能力在多项关键评测中表现优异,支持AI、容器网络、存储等多个场景的高级容器可观测能力。此外,还介绍了阿里云容器服务在多云管理、成本优化等方面的最新进展,以及即将推出的ACK AI助手2.0,旨在通过智能引擎和专家诊断经验,简化异常数据查找,缩短故障响应时间。
阿里云ACK容器服务生产级可观测体系建设实践
|
24天前
|
人工智能 Kubernetes 安全
赋能加速AI应用交付,F5 BIG-IP Next for Kubernetes方案解读
赋能加速AI应用交付,F5 BIG-IP Next for Kubernetes方案解读
59 13
|
23天前
|
运维 Kubernetes 调度
阿里云容器服务 ACK One 分布式云容器企业落地实践
阿里云容器服务ACK提供强大的产品能力,支持弹性、调度、可观测、成本治理和安全合规。针对拥有IDC或三方资源的企业,ACK One分布式云容器平台能够有效解决资源管理、多云多集群管理及边缘计算等挑战,实现云上云下统一管理,提升业务效率与稳定性。
|
23天前
|
存储 Kubernetes 关系型数据库
阿里云ACK备份中心,K8s集群业务应用数据的一站式灾备方案
本文源自2024云栖大会苏雅诗的演讲,探讨了K8s集群业务为何需要灾备及其重要性。文中强调了集群与业务高可用配置对稳定性的重要性,并指出人为误操作等风险,建议实施周期性和特定情况下的灾备措施。针对容器化业务,提出了灾备的新特性与需求,包括工作负载为核心、云资源信息的备份,以及有状态应用的数据保护。介绍了ACK推出的备份中心解决方案,支持命名空间、标签、资源类型等维度的备份,并具备存储卷数据保护功能,能够满足GitOps流程企业的特定需求。此外,还详细描述了备份中心的使用流程、控制台展示、灾备难点及解决方案等内容,展示了备份中心如何有效应对K8s集群资源和存储卷数据的灾备挑战。
|
2月前
|
Kubernetes Cloud Native 微服务
云原生入门与实践:Kubernetes的简易部署
云原生技术正改变着现代应用的开发和部署方式。本文将引导你了解云原生的基础概念,并重点介绍如何使用Kubernetes进行容器编排。我们将通过一个简易的示例来展示如何快速启动一个Kubernetes集群,并在其上运行一个简单的应用。无论你是云原生新手还是希望扩展现有知识,本文都将为你提供实用的信息和启发性的见解。
|
2月前
|
存储 运维 Kubernetes
K8s业务迁移最佳实践: 灵活管理资源备份与调整策略,实现高效简便的应用恢复
在当今快速变化的云原生领域,Kubernetes(K8s)集群的运维面临着诸多挑战,其中灾备与业务迁移尤为关键。ACK备份中心支持丰富的资源调整策略,在数据恢复阶段即可自动适配目标集群环境,确保业务无缝重启。
|
2月前
|
Kubernetes 持续交付 开发者
探索并实践Kubernetes集群管理与自动化部署
探索并实践Kubernetes集群管理与自动化部署
58 1
|
2月前
|
Kubernetes 监控 Cloud Native
Kubernetes集群的高可用性与伸缩性实践
Kubernetes集群的高可用性与伸缩性实践
78 1
|
2月前
|
Kubernetes 监控 安全
容器化技术:Docker与Kubernetes的实战应用
容器化技术:Docker与Kubernetes的实战应用
|
2月前
|
Java Docker 微服务
利用Docker容器化部署Spring Boot应用
利用Docker容器化部署Spring Boot应用
54 0

热门文章

最新文章