基于ScheduledSQL实现K8S集群指标预计算

本文涉及的产品
对象存储 OSS,20GB 3个月
日志服务 SLS,月写入数据量 50GB 1个月
对象存储 OSS,恶意文件检测 1000次 1年
简介: 随着云原生的普及,各家公司都通过K8S实现了服务的容器化,极大的简化了开发运维人员的工作,是目前最为常用的基础服务。同时,K8S集群中的各项基础服务能够通过metrics接口导出Prometheus格式的多种指标,方便观察当前系统状态,及时发现问题。用户将K8S集群指标采集到日志服务SLS时序存储之后,可以随时查看系统历史及当前指标,还可以通过SLS内置仪表盘或者Grafana构建监控大盘,方便观察系统情况。但是随着系统规模以及负载成倍增加,复杂的指标查询以及监控大盘的渲染开始变慢,进而影响操作体验。

背景

随着云原生的普及,各家公司都通过K8S实现了服务的容器化,极大的简化了开发运维人员的工作,是目前最为常用的基础服务。同时,K8S集群中的各项基础服务能够通过metrics接口导出Prometheus格式的多种指标,方便观察当前系统状态,及时发现问题。用户将K8S集群指标采集到日志服务SLS时序存储之后,可以随时查看系统历史及当前指标,还可以通过SLS内置仪表盘或者Grafana构建监控大盘,方便观察系统情况。但是随着系统规模以及负载成倍增加,复杂的指标查询以及监控大盘的渲染开始变慢,进而影响操作体验。

指标预聚和

image.png

指标预聚合指在后台定时运行批处理任务,按照一定的规则将多条系统指标合并为一条,减少所需指标计算涉及到的数据量,加快计算结果的产出。因而在观察指标确定的情况下,使用指标预聚合可以很好的解决前面遇到的问题。我们以CPU指标利用率的计算为例:

可以获取到K8S的两项指标:CPU累计使用时长container_cpu_usage_seconds_total以及CPU配额container_spec_cpu_quota。为了计算单位事件内CPU的利用率:

  1. 计算单位时间累计利用率: container_cpu_usage_minutes_total: sum(rate(container_cpu_usage_seconds_total{image!=""}[5m])) by (namespace,pod_name);
  2. 计算单位时间内的总CPU配额:container_spec_cpu_cores: (sum(container_spec_cpu_quota{image!=""}/100000) by (namespace,pod_name));
  3. 计算单位的CPU利用率:container_cpu_usage: container_cpu_usage_minutes_total: container_cpu_usage_minutes_total / container_spec_cpu_cores * 100

整条链路冗长而且速度慢,我们可以通过预先计算container_cpu_usage_minutes_total和container_spec_cpu_cores来加快计算速度。

本文主要介绍第一种方案,可以实现:

  1. 降低分析延迟:预计算多项常用系统指标,加快计算速度;
  2. 优化数据存储:只存储关心的聚合指标,定期清理详细指标;

原理即为使用SLS提供的ScheduledSQL服务,在后台定时运行SQL计算任务,将统计结果存入时序存储。

K8S指标

K8S指标众多,首先需要确定常用的监控指标,得到预聚合计算表达式。本文选取了Prometheus Operator中部分常用指标的计算表达式,更多的指标用户可以根据需求自行构建。

指标名称

说明

cpu_resource_request_percentage

CPU Request水位

mem_resource_request_percentage

Mem Request水位

kubelet_running_pod_percentage

Pod水位

api_service_success_percentage

APIServer请求成功率

CPU Request水位

* | select promql_query_range('(sum(kube_pod_container_resource_requests_cpu_cores))/(sum(kube_node_status_allocatable_cpu_cores)) * 100') from metrics limit 1000

Mem Request水位

* | select promql_query_range('(sum(kube_pod_container_resource_requests_memory_bytes))/(sum(kube_node_status_allocatable_memory_bytes)) * 100') from metrics limit 1000

Pod水位

* | select promql_query_range('(sum(kubelet_running_pod_count)-33)/(sum(kube_node_status_allocatable_pods)-330) * 100') from metrics limit 1000

APIServer请求成功率

* | select promql_query_range('sum(irate(apiserver_request_count{job="apiserver", code=~"20.*"}[5m]))/sum(irate(apiserver_request_count{job="apiserver"}[5m]))') from metrics limit 1000

ScheduledSQL实践

计算配置

资源池有免费(Project 级别 15 并行度)、增强型(收费,但资源可扩展,适用于大量计算且有 SLA 要求的业务场景)两种,按照你的需求来设置即可。

写入模式

写入模式有三种选择,当源为日志库时,可以选择日志库导入日志库以及日志库导入时序库;当源为时序库时,可以选择时序库导入时序库。因为K8S指标为时序库,计算结果为时序数据,所以此处选择时序库导入时序库。

结果指标名

指定计算结果的指标名称,默认选择metric列的值作为指标名称。此处需要注意,如果metric列的结果包含多种不同的指标名称,将会全部重命名为此处配置的指标名称。因为该例子中的指标名称为null,所以配置为cpu_resource_requests。

哈希列

如果时序库中同一label的数据写入到固定的hard中,可以增强局部性,提升查询效率。因此可以选择常用的过滤标签,作为哈系列,使给定标签相同的指标存入同一shard中。此处留空。

附加labels

为计算结果添加额外的属性,方便后续查询,此处留空。

调度配置

设置 SQL 每 5 分钟执行一次,每次执行处理最近 5 分钟窗口的数据。

注意:

1. 设置延迟执行参数,上游时序库的数据到来可能延迟,建议设置大一些的值做等待来保证计算数据的完整性。

2. SQL运行超过指定次数或指定时间后,这一次的SQL实例会失败并继续下一个实例的调度。

任务管理

在SLS控制台可以查看之前创建的ScheduledSQL作业。

在作业管理页面内,可以查看到每一次执行的实例列表。

每个实例信息中有 SQL 查询区间,如果任务失败(权限、SQL 语法等原因)或 SQL 处理行数指标为 0(数据迟到或确实没有数据),可以对指定实例做重试运行(失败告警功能开发中)。

效果

计算完成之后,可以在时序库中查询结果指标。

CPU Request水位

API Server请求成功率

总结

通过SLS提供的ScheduledSQL功能,用户可以轻松聚合时序数据,存入到SLS的时序库中,满足用户监测系统指标的需求。

相关实践学习
通过Ingress进行灰度发布
本场景您将运行一个简单的应用,部署一个新的应用用于新的发布,并通过Ingress能力实现灰度发布。
容器应用与集群管理
欢迎来到《容器应用与集群管理》课程,本课程是“云原生容器Clouder认证“系列中的第二阶段。课程将向您介绍与容器集群相关的概念和技术,这些概念和技术可以帮助您了解阿里云容器服务ACK/ACK Serverless的使用。同时,本课程也会向您介绍可以采取的工具、方法和可操作步骤,以帮助您了解如何基于容器服务ACK Serverless构建和管理企业级应用。 学习完本课程后,您将能够: 掌握容器集群、容器编排的基本概念 掌握Kubernetes的基础概念及核心思想 掌握阿里云容器服务ACK/ACK Serverless概念及使用方法 基于容器服务ACK Serverless搭建和管理企业级网站应用
相关文章
|
3天前
|
存储 Kubernetes 关系型数据库
阿里云ACK备份中心,K8s集群业务应用数据的一站式灾备方案
阿里云ACK备份中心,K8s集群业务应用数据的一站式灾备方案
|
1月前
|
存储 Kubernetes 负载均衡
CentOS 7.9二进制部署K8S 1.28.3+集群实战
本文详细介绍了在CentOS 7.9上通过二进制方式部署Kubernetes 1.28.3+集群的全过程,包括环境准备、组件安装、证书生成、高可用配置以及网络插件部署等关键步骤。
180 3
CentOS 7.9二进制部署K8S 1.28.3+集群实战
|
1月前
|
Kubernetes 负载均衡 前端开发
二进制部署Kubernetes 1.23.15版本高可用集群实战
使用二进制文件部署Kubernetes 1.23.15版本高可用集群的详细教程,涵盖了从环境准备到网络插件部署的完整流程。
52 2
二进制部署Kubernetes 1.23.15版本高可用集群实战
|
1月前
|
存储 Kubernetes 测试技术
k8s使用pvc,pv,sc关联ceph集群
文章介绍了如何在Kubernetes中使用PersistentVolumeClaim (PVC)、PersistentVolume (PV) 和StorageClass (SC) 来关联Ceph集群,包括创建Ceph镜像、配置访问密钥、删除默认存储类、编写和应用资源清单、创建资源以及进行访问测试的步骤。同时,还提供了如何使用RBD动态存储类来关联Ceph集群的指南。
48 7
|
1月前
|
存储 Kubernetes 数据安全/隐私保护
k8s对接ceph集群的分布式文件系统CephFS
文章介绍了如何在Kubernetes集群中使用CephFS作为持久化存储,包括通过secretFile和secretRef两种方式进行认证和配置。
32 5
|
1月前
|
Kubernetes 负载均衡 应用服务中间件
kubeadm快速构建K8S1.28.1高可用集群
关于如何使用kubeadm快速构建Kubernetes 1.28.1高可用集群的详细教程。
49 2
|
1月前
|
Kubernetes Linux API
CentOS 7.6使用kubeadm部署k8s 1.17.2测试集群实战篇
该博客文章详细介绍了在CentOS 7.6操作系统上使用kubeadm工具部署kubernetes 1.17.2版本的测试集群的过程,包括主机环境准备、安装Docker、配置kubelet、初始化集群、添加节点、部署网络插件以及配置k8s node节点管理api server服务器。
62 0
CentOS 7.6使用kubeadm部署k8s 1.17.2测试集群实战篇
|
2月前
|
API UED 开发者
超实用技巧大放送:彻底革新你的WinForms应用,从流畅动画到丝滑交互设计,全面解析如何在保证性能的同时大幅提升用户体验,让软件操作变得赏心悦目不再是梦!
【8月更文挑战第31天】在Windows平台上,使用WinForms框架开发应用程序时,如何在保持性能的同时提升用户界面的吸引力和响应性是一个常见挑战。本文探讨了在不牺牲性能的前提下实现流畅动画与交互设计的最佳实践,包括使用BackgroundWorker处理耗时任务、利用Timer控件创建简单动画,以及使用Graphics类绘制自定义图形。通过具体示例代码展示了这些技术的应用,帮助开发者显著改善用户体验,使应用程序更加吸引人和易于使用。
62 0
|
2月前
|
运维 Kubernetes Cloud Native
探索云原生:Kubernetes集群的部署与管理
【8月更文挑战第31天】 本文将带领读者深入了解云原生技术,特别是以Kubernetes为核心的集群部署和管理。文章不仅介绍了Kubernetes的基础概念和架构,还通过实际的代码示例展示了如何在云平台上搭建一个Kubernetes集群。我们将从基础的安装步骤到高级的服务部署,一步步揭示如何利用Kubernetes来简化容器化应用的管理与扩展。无论你是云原生新手还是希望提升现有技能的开发者,这篇文章都将成为你实践云原生技术的宝贵指南。
|
2月前
|
Kubernetes Cloud Native 应用服务中间件
云原生之旅:构建你的首个Kubernetes集群
【8月更文挑战第31天】在这个数字化迅速演进的时代,云原生技术如同星辰般璀璨。它不仅是企业数字化转型的引擎,更是开发者们探索创新的乐园。本文将带你开启一场云原生的奇妙旅程,从零开始,一步步构建属于你自己的Kubernetes集群。想象一下,当你的应用在云端自如地伸缩、滚动更新时,那份成就感和掌控感,是不是已经让你跃跃欲试了呢?那就让我们开始吧!

热门文章

最新文章

下一篇
无影云桌面