基于ScheduledSQL实现K8S集群指标预计算-阿里云开发者社区

开发者社区> 1704048249035724> 正文

基于ScheduledSQL实现K8S集群指标预计算

简介: 随着云原生的普及,各家公司都通过K8S实现了服务的容器化,极大的简化了开发运维人员的工作,是目前最为常用的基础服务。同时,K8S集群中的各项基础服务能够通过metrics接口导出Prometheus格式的多种指标,方便观察当前系统状态,及时发现问题。用户将K8S集群指标采集到日志服务SLS时序存储之后,可以随时查看系统历史及当前指标,还可以通过SLS内置仪表盘或者Grafana构建监控大盘,方便观察系统情况。但是随着系统规模以及负载成倍增加,复杂的指标查询以及监控大盘的渲染开始变慢,进而影响操作体验。
+关注继续查看

背景

随着云原生的普及,各家公司都通过K8S实现了服务的容器化,极大的简化了开发运维人员的工作,是目前最为常用的基础服务。同时,K8S集群中的各项基础服务能够通过metrics接口导出Prometheus格式的多种指标,方便观察当前系统状态,及时发现问题。用户将K8S集群指标采集到日志服务SLS时序存储之后,可以随时查看系统历史及当前指标,还可以通过SLS内置仪表盘或者Grafana构建监控大盘,方便观察系统情况。但是随着系统规模以及负载成倍增加,复杂的指标查询以及监控大盘的渲染开始变慢,进而影响操作体验。

指标预聚和

image.png

指标预聚合指在后台定时运行批处理任务,按照一定的规则将多条系统指标合并为一条,减少所需指标计算涉及到的数据量,加快计算结果的产出。因而在观察指标确定的情况下,使用指标预聚合可以很好的解决前面遇到的问题。我们以CPU指标利用率的计算为例:

image

可以获取到K8S的两项指标:CPU累计使用时长container_cpu_usage_seconds_total以及CPU配额container_spec_cpu_quota。为了计算单位事件内CPU的利用率:

  1. 计算单位时间累计利用率: container_cpu_usage_minutes_total: sum(rate(container_cpu_usage_seconds_total{image!=""}[5m])) by (namespace,pod_name);
  2. 计算单位时间内的总CPU配额:container_spec_cpu_cores: (sum(container_spec_cpu_quota{image!=""}/100000) by (namespace,pod_name));
  3. 计算单位的CPU利用率:container_cpu_usage: container_cpu_usage_minutes_total: container_cpu_usage_minutes_total / container_spec_cpu_cores * 100

整条链路冗长而且速度慢,我们可以通过预先计算container_cpu_usage_minutes_total和container_spec_cpu_cores来加快计算速度。

本文主要介绍第一种方案,可以实现:

  1. 降低分析延迟:预计算多项常用系统指标,加快计算速度;
  2. 优化数据存储:只存储关心的聚合指标,定期清理详细指标;

原理即为使用SLS提供的ScheduledSQL服务,在后台定时运行SQL计算任务,将统计结果存入时序存储。

K8S指标

K8S指标众多,首先需要确定常用的监控指标,得到预聚合计算表达式。本文选取了Prometheus Operator中部分常用指标的计算表达式,更多的指标用户可以根据需求自行构建。

指标名称

说明

cpu_resource_request_percentage

CPU Request水位

mem_resource_request_percentage

Mem Request水位

kubelet_running_pod_percentage

Pod水位

api_service_success_percentage

APIServer请求成功率

CPU Request水位

* | select promql_query_range('(sum(kube_pod_container_resource_requests_cpu_cores))/(sum(kube_node_status_allocatable_cpu_cores)) * 100') from metrics limit 1000

Mem Request水位

* | select promql_query_range('(sum(kube_pod_container_resource_requests_memory_bytes))/(sum(kube_node_status_allocatable_memory_bytes)) * 100') from metrics limit 1000

Pod水位

* | select promql_query_range('(sum(kubelet_running_pod_count)-33)/(sum(kube_node_status_allocatable_pods)-330) * 100') from metrics limit 1000

APIServer请求成功率

* | select promql_query_range('sum(irate(apiserver_request_count{job="apiserver", code=~"20.*"}[5m]))/sum(irate(apiserver_request_count{job="apiserver"}[5m]))') from metrics limit 1000

ScheduledSQL实践

计算配置

资源池有免费(Project 级别 15 并行度)、增强型(收费,但资源可扩展,适用于大量计算且有 SLA 要求的业务场景)两种,按照你的需求来设置即可。

image

写入模式

写入模式有三种选择,当源为日志库时,可以选择日志库导入日志库以及日志库导入时序库;当源为时序库时,可以选择时序库导入时序库。因为K8S指标为时序库,计算结果为时序数据,所以此处选择时序库导入时序库。

结果指标名

指定计算结果的指标名称,默认选择metric列的值作为指标名称。此处需要注意,如果metric列的结果包含多种不同的指标名称,将会全部重命名为此处配置的指标名称。因为该例子中的指标名称为null,所以配置为cpu_resource_requests。

哈希列

如果时序库中同一label的数据写入到固定的hard中,可以增强局部性,提升查询效率。因此可以选择常用的过滤标签,作为哈系列,使给定标签相同的指标存入同一shard中。此处留空。

附加labels

为计算结果添加额外的属性,方便后续查询,此处留空。

调度配置

设置 SQL 每 5 分钟执行一次,每次执行处理最近 5 分钟窗口的数据。

注意:

1. 设置延迟执行参数,上游时序库的数据到来可能延迟,建议设置大一些的值做等待来保证计算数据的完整性。

2. SQL运行超过指定次数或指定时间后,这一次的SQL实例会失败并继续下一个实例的调度。

image

任务管理

在SLS控制台可以查看之前创建的ScheduledSQL作业。

image

在作业管理页面内,可以查看到每一次执行的实例列表。

image

每个实例信息中有 SQL 查询区间,如果任务失败(权限、SQL 语法等原因)或 SQL 处理行数指标为 0(数据迟到或确实没有数据),可以对指定实例做重试运行(失败告警功能开发中)。

效果

计算完成之后,可以在时序库中查询结果指标。

CPU Request水位

image

API Server请求成功率

image

总结

通过SLS提供的ScheduledSQL功能,用户可以轻松聚合时序数据,存入到SLS的时序库中,满足用户监测系统指标的需求。

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
阿里云服务器怎么设置密码?怎么停机?怎么重启服务器?
如果在创建实例时没有设置密码,或者密码丢失,您可以在控制台上重新设置实例的登录密码。本文仅描述如何在 ECS 管理控制台上修改实例登录密码。
4068 0
进化算法可以不再需要计算集群,开普敦大学的新方法用一块GPU也能刷新MNIST记录
他们实验中只使用了一块GTX1070 GPU,训练时间6到24小时,就可以取得这样的成果,他们觉得非常满意。他们的研究也首次尝试了把神经进化用在一维卷积网络的创造中,用来解决情感分析、包括嵌入层的优化问题。
1297 0
阿里云服务器ECS远程登录用户名密码查询方法
阿里云服务器ECS远程连接登录输入用户名和密码,阿里云没有默认密码,如果购买时没设置需要先重置实例密码,Windows用户名是administrator,Linux账号是root,阿小云来详细说下阿里云服务器远程登录连接用户名和密码查询方法
2854 0
阿里云服务器端口号设置
阿里云服务器初级使用者可能面临的问题之一. 使用tomcat或者其他服务器软件设置端口号后,比如 一些不是默认的, mysql的 3306, mssql的1433,有时候打不开网页, 原因是没有在ecs安全组去设置这个端口号. 解决: 点击ecs下网络和安全下的安全组 在弹出的安全组中,如果没有就新建安全组,然后点击配置规则 最后如上图点击添加...或快速创建.   have fun!  将编程看作是一门艺术,而不单单是个技术。
4485 0
用NodeJS实现集群计算
Node的单个实例运行在单个的线程中,要充分利用多核系统,我们可以运行Node进程集群来处理负载。也就是说,如果系统有8核,单个Node实例只能使用其中1核,可以利用cluster包的workers概念来充分利用所有的核。
637 0
用NodeJS实现集群计算
Node的单个实例运行在单个的线程中,要充分利用多核系统,我们可以运行Node进程集群来处理负载。也就是说,如果系统有8核,单个Node实例只能使用其中1核,可以利用cluster包的workers概念来充分利用所有的核。
734 0
阿里云ECS云服务器初始化设置教程方法
阿里云ECS云服务器初始化是指将云服务器系统恢复到最初状态的过程,阿里云的服务器初始化是通过更换系统盘来实现的,是免费的,阿里云百科网分享服务器初始化教程: 服务器初始化教程方法 本文的服务器初始化是指将ECS云服务器系统恢复到最初状态,服务器中的数据也会被清空,所以初始化之前一定要先备份好。
3227 0
10
文章
0
问答
来源圈子
更多
阿里云存储基于飞天盘古2.0分布式存储系统,产品包括对象存储OSS、块存储Block Storage、共享文件存储NAS、表格存储、日志存储与分析、归档存储及混合云存储等,充分满足用户数据存储和迁移上云需求,连续三年跻身全球云存储魔力象限四强。
+ 订阅
文章排行榜
最热
最新
相关电子书
更多
文娱运维技术
立即下载
《SaaS模式云原生数据仓库应用场景实践》
立即下载
《看见新力量:二》电子书
立即下载