Koordinator 助力 ACK 容器调度升级,提升应用性能,节约资源成本

本文涉及的产品
Serverless 应用引擎 SAE,800核*时 1600GiB*时
应用实时监控服务ARMS - 应用监控,每月50GB免费额度
可观测可视化 Grafana 版,10个用户账号 1个月
简介: Koordinator 助力 ACK 容器调度升级,提升应用性能,节约资源成本

作者: 佑祎


Koordinator 是什么


Koordinator 是一个开源项目,基于阿里巴巴在容器调度领域多年累积的经验孵化诞生,可以提升容器性能,降低集群资源成本。通过混部、资源画像、调度优化等技术能力,能够提高延迟敏感的工作负载和批处理作业的运行效率和可靠性,优化集群资源使用效率。


Koordinator 的技术方案源自阿里巴巴在混部、资源优化等领域多年的技术积累。早在 2011 年,阿里巴巴就开始在容器调度领进行相关的技术探索,并于 2016 年启动研发面向混部场景的容器调度技术,经过了多轮技术迭代升级后,最终演进到今天的云原生系统架构。目前,阿里巴巴已经实现了全业务规模超千万核的云原生混部,混部天平均 CPU 利用率超 50%,连续通过了多年“双十一”的考验,帮助阿里巴巴节省了大量的资源成本。


随着企业数字化转型工作深入推进,为了帮助广大企业客户收获云原生场景下的技术红利,阿里云于 2022 年 4 月正式开源 Koordinator 项目,提供云原生场景下接入成本最低、混部效率最佳的解决方案,降低系统运维成本,保持长期可持续发展的健康形态。自开源以来,Koordinator 得到来自业界十几个企业优秀工程师的贡献,已在多个企业的生产系统中得到应用。


Koordinator 助力 ACK 容器调度


为了帮助 ACK 用户提升容器性能,优化资源效率,阿里云 ACK 在 2021 年推出了 ack-slo-manager 套件,提供了包括 CPU Burst 性能优化、负载感知调度、差异化 SLO 精细化调度、资源画像等一系列功能。这些功能帮助 ACK 用户有效提升了容器的性能表现和集群利用率,降低了资源成本。


随着 Koordinator 社区的逐渐成熟,技术上也实现了对 ack-slo-manager 套件的反哺。为了让广大客户获得一致的技术体验,ACK 在原组件的基础上进行了全面升级,日前最新发布的 v1.1.1-ack.1 版本,在标准化、通用化上做出了更多的突破,对相关功能进行了整合,兼容适配了所有原协议和功能,用户可以在应用完全无感的情况下完成从 ack-slo-manager 到 ack-koordinator 的一键升级。


目前,Koordinator 已经全面接入阿里云容器服务 ACK,用户可以直接在控制台安装使用。本文将为您介绍相关技术的核心原理。


核心技术能力


系统架构

ACK Koordinator 提供的功能主要包含三个部分:QoS 感知调度、重调度,资源画像,以及差异化 SLO 混部。组件由中心侧组件和单机侧组件两大部分组成,具体包括以下模块。


  • Koordinator Manager:以 Deployment 的形式部署的中心组件,其中有两部分功能:
  • SLO Controller:用于资源超卖管理,根据节点混部时的运行状态,动态调整集群的超卖资源量,同时为管理各节点的差异化 SLO 策略。
  • Recommender:提供资源画像功能,预估工作负载的峰值资源需求,简化您的配置容器资源规格的复杂度。
  • Koordinator Descheduler:以 Deployment 的形式部署的中心组件,提供重调度功能。
  • Koordlet:以 DaemonSet 的形式部署的单机组件,用于支持混部场景下的资源超卖、单机精细化调度,以及容器 QoS 保证等。

image.png

功能详细介绍

QoS 感知调度、重调度,主要解决高水位状态下工作负载对运行质量的敏感的问题。ACK 提供了一套增强的负载感知调度与重调度框架:


  • 负载感知调度,在调度打分阶段引入对于节点运行时状态的判断,避免节点负载过高导致机器出现热点响应慢等影响稳定性的问题。
  • 重调度,提供了具备资源确定性、腾挪安全保护的重调度器,支持用户在特定时间段执行设定的重调度策略,持续的调整集群资源编排以达到理想状态。


资源画像,主要解决容器资源规格填写不合理的问题,帮助用户合理填写容器资源规格,ACK 提供了成本套件,提供了可视化的交互页面,便于管理员快速分析应用资源规格的合理性,并进行资源规格配置的变更。

image.png

差异化 SLO 混部,主要提供一套提供部署密度和提升整体资源利用率的模型,用于支持资源调度的混部超卖。ACK 提供了在阿里内部被广泛验证使用的差异化 SLO 技术能力,支持用户在 Kubernetes 之上以资源超卖的方式运行混部任务,进一步提高资源利用率。其核心的包含两部分内容:


  • 资源分级调度,根据 Pod 真实负载运行情况进行资源画像,并将模型预估可用的资源进行二次分配,以满足具备容灾能力的计算任务的资源诉求
  • 资源隔离与干扰抑制,对于二次分配的任务,提供 CPU、Memory、Disk、Network 多个维度配套的资源隔离保障机制,将计算任务对原延迟敏感任务的干扰控制在非常小的范围

image.png

新特性早知道


最新版本 v1.1.1-ack.1 新增加了对负载感知调度和重调度的支持,并将资源画像产品功能接入了 ACK 成本套件。


负载感知调度及重调度

负载感知调度可以感知节点实际的资源负载情况。通过参考节点负载的历史统计并对新调度 Pod 进行预估,调度器会将 Pod 优先调度到负载较低的节点,实现节点负载均衡的目标,避免出现因单个节点负载过高而导致的应用程序或节点故障。


如下图所示,已分配资源量(Requested)代表已申请的资源量,已使用资源量(Usage)代表真实使用的资源量,只有真实使用的资源才会被算作真实负载。面对相同的节点情况,ACK 调度器会采用更优的策略,将新创建的Pod分配到负载更低的节点 B。

image.png

然而,节点的利用率会随着时间、集群环境、工作负载的流量或请求等动态变化,导致集群内节点间原本负载均衡的情况被打破,甚至有可能出现极端负载不均衡的情况,影响到工作负载运行时质量。ack-koordinator 组件提供重调度能力,可以持续优化节点的负载情况,通过将负载感知调度和热点打散重调度结合使用,可以获得集群最佳的负载均衡效果。

image.png

资源画像接入成本套件

ACK 的成本套件功能,是通过 FinOps 理念的云成本治理解决方案,协助企业 IT 成本管理人员实现容器集群的资源分账、提效降本等业务场景诉求,资源画像是就是成本优化的方案之一。


一直以来,容器资源规格 request 和 limit 的填写都让 K8s 的用户饱受困扰,一方面,应用管理员需要预留相当数量的资源冗余来应对上下游链路的负载波动,保障线上应用的稳定性;而另一方面的现实是,在大部分在线服务的生产环境中,集群的资源利用率处于相当低的水平,存在大量的资源浪费。


ACK 资源画像会持续收集容器的资源用量进行汇总分析,为每个容器生成资源规格的推荐值,控制台会针对工作负载原始的资源请求量(request)给出调整建议,包括“升配”、“降配”、以及”保持“三种。应用管理员可以通过该页面直接筛选出需要调整的应用,并在详情页进行修改。

image.png

同时,资源画像控制台还提供了一键变配的能力,变配窗口内默认展示了各容器当前的所需资源(request)和限制资源(limit),以及资源画像为容器生成的推荐值,推荐值来自于对容器资源消耗历史数据的聚合分析,确保推荐值可以尽量满足容器资源消耗的需求。这里同时还展示了策略管理中为应用配置的冗余系数,方便应用管理员在修改资源规格配置时参考。

image.png

填写完成提交后,系统将执行资源规格更新操作并自动跳转到工作负载详情页。资源规格更新后,控制器会对工作负载进行滚动更新并重新创建 Pod。以此完成对工作负载的资源优化过程。


欢迎加入 Koordinator 社区


Koordinator 是一个开放的社区,更多有关混部和调度的能力将在后续版本中陆续发布,非常欢迎广大云原生爱好者们通过各种方式一起参与共建,无论您在云原生领域是初学乍练还是驾轻就熟,我们都非常期待听到您的声音!


欢迎扫描下方二维码加入 Koordinator 微信群:

image.png

您也可以使用钉钉扫描下方二维码或搜索群号:33383887 加入 Koordinator 社区钉钉群:

image.png

Github 地址

https://github.com/koordinator-sh/koordinator

官网地址

https://koordinator.sh


点击此处,即可查看阿里云 ACK 中 Koordinator 组件的详细介绍和使用方法!

相关实践学习
通过Ingress进行灰度发布
本场景您将运行一个简单的应用,部署一个新的应用用于新的发布,并通过Ingress能力实现灰度发布。
容器应用与集群管理
欢迎来到《容器应用与集群管理》课程,本课程是“云原生容器Clouder认证“系列中的第二阶段。课程将向您介绍与容器集群相关的概念和技术,这些概念和技术可以帮助您了解阿里云容器服务ACK/ACK Serverless的使用。同时,本课程也会向您介绍可以采取的工具、方法和可操作步骤,以帮助您了解如何基于容器服务ACK Serverless构建和管理企业级应用。 学习完本课程后,您将能够: 掌握容器集群、容器编排的基本概念 掌握Kubernetes的基础概念及核心思想 掌握阿里云容器服务ACK/ACK Serverless概念及使用方法 基于容器服务ACK Serverless搭建和管理企业级网站应用
相关文章
|
2月前
|
Prometheus Kubernetes 监控
Kubernetes 性能调优与成本控制
【8月更文第29天】随着 Kubernetes 在企业中的广泛应用,如何有效地管理和优化 Kubernetes 集群的性能和成本成为了一个重要的课题。本篇文章将介绍 Kubernetes 性能监控的基础知识,以及一些实用的成本优化技巧,包括资源配额的设置、Pod 密度的提高和集群规模的合理调整。
114 1
|
19天前
|
运维 Kubernetes 调度
阿里云容器服务 ACK One 分布式云容器企业落地实践
3年前的云栖大会,我们发布分布式云容器平台ACK One,随着3年的发展,很高兴看到ACK One在混合云,分布式云领域帮助到越来越多的客户,今天给大家汇报下ACK One 3年来的发展演进,以及如何帮助客户解决分布式领域多云多集群管理的挑战。
阿里云容器服务 ACK One 分布式云容器企业落地实践
|
1月前
|
人工智能 Prometheus 监控
使用 NVIDIA NIM 在阿里云容器服务(ACK)中加速 LLM 推理
本文介绍了在阿里云容器服务 ACK 上部署 NVIDIA NIM,结合云原生 AI 套件和 KServe 快速构建高性能模型推理服务的方法。通过阿里云 Prometheus 和 Grafana 实现实时监控,并基于排队请求数配置弹性扩缩容策略,提升服务稳定性和效率。文章提供了详细的部署步骤和示例,帮助读者快速搭建和优化模型推理服务。
123 7
使用 NVIDIA NIM 在阿里云容器服务(ACK)中加速 LLM 推理
|
19天前
|
运维 Kubernetes Serverless
直降算力成本!阿里云容器计算服务ACS正式商业化
阿里云容器计算服务ACS正式商业化,综合算力成本最高可降55%。容器计算服务ACS可实现算力资源的极限扩容,易用性也大幅提升50%,将有力承载未来暴涨的容器算力需求,推动用云范式更新升级。
68 9
|
15天前
|
人工智能 运维 监控
阿里云ACK容器服务生产级可观测体系建设实践
阿里云ACK容器服务生产级可观测体系建设实践
|
2月前
|
Kubernetes 容器 Perl
【Azure K8S】AKS升级 Kubernetes version 失败问题的分析与解决
【Azure K8S】AKS升级 Kubernetes version 失败问题的分析与解决
|
2月前
|
Kubernetes 监控 API
在K8S中,RS资源如何实现升级和回滚?
在K8S中,RS资源如何实现升级和回滚?
|
2月前
|
Kubernetes API 开发工具
在K8S中,Deployment的升级过程是什么?
在K8S中,Deployment的升级过程是什么?
|
2月前
|
Kubernetes 容器 Perl
在k8S中,deployment升级策略是什么?
在k8S中,deployment升级策略是什么?
|
2月前
|
Kubernetes API Perl
在k8S中,deployment升级过程是什么?
在k8S中,deployment升级过程是什么?

相关产品

  • 容器服务Kubernetes版