Koordinator 助力 ACK 容器调度升级,提升应用性能,节约资源成本

本文涉及的产品
可观测监控 Prometheus 版,每月50GB免费额度
注册配置 MSE Nacos/ZooKeeper,182元/月
Serverless 应用引擎免费试用套餐包,4320000 CU,有效期3个月
简介: Koordinator 助力 ACK 容器调度升级,提升应用性能,节约资源成本

作者: 佑祎


Koordinator 是什么


Koordinator 是一个开源项目,基于阿里巴巴在容器调度领域多年累积的经验孵化诞生,可以提升容器性能,降低集群资源成本。通过混部、资源画像、调度优化等技术能力,能够提高延迟敏感的工作负载和批处理作业的运行效率和可靠性,优化集群资源使用效率。


Koordinator 的技术方案源自阿里巴巴在混部、资源优化等领域多年的技术积累。早在 2011 年,阿里巴巴就开始在容器调度领进行相关的技术探索,并于 2016 年启动研发面向混部场景的容器调度技术,经过了多轮技术迭代升级后,最终演进到今天的云原生系统架构。目前,阿里巴巴已经实现了全业务规模超千万核的云原生混部,混部天平均 CPU 利用率超 50%,连续通过了多年“双十一”的考验,帮助阿里巴巴节省了大量的资源成本。


随着企业数字化转型工作深入推进,为了帮助广大企业客户收获云原生场景下的技术红利,阿里云于 2022 年 4 月正式开源 Koordinator 项目,提供云原生场景下接入成本最低、混部效率最佳的解决方案,降低系统运维成本,保持长期可持续发展的健康形态。自开源以来,Koordinator 得到来自业界十几个企业优秀工程师的贡献,已在多个企业的生产系统中得到应用。


Koordinator 助力 ACK 容器调度


为了帮助 ACK 用户提升容器性能,优化资源效率,阿里云 ACK 在 2021 年推出了 ack-slo-manager 套件,提供了包括 CPU Burst 性能优化、负载感知调度、差异化 SLO 精细化调度、资源画像等一系列功能。这些功能帮助 ACK 用户有效提升了容器的性能表现和集群利用率,降低了资源成本。


随着 Koordinator 社区的逐渐成熟,技术上也实现了对 ack-slo-manager 套件的反哺。为了让广大客户获得一致的技术体验,ACK 在原组件的基础上进行了全面升级,日前最新发布的 v1.1.1-ack.1 版本,在标准化、通用化上做出了更多的突破,对相关功能进行了整合,兼容适配了所有原协议和功能,用户可以在应用完全无感的情况下完成从 ack-slo-manager 到 ack-koordinator 的一键升级。


目前,Koordinator 已经全面接入阿里云容器服务 ACK,用户可以直接在控制台安装使用。本文将为您介绍相关技术的核心原理。


核心技术能力


系统架构

ACK Koordinator 提供的功能主要包含三个部分:QoS 感知调度、重调度,资源画像,以及差异化 SLO 混部。组件由中心侧组件和单机侧组件两大部分组成,具体包括以下模块。


  • Koordinator Manager:以 Deployment 的形式部署的中心组件,其中有两部分功能:
  • SLO Controller:用于资源超卖管理,根据节点混部时的运行状态,动态调整集群的超卖资源量,同时为管理各节点的差异化 SLO 策略。
  • Recommender:提供资源画像功能,预估工作负载的峰值资源需求,简化您的配置容器资源规格的复杂度。
  • Koordinator Descheduler:以 Deployment 的形式部署的中心组件,提供重调度功能。
  • Koordlet:以 DaemonSet 的形式部署的单机组件,用于支持混部场景下的资源超卖、单机精细化调度,以及容器 QoS 保证等。

image.png

功能详细介绍

QoS 感知调度、重调度,主要解决高水位状态下工作负载对运行质量的敏感的问题。ACK 提供了一套增强的负载感知调度与重调度框架:


  • 负载感知调度,在调度打分阶段引入对于节点运行时状态的判断,避免节点负载过高导致机器出现热点响应慢等影响稳定性的问题。
  • 重调度,提供了具备资源确定性、腾挪安全保护的重调度器,支持用户在特定时间段执行设定的重调度策略,持续的调整集群资源编排以达到理想状态。


资源画像,主要解决容器资源规格填写不合理的问题,帮助用户合理填写容器资源规格,ACK 提供了成本套件,提供了可视化的交互页面,便于管理员快速分析应用资源规格的合理性,并进行资源规格配置的变更。

image.png

差异化 SLO 混部,主要提供一套提供部署密度和提升整体资源利用率的模型,用于支持资源调度的混部超卖。ACK 提供了在阿里内部被广泛验证使用的差异化 SLO 技术能力,支持用户在 Kubernetes 之上以资源超卖的方式运行混部任务,进一步提高资源利用率。其核心的包含两部分内容:


  • 资源分级调度,根据 Pod 真实负载运行情况进行资源画像,并将模型预估可用的资源进行二次分配,以满足具备容灾能力的计算任务的资源诉求
  • 资源隔离与干扰抑制,对于二次分配的任务,提供 CPU、Memory、Disk、Network 多个维度配套的资源隔离保障机制,将计算任务对原延迟敏感任务的干扰控制在非常小的范围

image.png

新特性早知道


最新版本 v1.1.1-ack.1 新增加了对负载感知调度和重调度的支持,并将资源画像产品功能接入了 ACK 成本套件。


负载感知调度及重调度

负载感知调度可以感知节点实际的资源负载情况。通过参考节点负载的历史统计并对新调度 Pod 进行预估,调度器会将 Pod 优先调度到负载较低的节点,实现节点负载均衡的目标,避免出现因单个节点负载过高而导致的应用程序或节点故障。


如下图所示,已分配资源量(Requested)代表已申请的资源量,已使用资源量(Usage)代表真实使用的资源量,只有真实使用的资源才会被算作真实负载。面对相同的节点情况,ACK 调度器会采用更优的策略,将新创建的Pod分配到负载更低的节点 B。

image.png

然而,节点的利用率会随着时间、集群环境、工作负载的流量或请求等动态变化,导致集群内节点间原本负载均衡的情况被打破,甚至有可能出现极端负载不均衡的情况,影响到工作负载运行时质量。ack-koordinator 组件提供重调度能力,可以持续优化节点的负载情况,通过将负载感知调度和热点打散重调度结合使用,可以获得集群最佳的负载均衡效果。

image.png

资源画像接入成本套件

ACK 的成本套件功能,是通过 FinOps 理念的云成本治理解决方案,协助企业 IT 成本管理人员实现容器集群的资源分账、提效降本等业务场景诉求,资源画像是就是成本优化的方案之一。


一直以来,容器资源规格 request 和 limit 的填写都让 K8s 的用户饱受困扰,一方面,应用管理员需要预留相当数量的资源冗余来应对上下游链路的负载波动,保障线上应用的稳定性;而另一方面的现实是,在大部分在线服务的生产环境中,集群的资源利用率处于相当低的水平,存在大量的资源浪费。


ACK 资源画像会持续收集容器的资源用量进行汇总分析,为每个容器生成资源规格的推荐值,控制台会针对工作负载原始的资源请求量(request)给出调整建议,包括“升配”、“降配”、以及”保持“三种。应用管理员可以通过该页面直接筛选出需要调整的应用,并在详情页进行修改。

image.png

同时,资源画像控制台还提供了一键变配的能力,变配窗口内默认展示了各容器当前的所需资源(request)和限制资源(limit),以及资源画像为容器生成的推荐值,推荐值来自于对容器资源消耗历史数据的聚合分析,确保推荐值可以尽量满足容器资源消耗的需求。这里同时还展示了策略管理中为应用配置的冗余系数,方便应用管理员在修改资源规格配置时参考。

image.png

填写完成提交后,系统将执行资源规格更新操作并自动跳转到工作负载详情页。资源规格更新后,控制器会对工作负载进行滚动更新并重新创建 Pod。以此完成对工作负载的资源优化过程。


欢迎加入 Koordinator 社区


Koordinator 是一个开放的社区,更多有关混部和调度的能力将在后续版本中陆续发布,非常欢迎广大云原生爱好者们通过各种方式一起参与共建,无论您在云原生领域是初学乍练还是驾轻就熟,我们都非常期待听到您的声音!


欢迎扫描下方二维码加入 Koordinator 微信群:

image.png

您也可以使用钉钉扫描下方二维码或搜索群号:33383887 加入 Koordinator 社区钉钉群:

image.png

Github 地址

https://github.com/koordinator-sh/koordinator

官网地址

https://koordinator.sh


点击此处,即可查看阿里云 ACK 中 Koordinator 组件的详细介绍和使用方法!

相关实践学习
深入解析Docker容器化技术
Docker是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的Linux机器上,也可以实现虚拟化,容器是完全使用沙箱机制,相互之间不会有任何接口。Docker是世界领先的软件容器平台。开发人员利用Docker可以消除协作编码时“在我的机器上可正常工作”的问题。运维人员利用Docker可以在隔离容器中并行运行和管理应用,获得更好的计算密度。企业利用Docker可以构建敏捷的软件交付管道,以更快的速度、更高的安全性和可靠的信誉为Linux和Windows Server应用发布新功能。 在本套课程中,我们将全面的讲解Docker技术栈,从环境安装到容器、镜像操作以及生产环境如何部署开发的微服务应用。本课程由黑马程序员提供。     相关的阿里云产品:容器服务 ACK 容器服务 Kubernetes 版(简称 ACK)提供高性能可伸缩的容器应用管理能力,支持企业级容器化应用的全生命周期管理。整合阿里云虚拟化、存储、网络和安全能力,打造云端最佳容器化应用运行环境。 了解产品详情: https://www.aliyun.com/product/kubernetes
相关文章
|
22天前
|
存储 Kubernetes 网络安全
关于阿里云 Kubernetes 容器服务(ACK)添加镜像仓库的快速说明
本文介绍了在中国大陆地区因网络限制无法正常拉取 Docker 镜像的解决方案。作者所在的阿里云 Kubernetes 集群使用的是较旧版本的 containerd(1.2x),且无法直接通过 SSH 修改节点配置,因此采用了一种无需更改 Kubernetes 配置文件的方法。通过为 `docker.io` 添加 containerd 的镜像源,并使用脚本自动修改 containerd 配置文件中的路径错误(将错误的 `cert.d` 改为 `certs.d`),最终实现了通过多个镜像站点拉取镜像。作者还提供了一个可重复运行的脚本,用于动态配置镜像源。虽然该方案能缓解镜像拉取问题,
180 2
|
9月前
|
存储 监控 对象存储
ACK 容器监控存储全面更新:让您的应用运行更稳定、更透明
针对本地存储和 PVC 这两种容器存储使用方式,我们对 ACK 的容器存储监控功能进行了全新升级。此次更新完善了对集群中不同存储类型的监控能力,不仅对之前已有的监控大盘进行了优化,还针对不同的云存储类型,上线了全新的监控大盘,确保用户能够更好地理解和管理容器业务应用的存储资源。
566 272
|
6月前
|
Kubernetes 调度 异构计算
生产环境 K8S + Deepseek 实现大模型部署 和 容器调度(图解+史上最全)
生产环境 K8S + Deepseek 实现大模型部署 和 容器调度(图解+史上最全)
生产环境 K8S + Deepseek 实现大模型部署 和 容器调度(图解+史上最全)
|
6月前
|
人工智能 Serverless 调度
突破地域限制,实现算力无限供给 —阿里云ACK One注册集群开启多地域Serverless算力调度
本文介绍了阿里云ACK One注册集群多地域Serverless算力调度解决方案,解决传统数据中心在AI时代面临的算力不足问题。方案通过分钟级接入、100%兼容Kubernetes操作及云上Serverless弹性,实现跨地域弹性算力供给,支持高并发请求与模型快速迭代。文中详细描述了快速接入步骤、指定地域调度及动态调度方法,并提供了相关代码示例。该方案助力企业实现AI推理服务的规模化部署,提升商业落地效率。
|
6月前
|
人工智能 Serverless 调度
突破地域限制,实现算力无限供给 -- 阿里云ACK One注册集群开启多地域Serverless算力调度
传统单地域算力难以支撑AI推理场景的高并发实时响应、突发高流量的要求,阿里云容器服务ACK One注册集群推出多地域Serverless算力调度方案完美解决此问题。
|
7月前
|
人工智能 分布式计算 调度
打破资源边界、告别资源浪费:ACK One 多集群Spark和AI作业调度
ACK One多集群Spark作业调度,可以帮助您在不影响集群中正在运行的在线业务的前提下,打破资源边界,根据各集群实际剩余资源来进行调度,最大化您多集群中闲置资源的利用率。
|
7月前
|
存储 监控 对象存储
ACK 容器监控存储全面更新:让您的应用运行更稳定、更透明
ACK 容器监控存储全面更新:让您的应用运行更稳定、更透明
158 0
ACK 容器监控存储全面更新:让您的应用运行更稳定、更透明
|
7月前
|
存储 运维 Kubernetes
容器数据保护:基于容器服务 Kubernetes 版(ACK)备份中心实现K8s存储卷一键备份与恢复
阿里云ACK备份中心提供一站式容器化业务灾备及迁移方案,减少数据丢失风险,确保业务稳定运行。
|
8月前
|
存储 监控 对象存储
ACK 容器监控存储全面更新:让您的应用运行更稳定、更透明
ACK 容器监控存储全面更新:让您的应用运行更稳定、更透明
120 1
|
8月前
|
监控 Kubernetes Cloud Native
基于阿里云容器服务Kubernetes版(ACK)的微服务架构设计与实践
本文介绍了如何基于阿里云容器服务Kubernetes版(ACK)设计和实现微服务架构。首先概述了微服务架构的优势与挑战,如模块化、可扩展性及技术多样性。接着详细描述了ACK的核心功能,包括集群管理、应用管理、网络与安全、监控与日志等。在设计基于ACK的微服务架构时,需考虑服务拆分、通信、发现与负载均衡、配置管理、监控与日志以及CI/CD等方面。通过一个电商应用案例,展示了用户服务、商品服务、订单服务和支付服务的具体部署步骤。最后总结了ACK为微服务架构提供的强大支持,帮助应对各种挑战,构建高效可靠的云原生应用。

相关产品

  • 容器服务Kubernetes版
  • 推荐镜像

    更多