Koordinator 助力 ACK 容器调度升级,提升应用性能,节约资源成本

本文涉及的产品
应用实时监控服务-用户体验监控,每月100OCU免费额度
函数计算FC,每月15万CU 3个月
容器镜像服务 ACR,镜像仓库100个 不限时长
简介: Koordinator 助力 ACK 容器调度升级,提升应用性能,节约资源成本

作者: 佑祎


Koordinator 是什么


Koordinator 是一个开源项目,基于阿里巴巴在容器调度领域多年累积的经验孵化诞生,可以提升容器性能,降低集群资源成本。通过混部、资源画像、调度优化等技术能力,能够提高延迟敏感的工作负载和批处理作业的运行效率和可靠性,优化集群资源使用效率。


Koordinator 的技术方案源自阿里巴巴在混部、资源优化等领域多年的技术积累。早在 2011 年,阿里巴巴就开始在容器调度领进行相关的技术探索,并于 2016 年启动研发面向混部场景的容器调度技术,经过了多轮技术迭代升级后,最终演进到今天的云原生系统架构。目前,阿里巴巴已经实现了全业务规模超千万核的云原生混部,混部天平均 CPU 利用率超 50%,连续通过了多年“双十一”的考验,帮助阿里巴巴节省了大量的资源成本。


随着企业数字化转型工作深入推进,为了帮助广大企业客户收获云原生场景下的技术红利,阿里云于 2022 年 4 月正式开源 Koordinator 项目,提供云原生场景下接入成本最低、混部效率最佳的解决方案,降低系统运维成本,保持长期可持续发展的健康形态。自开源以来,Koordinator 得到来自业界十几个企业优秀工程师的贡献,已在多个企业的生产系统中得到应用。


Koordinator 助力 ACK 容器调度


为了帮助 ACK 用户提升容器性能,优化资源效率,阿里云 ACK 在 2021 年推出了 ack-slo-manager 套件,提供了包括 CPU Burst 性能优化、负载感知调度、差异化 SLO 精细化调度、资源画像等一系列功能。这些功能帮助 ACK 用户有效提升了容器的性能表现和集群利用率,降低了资源成本。


随着 Koordinator 社区的逐渐成熟,技术上也实现了对 ack-slo-manager 套件的反哺。为了让广大客户获得一致的技术体验,ACK 在原组件的基础上进行了全面升级,日前最新发布的 v1.1.1-ack.1 版本,在标准化、通用化上做出了更多的突破,对相关功能进行了整合,兼容适配了所有原协议和功能,用户可以在应用完全无感的情况下完成从 ack-slo-manager 到 ack-koordinator 的一键升级。


目前,Koordinator 已经全面接入阿里云容器服务 ACK,用户可以直接在控制台安装使用。本文将为您介绍相关技术的核心原理。


核心技术能力


系统架构

ACK Koordinator 提供的功能主要包含三个部分:QoS 感知调度、重调度,资源画像,以及差异化 SLO 混部。组件由中心侧组件和单机侧组件两大部分组成,具体包括以下模块。


  • Koordinator Manager:以 Deployment 的形式部署的中心组件,其中有两部分功能:
  • SLO Controller:用于资源超卖管理,根据节点混部时的运行状态,动态调整集群的超卖资源量,同时为管理各节点的差异化 SLO 策略。
  • Recommender:提供资源画像功能,预估工作负载的峰值资源需求,简化您的配置容器资源规格的复杂度。
  • Koordinator Descheduler:以 Deployment 的形式部署的中心组件,提供重调度功能。
  • Koordlet:以 DaemonSet 的形式部署的单机组件,用于支持混部场景下的资源超卖、单机精细化调度,以及容器 QoS 保证等。

image.png

功能详细介绍

QoS 感知调度、重调度,主要解决高水位状态下工作负载对运行质量的敏感的问题。ACK 提供了一套增强的负载感知调度与重调度框架:


  • 负载感知调度,在调度打分阶段引入对于节点运行时状态的判断,避免节点负载过高导致机器出现热点响应慢等影响稳定性的问题。
  • 重调度,提供了具备资源确定性、腾挪安全保护的重调度器,支持用户在特定时间段执行设定的重调度策略,持续的调整集群资源编排以达到理想状态。


资源画像,主要解决容器资源规格填写不合理的问题,帮助用户合理填写容器资源规格,ACK 提供了成本套件,提供了可视化的交互页面,便于管理员快速分析应用资源规格的合理性,并进行资源规格配置的变更。

image.png

差异化 SLO 混部,主要提供一套提供部署密度和提升整体资源利用率的模型,用于支持资源调度的混部超卖。ACK 提供了在阿里内部被广泛验证使用的差异化 SLO 技术能力,支持用户在 Kubernetes 之上以资源超卖的方式运行混部任务,进一步提高资源利用率。其核心的包含两部分内容:


  • 资源分级调度,根据 Pod 真实负载运行情况进行资源画像,并将模型预估可用的资源进行二次分配,以满足具备容灾能力的计算任务的资源诉求
  • 资源隔离与干扰抑制,对于二次分配的任务,提供 CPU、Memory、Disk、Network 多个维度配套的资源隔离保障机制,将计算任务对原延迟敏感任务的干扰控制在非常小的范围

image.png

新特性早知道


最新版本 v1.1.1-ack.1 新增加了对负载感知调度和重调度的支持,并将资源画像产品功能接入了 ACK 成本套件。


负载感知调度及重调度

负载感知调度可以感知节点实际的资源负载情况。通过参考节点负载的历史统计并对新调度 Pod 进行预估,调度器会将 Pod 优先调度到负载较低的节点,实现节点负载均衡的目标,避免出现因单个节点负载过高而导致的应用程序或节点故障。


如下图所示,已分配资源量(Requested)代表已申请的资源量,已使用资源量(Usage)代表真实使用的资源量,只有真实使用的资源才会被算作真实负载。面对相同的节点情况,ACK 调度器会采用更优的策略,将新创建的Pod分配到负载更低的节点 B。

image.png

然而,节点的利用率会随着时间、集群环境、工作负载的流量或请求等动态变化,导致集群内节点间原本负载均衡的情况被打破,甚至有可能出现极端负载不均衡的情况,影响到工作负载运行时质量。ack-koordinator 组件提供重调度能力,可以持续优化节点的负载情况,通过将负载感知调度和热点打散重调度结合使用,可以获得集群最佳的负载均衡效果。

image.png

资源画像接入成本套件

ACK 的成本套件功能,是通过 FinOps 理念的云成本治理解决方案,协助企业 IT 成本管理人员实现容器集群的资源分账、提效降本等业务场景诉求,资源画像是就是成本优化的方案之一。


一直以来,容器资源规格 request 和 limit 的填写都让 K8s 的用户饱受困扰,一方面,应用管理员需要预留相当数量的资源冗余来应对上下游链路的负载波动,保障线上应用的稳定性;而另一方面的现实是,在大部分在线服务的生产环境中,集群的资源利用率处于相当低的水平,存在大量的资源浪费。


ACK 资源画像会持续收集容器的资源用量进行汇总分析,为每个容器生成资源规格的推荐值,控制台会针对工作负载原始的资源请求量(request)给出调整建议,包括“升配”、“降配”、以及”保持“三种。应用管理员可以通过该页面直接筛选出需要调整的应用,并在详情页进行修改。

image.png

同时,资源画像控制台还提供了一键变配的能力,变配窗口内默认展示了各容器当前的所需资源(request)和限制资源(limit),以及资源画像为容器生成的推荐值,推荐值来自于对容器资源消耗历史数据的聚合分析,确保推荐值可以尽量满足容器资源消耗的需求。这里同时还展示了策略管理中为应用配置的冗余系数,方便应用管理员在修改资源规格配置时参考。

image.png

填写完成提交后,系统将执行资源规格更新操作并自动跳转到工作负载详情页。资源规格更新后,控制器会对工作负载进行滚动更新并重新创建 Pod。以此完成对工作负载的资源优化过程。


欢迎加入 Koordinator 社区


Koordinator 是一个开放的社区,更多有关混部和调度的能力将在后续版本中陆续发布,非常欢迎广大云原生爱好者们通过各种方式一起参与共建,无论您在云原生领域是初学乍练还是驾轻就熟,我们都非常期待听到您的声音!


欢迎扫描下方二维码加入 Koordinator 微信群:

image.png

您也可以使用钉钉扫描下方二维码或搜索群号:33383887 加入 Koordinator 社区钉钉群:

image.png

Github 地址

https://github.com/koordinator-sh/koordinator

官网地址

https://koordinator.sh


点击此处,即可查看阿里云 ACK 中 Koordinator 组件的详细介绍和使用方法!

相关实践学习
通过Ingress进行灰度发布
本场景您将运行一个简单的应用,部署一个新的应用用于新的发布,并通过Ingress能力实现灰度发布。
容器应用与集群管理
欢迎来到《容器应用与集群管理》课程,本课程是“云原生容器Clouder认证“系列中的第二阶段。课程将向您介绍与容器集群相关的概念和技术,这些概念和技术可以帮助您了解阿里云容器服务ACK/ACK Serverless的使用。同时,本课程也会向您介绍可以采取的工具、方法和可操作步骤,以帮助您了解如何基于容器服务ACK Serverless构建和管理企业级应用。 学习完本课程后,您将能够: 掌握容器集群、容器编排的基本概念 掌握Kubernetes的基础概念及核心思想 掌握阿里云容器服务ACK/ACK Serverless概念及使用方法 基于容器服务ACK Serverless搭建和管理企业级网站应用
相关文章
|
1月前
|
人工智能 弹性计算 运维
ACK Edge与IDC:高效容器网络通信新突破
本文介绍如何基于ACK Edge以及高效的容器网络插件管理IDC进行容器化。
|
1天前
|
存储 监控 对象存储
ACK容器监控存储全面更新:让您的应用运行更稳定、更透明
介绍升级之后的ACK容器监控体系,包括各大盘界面展示和概要介绍。
|
1月前
|
人工智能 运维 监控
阿里云ACK容器服务生产级可观测体系建设实践
本文整理自2024云栖大会冯诗淳(花名:行疾)的演讲,介绍了阿里云容器服务团队在生产级可观测体系建设方面的实践。冯诗淳详细阐述了容器化架构带来的挑战及解决方案,强调了可观测性对于构建稳健运维体系的重要性。文中提到,阿里云作为亚洲唯一蝉联全球领导者的容器管理平台,其可观测能力在多项关键评测中表现优异,支持AI、容器网络、存储等多个场景的高级容器可观测能力。此外,还介绍了阿里云容器服务在多云管理、成本优化等方面的最新进展,以及即将推出的ACK AI助手2.0,旨在通过智能引擎和专家诊断经验,简化异常数据查找,缩短故障响应时间。
阿里云ACK容器服务生产级可观测体系建设实践
|
1月前
|
运维 Kubernetes 调度
阿里云容器服务 ACK One 分布式云容器企业落地实践
阿里云容器服务ACK提供强大的产品能力,支持弹性、调度、可观测、成本治理和安全合规。针对拥有IDC或三方资源的企业,ACK One分布式云容器平台能够有效解决资源管理、多云多集群管理及边缘计算等挑战,实现云上云下统一管理,提升业务效率与稳定性。
|
4月前
|
运维 Kubernetes 调度
阿里云容器服务 ACK One 分布式云容器企业落地实践
3年前的云栖大会,我们发布分布式云容器平台ACK One,随着3年的发展,很高兴看到ACK One在混合云,分布式云领域帮助到越来越多的客户,今天给大家汇报下ACK One 3年来的发展演进,以及如何帮助客户解决分布式领域多云多集群管理的挑战。
阿里云容器服务 ACK One 分布式云容器企业落地实践
|
3月前
|
应用服务中间件 调度 nginx
Kubernetes的Pod调度:让你的应用像乘坐头等舱!
Kubernetes的Pod调度:让你的应用像乘坐头等舱!
|
4月前
|
人工智能 运维 监控
阿里云ACK容器服务生产级可观测体系建设实践
阿里云ACK容器服务生产级可观测体系建设实践
|
3月前
|
Kubernetes 应用服务中间件 调度
k8s的Pod常见的几种调度形式
k8s的Pod常见的几种调度形式
53 0
|
3月前
|
Kubernetes 固态存储 调度
k8s学习--如何控制pod调度的位置
k8s学习--如何控制pod调度的位置
|
8月前
|
人工智能 运维 Kubernetes
阿里云容器服务ACK AI助手正式上线带来的便利性
作为开发者想必大家都知道,云原生容器技术的优势,尤其是近两年的随着容器技术的迅猛发展,Kubernetes(K8s)已成为广泛应用于容器编排和管理的领先解决方案,但是K8s的运维复杂度一直是挑战之一。为了应对这一问题,就在最近,阿里云容器服务团队正式发布了ACK AI助手,这是一款旨在通过大模型增强智能诊断的产品,旨在帮助企业和开发者降低Kubernetes(K8s)的运维复杂度。那么本文就来详细讲讲关于这款产品,让我们结合实际案例分享一下K8s的运维经验,探讨ACK AI助手能否有效降低K8s的运维复杂度,并展望ACK AI助手正式版上线后的新功能。
383 2
阿里云容器服务ACK AI助手正式上线带来的便利性

相关产品

  • 容器服务Kubernetes版
  • AI助理

    你好,我是AI助理

    可以解答问题、推荐解决方案等