Airbnb的动态kubernetes集群扩缩容

简介: Airbnb的动态kubernetes集群扩缩容

本文介绍了Airbnb的集群扩缩容的演化历史,以及当前是如何通过Cluster Autoscaler 实现自定义扩展器的。最重要的经验就是Airbnb是如何一步步演化到当前架构的,其驱动因素又是什么。

译自:Dynamic Kubernetes Cluster Scaling at Airbnb

简介

Airbnb的基础设施的一个重要作用是保证云能够根据需要自动执行扩缩容。我们每天的流量波动都非常大,需要依靠动态扩缩容来保证服务的正常运行。


为了支持扩缩容,Airbnb使用了Kubernetes编排系统。并且使用了一种基于Kubernetes的服务配置接口,OneTouch,具体参见这里


本文中,我们将讨论如何使用Kubernetes Cluster Autoscaler来动态调整集群的大小,并着重介绍了我们为Sig-Autoscalsing社区做出的贡献。

Airbnb的Kubernetes集群

过去几年中,Airbnb已经将绝大部分手动编排的EC2实例中迁移到了Kubernetes上。如今,我们在近百个集群中运行了上千个节点来容纳这些负载。然而,这些变化并不是一蹴而就的。在迁移过程中,底层的Kubernetes集群也同样进行着演进。随着新技术栈上的负载和流量越来越多,Kubernetes集群也随之变得越来越成熟。这些演进可以划分为如下几个阶段:

  • 阶段1:异构集群,手动扩容
  • 阶段2:多集群类型,独立扩缩容
  • 阶段3:异构集群,自动扩缩容

阶段1:异构集群,手动扩缩容

在使用Kubernetes之前,每个服务实例都运行在其所在的机器上,通过手动分配足够的容量来满足流量增加的场景。每个团队的容量管理方式都不尽相同,且一旦负载下降,很少会取消配置。


一开始我们的Kubernetes集群的配置相对比较简单。我们有少量集群,每个集群都有单独的底层节点类型和配置,用于运行无状态的线上服务。随着服务开始迁移到Kubernetes,我们开始在一个多租户(一个节点有多个pods)环境中运行容器化的服务。这种聚合方式减少了资源浪费,并且可以将这些服务的容量管理整合到Kuberentes控制平面上。在这个阶段,我们实现了集群的手动扩缩容,但相比之前仍然有着显著的提升。

阶段2:多集群类型,独立扩缩容

集群配置的第二个阶段是伴随多负载类型出现的,每个试图在Kubernetes上运行的负载都有着不同的需求。为了符合这些需求,我们创建了一个抽象的集群类型。"集群类型"定义了集群的底层配置,这意味着相同集群类型的集群,从节点类型到集群组件设置都是相同的。


越来越多的集群类型导致出现了越来越多的集群,一开始通过手动方式来调节每个集群容量的方式迅速变得支离破碎。为了修正这个问题,我们为每个集群添加了Kubernetes Cluster Autoscaler 。该组件会基于pod requests来动态调节集群的大小。如果一个集群的容量被耗尽,则会通过添加一个新的节点(由Cluster Autoscaler拉起)来满足pending状态的pods。类似地,如果在一段时间内集群的某些节点的利用率偏低,则Cluster Autoscaler会移除这些节点。这种方式行之有效,为我们节省了大约5%的总云开销,以及手动扩展集群的操作开销。

阶段3:异构集群,自动扩缩容

当Airbnb的几乎所有在线计算都转移到Kubernetes时,集群的类型已经超过30,集群数目超过100。这种扩展使得Kubernetes集群管理相当乏味。例如,在集群升级时需要单独对每种类型的集群进行测试。


在第三个阶段,我们会通过创建异构集群来整合集群类型,使用单个Kubernetes控制平面来适应多种不同的工作负载。首先,这种方式极大降低了集群管理的开销,通过更少且更通用的集群减少了需要测试的配置数目。其次,随着Airbnb 的主要服务已经运行在了Kubernetes集群上,集群的效率可以为成本优化提供一个很大的杠杆。整合集群类型可以允许我们在每个集群中运行多种负载。这种聚合的负载类型(有些大,有些小)可以带来更好的封装和效率,以及更高的利用率。通过这种额外的负载灵活性,我们可以有更多的空间来在默认的Cluster Autoscaler扩展逻辑之外,实现成熟的扩缩容策略。特别地,我们计划实现与Airbnb特定业务逻辑相关的扩缩容逻辑。

随着对集群的扩展和整合,我们实现了异构(每个集群有多种实例类型),我们开始在扩展过程中实现特定的业务逻辑,并且意识到有必要对扩缩容的行为进行某些变更。下一节将描述我们是如何修改Cluster Autoscaler,使其变得更加灵活。

Cluster Autoscaler 的提升

自定义gRPC扩展器

我们对Cluster Autoscaler的最显著改进是提供了一种新方法来确定要扩展的节点组。在内部,Cluster Autoscaler会维护一系列映射到不同候选扩容对象的节点组,它会针对当前Pending(无法调度)的pods执行模拟调度,然后过滤掉不满足调度要求的节点组。如果存在Pending(无法调度)的pods,Cluster Autoscaler会尝试通过扩展集群来满足这些pods。所有满足pod要求的节点组都会被传递给称为Expander的组件。

Expander 负责基于运行要求进一步过滤节点组。Cluster Autoscaler有大量内置的扩展器选项,每个选型都有不同的处理逻辑。例如,默认是随机扩展器,它会随机选择可用的节点组。另一个是Airbnb 曾经使用过的优先级扩展器,它会基于用户指定的优先级列表来选择需要扩展的节点组。


当我们使用异构集群逻辑的同时,我们发现默认的扩展器无法在成本和实例类型选择上满足复杂的业务需求。


假设,我们想要实现一个基于权重的优先级扩展器。目前的优先级扩展器仅允许用户为节点组设置不同的等级,这意味着它会始终以确定的顺序来扩展节点组。如果某个等级有多个节点组,则会随机选择一个节点组。基于权重的优先级策略可以支持在同一个等级下设置两个节点组,其中80%的时间会扩展一个节点组,另外20%的时间会扩展另一个节点组。但默认并不支持基于权重的扩展器。


除了现有扩展器的某些限制外,还有一些操作上的考量:

  1. Cluster Autoscaler的发布流水线比较严格,在合并到上游之前,需要花时间来审核变更。但我们的业务逻辑和扩展策略是持续变化的。能够满足当前需求的扩展器并不一定能够满足未来的需求。
  2. 我们的业务逻辑是与Airbnb 关联的,其他用户则没有这种业务逻辑。因此我们实现的特定逻辑并不一定对上游用户有用。

至此,我们对Cluster Autoscaler中的新扩展器类型提出了一系列要求:

  1. 我们希望扩展器是可扩展的,能够被其他用户使用。其他用户在使用默认的Expanders 可能会遇到类似的限制,我们希望提供一个通用的解决方案,并回馈上游。
  2. 我们的方案应该能够独立于Cluster Autoscaler部署,进而允许我们响应快速变更的业务需求。
  3. 我们的方案应该能够融入Kubernetes Cluster Autoscaler生态,这样就无需一直维护一个Cluster Autoscale的fork库。

鉴于这些需求,我们提出了一种设计,将扩展职责从Cluster Autoscaler的核心逻辑中分离出来。我们设计了一种插件自定义扩展器,它实现了gRPC客户端(类似custom cloud provider),这种自定义扩展器分为两个组件。


第一个组件是内置到Cluster Autoscaler中的gRPC客户端。这种扩展器使用与Cluster Autoscaler中的其他扩展器相同的接口,负责将Cluster Autoscaler中的有效节点组信息转换为定义好的protobuf 格式(见下文),接收gRPC 服务端的输出,并将其转换为最终的可选列表,提供给Cluster Autoscaler进行扩容。

service Expander {
  rpc BestOptions (BestOptionsRequest) returns (BestOptionsResponse) 
}message BestOptionsRequest {
  repeated Option options;
map<string, k8s.io.api.core.v1.Node> nodeInfoMap;
}message BestOptionsResponse {
  repeated Option options;
}message Option {
// ID of node to uniquely identify the nodeGroup
string nodeGroupId;
int32 nodeCount;
string debug;
  repeated k8s.io.api.core.v1.Pod pod;
}

第二个组件是gRPC服务端,这需要由用户实现。该服务端作为一个独立的应用或服务。通过客户端传递的信息以及复杂的扩展逻辑来选择需要扩容的节点组。当前通过gRPC传递的protobuf 消息是 Cluster Autoscaler中传递给扩展器的内容的(略微)转换版本。


在前面的例子中,基于权重的随机优先级扩展器可以很容易地通过服务端来读取优先级列表,并通过confimap配置权重百分比来实现。

我们的实现还包含一个故障保护选项。建议使用该选项将多个扩展器作为参数传递给Cluster Autoscaler。使用该选择后,如果服务端出现故障,Cluster Autoscaler仍然能够使用一个备用的扩展器进行扩展。


由于服务端作为一个独立的应用,因此可以在Cluster Autoscaler外开发扩展逻辑,且gRPC服务端可以根据用户需求实现自定义,因此这种方案对整个社区来说也非常有用。


从2022年开始,Airbnb 已经在内部使用这种方案来扩缩容所有的集群,当中没有出现任何问题。它允许我们动态地选择何时去扩展特定的节点组来满足Airbnb 的业务需求。通过这种方式实现了最初的开发目标--可扩展的自定义扩展器。

其他方面的改进

在迁移到异构Kubernetes集群的过程中,我们发现了其他一些可以对Cluster Autoscaler进行改进的bug。以下简要介绍:

  • Early abort for AWS ASGs with no capacity: 断开Cluster Autoscaler中等待节点尝试通过调用AWS EC2端点来检查ASG是否具有容量的循环。当启用该功能时,用户可以更快地进行扩缩容。之前,使用优先级的用户在每次尝试ASG启动之间必须等待15分钟,然后才能尝试较低优先级的ASG。
  • Caching launch templates to reduce AWS API calls: 为AWS ASG Launch Templates引入缓存。该变更可以允许使用大量ASGs,这对于我们的通用集群策略至关重要。之前,对于空的ASGs,Cluster Autoscaler会反复调用AWS端点来启用模板,导致AWS API限流。

总结

在过去的四年中,在Kubernetes集群配置中,Airbnb已经走了很长的路。Airbnb在单个平台上拥有最大的计算量,这为提高效率提供了强大的整合杠杆,我们现在专注于推广我们的集群设置。通过在Cluster Autoscaler 中开发和引入更加成熟的扩展器,可以实现更加复杂、围绕成本和多实例类型的特定扩展策略,并将有用的特性回馈社区。

相关实践学习
深入解析Docker容器化技术
Docker是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的Linux机器上,也可以实现虚拟化,容器是完全使用沙箱机制,相互之间不会有任何接口。Docker是世界领先的软件容器平台。开发人员利用Docker可以消除协作编码时“在我的机器上可正常工作”的问题。运维人员利用Docker可以在隔离容器中并行运行和管理应用,获得更好的计算密度。企业利用Docker可以构建敏捷的软件交付管道,以更快的速度、更高的安全性和可靠的信誉为Linux和Windows Server应用发布新功能。 在本套课程中,我们将全面的讲解Docker技术栈,从环境安装到容器、镜像操作以及生产环境如何部署开发的微服务应用。本课程由黑马程序员提供。 &nbsp; &nbsp; 相关的阿里云产品:容器服务 ACK 容器服务 Kubernetes 版(简称 ACK)提供高性能可伸缩的容器应用管理能力,支持企业级容器化应用的全生命周期管理。整合阿里云虚拟化、存储、网络和安全能力,打造云端最佳容器化应用运行环境。 了解产品详情: https://www.aliyun.com/product/kubernetes
目录
相关文章
|
4月前
|
人工智能 算法 调度
阿里云ACK托管集群Pro版共享GPU调度操作指南
本文介绍在阿里云ACK托管集群Pro版中,如何通过共享GPU调度实现显存与算力的精细化分配,涵盖前提条件、使用限制、节点池配置及任务部署全流程,提升GPU资源利用率,适用于AI训练与推理场景。
400 1
|
4月前
|
弹性计算 监控 调度
ACK One 注册集群云端节点池升级:IDC 集群一键接入云端 GPU 算力,接入效率提升 80%
ACK One注册集群节点池实现“一键接入”,免去手动编写脚本与GPU驱动安装,支持自动扩缩容与多场景调度,大幅提升K8s集群管理效率。
288 89
|
9月前
|
资源调度 Kubernetes 调度
从单集群到多集群的快速无损转型:ACK One 多集群应用分发
ACK One 的多集群应用分发,可以最小成本地结合您已有的单集群 CD 系统,无需对原先应用资源 YAML 进行修改,即可快速构建成多集群的 CD 系统,并同时获得强大的多集群资源调度和分发的能力。
402 9
|
9月前
|
资源调度 Kubernetes 调度
从单集群到多集群的快速无损转型:ACK One 多集群应用分发
本文介绍如何利用阿里云的分布式云容器平台ACK One的多集群应用分发功能,结合云效CD能力,快速将单集群CD系统升级为多集群CD系统。通过增加分发策略(PropagationPolicy)和差异化策略(OverridePolicy),并修改单集群kubeconfig为舰队kubeconfig,可实现无损改造。该方案具备多地域多集群智能资源调度、重调度及故障迁移等能力,帮助用户提升业务效率与可靠性。
|
11月前
|
存储 Kubernetes 监控
K8s集群实战:使用kubeadm和kuboard部署Kubernetes集群
总之,使用kubeadm和kuboard部署K8s集群就像回归童年一样,简单又有趣。不要忘记,技术是为人服务的,用K8s集群操控云端资源,我们不过是想在复杂的世界找寻简单。尽管部署过程可能遇到困难,但朝着简化复杂的目标,我们就能找到意义和乐趣。希望你也能利用这些工具,找到你的乐趣,满足你的需求。
992 33
|
11月前
|
Kubernetes 开发者 Docker
集群部署:使用Rancher部署Kubernetes集群。
以上就是使用 Rancher 部署 Kubernetes 集群的流程。使用 Rancher 和 Kubernetes,开发者可以受益于灵活性和可扩展性,允许他们在多种环境中运行多种应用,同时利用自动化工具使工作负载更加高效。
622 19
|
11月前
|
人工智能 分布式计算 调度
打破资源边界、告别资源浪费:ACK One 多集群Spark和AI作业调度
ACK One多集群Spark作业调度,可以帮助您在不影响集群中正在运行的在线业务的前提下,打破资源边界,根据各集群实际剩余资源来进行调度,最大化您多集群中闲置资源的利用率。
|
Prometheus Kubernetes 监控
OpenAI故障复盘 - 阿里云容器服务与可观测产品如何保障大规模K8s集群稳定性
聚焦近日OpenAI的大规模K8s集群故障,介绍阿里云容器服务与可观测团队在大规模K8s场景下我们的建设与沉淀。以及分享对类似故障问题的应对方案:包括在K8s和Prometheus的高可用架构设计方面、事前事后的稳定性保障体系方面。
|
11月前
|
Prometheus Kubernetes 监控
OpenAI故障复盘丨如何保障大规模K8s集群稳定性
OpenAI故障复盘丨如何保障大规模K8s集群稳定性
441 0
OpenAI故障复盘丨如何保障大规模K8s集群稳定性
|
缓存 容灾 网络协议
ACK One多集群网关:实现高效容灾方案
ACK One多集群网关可以帮助您快速构建同城跨AZ多活容灾系统、混合云同城跨AZ多活容灾系统,以及异地容灾系统。

推荐镜像

更多