OpenKruise v0.7.0 版本发布:新增周期任务分发控制器

本文涉及的产品
服务治理 MSE Sentinel/OpenSergo,Agent数量 不受限
容器镜像服务 ACR,镜像仓库100个 不限时长
可观测监控 Prometheus 版,每月50GB免费额度
简介: OpenKruise 是阿里云开源的大规模应用自动化管理引擎,在功能上对标了 Kubernetes 原生的 Deployment/StatefulSet 等控制器,但 OpenKruise 提供了更多的增强功能,如:优雅原地升级、发布优先级/打散策略、多可用区 workload 抽象管理、统一 sidecar 容器注入管理等,这些都是经历了阿里巴巴超大规模应用场景打磨出的核心能力,这些 feature 帮助我们应对了更加多样化的部署环境和需求、为集群维护者和应用开发者带来了更加灵活的部署发布组合策略。

头图.png

作者 | 王思宇(酒祝)
来源|阿里巴巴云原生公众号

前言

OpenKruise 是阿里云开源的大规模应用自动化管理引擎,在功能上对标了 Kubernetes 原生的 Deployment/StatefulSet 等控制器,但 OpenKruise 提供了更多的增强功能,如:优雅原地升级、发布优先级/打散策略、多可用区 workload 抽象管理、统一 sidecar 容器注入管理等,这些都是经历了阿里巴巴超大规模应用场景打磨出的核心能力,这些 feature 帮助我们应对了更加多样化的部署环境和需求、为集群维护者和应用开发者带来了更加灵活的部署发布组合策略。

目前在阿里巴巴内部云原生环境中,应用全部统一使用 OpenKruise 的能力做 Pod 部署、发布管理,而不少业界公司和阿里云上的客户由于 K8s 原生 Deployment 等负载不能完全满足需求,也转而采用 OpenKruise 作为应用部署载体。我们希望 OpenKruise 可以让每一位 Kubernetes 开发者和阿里云上的用户,都能便捷地使用上阿里巴巴内部云原生应用所统一使用的部署发布能力!

附:OpenKruise 在阿里巴巴的应用参考文章

新版本概览

Kruise 在 2020 年 11 月 16 日发布了最新的 v0.7.0 版本,包括了一些主体功能和优化迭代。以下内容将对新版本做一个整体的概览介绍。

1. Advanced StatefulSet

Advanced StatefulSet 基于原生 StatefulSet 上增强了发布能力,比如 maxUnavailable 并行发布、原地升级等。

官网文档:https://openkruise.io/zh-cn/docs/advanced_statefulset.html 

1)OpenKruise 中首个进入 v1beta1 版本的 CRD

过去 OpenKruise 中提供的自定义 workload 均是 v1alpha1 版本,随着阿里巴巴内部和众多社区用户的大规模使用,我们会逐渐将稳定的能力升级到更高的版本。本次 Advanced StatefulSet 是首个进入 v1beta1 的 CRD,后续 CloneSet、SidecarSet 等资源也会逐渐跟进。

那么对于过去使用 v1alpha1 版本 Advanced StatefulSet 的用户,升级到 v1beta1 版本是否会有问题呢?这里明确地告诉大家:是没有风险的。不仅存量的 Advanced StatefulSet 对象会自动转到 v1beta1 版本,而且用户还可以继续沿用 v1alpha1 的接口和客户端来操作新版本的对象。

1.png

首先看图中新版本 Advanced StatefulSet 的 CRD 定义:

  • 设置了 conversion 字段,其中指定通过 kruise-webhook-service 来提供 convert 服务,这个 service 后端挂载的其实就是 kruise-controller-manager 节点。Kruise 的 MutatingWebhookConfiguration/ValidationWebhookConfiguration 中配置的也是这个 service。
  • versions 列表中目前有 v1alpha1 和 v1beta1 两个版本,其中后者的 storage 设置为 true,表示在 etcd 中存储的是这个版本。

再来看图中的 conversion 链路:

  • 当用户直接使用 v1beta1 接口操作 Advanced StatefulSet,不需要 conversion 转换,apiserver 直接和 etcd 交互。
  • 如果用户使用老版本的 v1alpha1 接口操作 Advanced StatefulSet:

    • 写操作:apiserver 会先调用 webhook 将用户写的 v1alpha1 对象转为 v1beta1,并写入 etcd。
    • 读操作:apiserver 将来自于 etcd 的 v1beta1 对象通过 webhook 转为 v1alpha1,再返回给用户。

对多版本 conversion 的逻辑有兴趣的同学可以阅读源码:https://github.com/openkruise/kruise/blob/master/apis/apps/v1alpha1/statefulset_conversion.go

2)Ordinal 序号保留

通常来说,不管是社区原生 StatefulSet 或是 Advanced StatefulSet,扩容出来的 Pod 以及 PVC 都是连续序号。比如,对于一个 replicas=4 的 StatefulSet,那么创建出来的 Pod 序号则是 [0,1,2,3]。
但有些情况下,用户需要指定删除一个序号的 Pod,并希望 StatefulSet 暂时跳过这个序号。这种需求在使用 Local PV 的场景下尤为突出:当一些节点出现故障的时候,如果只是删除原 Pod,那么当重建出相同序号的 Pod 复用了原有的 PVC/PV,还是会调度到原来的节点上。

从 Advanced StatefulSet 的 v1beta1 版本开始(对应 Kruise 版本 >= v0.7.0),我们提供了序号保留功能:

apiVersion: apps.kruise.io/v1beta1
kind: StatefulSet
spec:
  # ...
  replicas: 4
  reserveOrdinals:
  - 1

通过在 reserveOrdinals 字段中写入需要保留的序号,Advanced StatefulSet 会自动跳过创建这些序号的 Pod。如果 Pod 已经存在,则会被删除。注意,spec.replicas 是期望运行的 Pod 数量,spec.reserveOrdinals 是要跳过的序号。

因此,对于一个 replicas=4, reserveOrdinals=[1] 的 Advanced StatefulSet,实际运行的 Pod 序号为 [0,2,3,4]

  • 如果要把 Pod-3 做迁移并保留序号,则把 3 追加到 reserveOrdinals 列表中。控制器会把 Pod-3 删除并创建 Pod-5(此时运行中 Pod 为 [0,2,4,5])。
  • 如果只想删除 Pod-3,则把 3 追加到 reserveOrdinals 列表并同时把 replicas 减一修改为 3。控制器会把 Pod-3 删除(此时运行中 Pod 为 [0,2,4])。

2. CloneSet

CloneSet 控制器提供了高效管理无状态应用的能力,它可以对标原生的 Deployment,但相比之下,CloneSet 提供了很多增强功能。

官网文档:http://openkruise.io/zh-cn/docs/cloneset.html 

1)partition 支持百分比

CloneSet 中支持使用 partition 字段控制发布时的灰度数量,过去版本中这个字段只能设置为一个绝对值,而从 v0.7.0 开始可以设置为百分比。它的语义是:保留旧版本 Pod 的数量或百分比,默认为 0。

apiVersion: apps.kruise.io/v1alpha1
kind: CloneSet
spec:
  # ...
  updateStrategy:
    partition: 80%  # 表示只将 20% 比例的 Pod 升级为新版本;或者也可以设置为保留旧版本数量的绝对值

如果在发布过程中设置了 partition

  • 如果是数字,控制器会将 (replicas - partition) 数量的 Pod 更新到最新版本。
  • 如果是百分比,控制器会将 (replicas * (100% - partition)) 数量的 Pod 更新到最新版本。

2)其他优化点

解决了过去一些边缘场景下的 bug(其中要感谢社区同学们的反馈和贡献):

  • 不满足 selector 匹配条件的 Pod 自动去除 owner reference。
  • 解决 resourceVersionExpectation 偶发的 race condition。
  • 解决使用了 gracePeriodSeconds 优雅原地升级时连续升级的版本覆盖问题。

3. AdvancedCronJob(新增控制器)

AdvancedCronJob 是 v0.7.0 中新增的控制器,它一个 CronJob 的扩展版本,感谢来自 Spectro Cloud 的 rishi-anand 的贡献!

原生 CronJob 只支持创建 Job 执行任务,而 AdvancedCronJob 允许用户设置多种不同类型的 template,即用户可以配置 schedule 规则周期性创建 Job 或 BroadcastJob 来执行任务(后者可以分发 Job 到所有或特定 node 上执行任务)。

apiVersion: apps.kruise.io/v1alpha1
kind: AdvancedCronJob
spec:
  template:

    # Option 1: use jobTemplate, which is equivalent to original CronJob
    jobTemplate:
      # ...

    # Option 2: use broadcastJobTemplate, which will create a BroadcastJob object when cron schedule triggers
    broadcastJobTemplate:
      # ...

    # Options 3(future): ...
  • jobTemplate:与原生 CronJob 一样创建 Job 执行任务。
  • broadcastJobTemplate:周期性创建 BroadcastJob 执行任务。

2.png

4. Webhook 自运维控制器

Kruise 运行的 kruise-controller-manager 组件,其中包含了多个 controller 和 webhook。

了解 webhook 的同学应该知道,它需要生成一套完整的 TLS cert 证书,webhook server 端的 HTTPS 服务启动时使用这个证书,同时要把 ca 证书写到 MutatingWebhookConfiguration、ValidatingWebhookConfiguration、CRD conversion 的 caBundle 中。

因此,对于如何自动生成证书、配置到上述 configuration 资源中,以及如果 configuration 被重置后如何重新写入,都是当前写 webhook 会遇到的运维难题。

Kruise 最新版本中实现了一个 webhook controller,这个控制器支持对 Kruise 自身的 TLS certs 以及相关配置资源做自运维。即:自动生成证书 -> 存储到 secret -> 写到本地供 HTTPS 服务启动使用 -> 将 ca cert 写入 MutatingWebhookConfiguration / ValidatingWebhookConfiguration / CRD conversion,并持续 list watch 这些资源,一旦发生变化,重新刷入 ca 证书。

有兴趣的同学可以看源码:https://github.com/openkruise/kruise/blob/master/pkg/webhook/util/controller/webhook_controller.go

后续我们也会将这部分功能抽出到一个公共仓库中,大家在编写 webhook 的时候可以很方便地复用这套 webhook 自运维能力。

总结

后续,OpenKruise 还会持续在应用自动化上做出更深的优化,本月底会开放 OpenKruise 下一步的 Roadmap 规划,我们将不再局限于 workload 应用管理能力,而会扩展到更多风险防控、operator 增强等领域。

同时也欢迎每一位云原生爱好者共同参与 OpenKruise 的建设。与其他开源项目不同,OpenKruise 并不是阿里内部代码的复刻,恰恰相反,OpenKruise Github 仓库是阿里内部代码库的 upstream。因此,你贡献的每一行代码,都将运行在阿里内部的所有 Kubernetes 集群中、都将共同支撑阿里巴巴全球顶尖规模的云原生应用场景!钉钉搜索群号:23330762,即可加入交流群!

相关实践学习
通过Ingress进行灰度发布
本场景您将运行一个简单的应用,部署一个新的应用用于新的发布,并通过Ingress能力实现灰度发布。
容器应用与集群管理
欢迎来到《容器应用与集群管理》课程,本课程是“云原生容器Clouder认证“系列中的第二阶段。课程将向您介绍与容器集群相关的概念和技术,这些概念和技术可以帮助您了解阿里云容器服务ACK/ACK Serverless的使用。同时,本课程也会向您介绍可以采取的工具、方法和可操作步骤,以帮助您了解如何基于容器服务ACK Serverless构建和管理企业级应用。 学习完本课程后,您将能够: 掌握容器集群、容器编排的基本概念 掌握Kubernetes的基础概念及核心思想 掌握阿里云容器服务ACK/ACK Serverless概念及使用方法 基于容器服务ACK Serverless搭建和管理企业级网站应用
相关文章
|
5月前
|
Kubernetes 监控 Java
发布策略:蓝绿部署、金丝雀发布(灰度发布)、AB测试、滚动发布、红黑部署的概念与区别
发布策略:蓝绿部署、金丝雀发布(灰度发布)、AB测试、滚动发布、红黑部署的概念与区别
689 0
|
6月前
|
负载均衡 算法 测试技术
通用快照方案问题之灰度发布中实现用户请求到新旧版本服务的分流如何解决
通用快照方案问题之灰度发布中实现用户请求到新旧版本服务的分流如何解决
55 0
|
应用服务中间件 数据安全/隐私保护
请教一个问题,阿里云的edas每次发版,都会有几个版本的deployment的版本存在,怎么设置自动只保留5个版本的啊?
请教一个问题,阿里云的edas每次发版,都会有几个版本的deployment的版本存在,怎么设置自动只保留5个版本的啊?
82 2
|
8月前
|
Kubernetes Cloud Native 网络协议
云原生|kubernetes部署和运行维护中的错误汇总(不定时更新)
云原生|kubernetes部署和运行维护中的错误汇总(不定时更新)
2284 0
EMQ
|
SQL 消息中间件 存储
eKuiper 1.10.0 发布:定时规则和 EdgeX v3 适配
作为一个里程碑版本,eKuiper 1.10.0 升级了基础依赖的版本,如 Go 语言版本升级到 1.20、EdgeX 支持最新的大版本 Minnesota(v3)等。
EMQ
235 0
|
运维 Cloud Native 数据可视化
KubeVela 1.7 版本解读: 接管你的已有工作负载
KubeVela 1.7 版本已经正式发布一段时间,在此期间 KubeVela 正式晋级成为了 CNCF 的孵化项目,开启了一个新的里程碑。而 KubeVela 1.7 本身也是一个转折点,由于 KubeVela 从一开始就专注于可扩展体系的设计,对于控制器核心功能的需求也开始逐步收敛,我们开始腾出手来更加专注于用户体验、易用性、以及性能。在本文中,我们将重点挑选 1.7 版本中的工作负载接管、性
|
运维 Kubernetes Cloud Native
KubeVela 1.7 版本解读:接管你的已有工作负载
KubeVela 1.7 版本解读:接管你的已有工作负载
|
运维 Kubernetes Cloud Native
OpenKruise V1.4 版本解读:新增 Job Sidecar Terminator 能力
OpenKruise V1.4 版本解读:新增 Job Sidecar Terminator 能力
|
运维 Kubernetes Cloud Native
Rainbond 5.6 版本发布,增加多种安装方式,优化拓扑图操作体验
Rainbond 5.6 版本,主要致力于提升拓扑图操作效率以及快速安装体验,降低用户使用门槛。
Rainbond 5.6 版本发布,增加多种安装方式,优化拓扑图操作体验
|
运维 Kubernetes Cloud Native
OpenKruise v1.2:新增 PersistentPodState 实现有状态 Pod 拓扑固定与 IP 复用
在 v1.2 版本中,OpenKruise 提供了一个名为 PersistentPodState 的新 CRD 和控制器,在 CloneSet status 和 lifecycle hook 中新增字段, 并对 PodUnavailableBudget 做了多重优化。