OpenKruise v0.5.0 版本发布,支持无损的流式分批发布策略

简介: 目前在阿里巴巴内部云原生环境中,绝大部分应用都统一使用 OpenKruise 的能力做 Pod 部署、发布管理,而不少业界公司和阿里云上客户由于 K8s 原生 Deployment 等负载不能完全满足需求,也转而采用 OpenKruise 作为应用部署载体。

image.png

目前在阿里巴巴内部云原生环境中,绝大部分应用都统一使用 OpenKruise 的能力做 Pod 部署、发布管理,而不少业界公司和阿里云上客户由于 K8s 原生 Deployment 等负载不能完全满足需求,也转而采用 OpenKruise 作为应用部署载体。

背景问题

在介绍 OpenKruise 新增能力之前,我们先来看一下原生 K8s workload 所提供的发布能力:

  • Deployment 目前支持 maxUnavailable 和 maxSurge:

image.png

  • StatefulSet 目前支持 partition:

image.png

  • 其余 workload 如 DaemonSet,也只支持了 maxUnavailable。

以上这些策略在测试环境或是小场景下尚且可行,但其实无法完全满足大规模的应用场景。比方说:

  • 首先,Deployment 不支持灰度分批发布,你想只灰度升级其中 20% 的 Pod 做验证?抱歉做不到啊,用户只能设置小一些的 maxUnavailable 等着它全部发完,或者发布出现问题紧急 pause 暂停;
  • StatefulSet 确实支持灰度分批(partition),但目前是只能一个一个 Pod 来升级。如果 replicas 总数有个几百上千的量,那么一次发布可能要等到天黑。

v0.5.0 新增功能

这里我们只针对 v0.5.0 版本 CloneSet 和 SidecarSet 的两个主要功能改动来介绍,有兴趣的同学可以在 Github changelog 上看到版本改动明细:https://github.com/openkruise/kruise/blob/master/CHANGELOG.md

CloneSet 支持 maxSurge 策略

在阿里巴巴内部的云原生环境下,绝大部分无状态应用都使用 CloneSet 管理。为了应对超大规模应用的极致部署需求,我们在其中支持:

  • 原地升级(发布前后 Pod 对象不变、IP 不变、volume 不变,只升级容器的镜像)
  • 缩小 replicas 指定 Pod 删除
  • 丰富的发布策略(流式、灰度分批、优先级、打散等)

而在今年 2 月份的 Kruise v0.4.0 版本中,我们将 CloneSet 推出到开源。CloneSet 一经发布就广受关注,目前已经有多家知名互联网公司在调研使用。

最初版本的 CloneSet 并未支持 maxSurge(先扩后缩发布),只支持了 maxUnavailable、partition 等策略。这对阿里巴巴内部的大体量应用来说不是问题,但是很多社区用户的平台上都有小规模的应用,如果不能配置先扩后缩,那么在发布阶段可能会影响到应用的可用性。

在收到社区的 issue #250 #260 反馈后,我们在 CloneSet 中新增了 maxSurge 策略的支持并于 v0.5.0 版本中提供,在此也感谢社区 fatedier shiyan2016 等成员的参与贡献和宝贵建议。至此,CloneSet 已经覆盖了 K8s 原生 workload 的所有发布策略,下图构建了 CloneSet 目前提供的发布功能:

image.png

这里暂时不对 CloneSet 的发布策略做详细说明,我们后续会有专项文章来介绍。我们只看一下新增的 maxSurge 是如何配合流式、分批发布来实现的呢?接下来我们用几个简单的例子来看一下:

  1. 设置 maxSurge + maxUnavailable + partition 发布:

apiVersion: apps.kruise.io/v1alpha1
kind: CloneSet

...

spec:

replicas: 5          # Pod 总数为 5

updateStrategy:

maxSurge: 20%      # 多扩出来 5 * 20% = 1 个 Pod (rounding up)
maxUnavailable: 0  # 保证发布过程 5 - 0 = 5 个 Pod 可用
partition: 3       # 保留 3 个旧版本 Pod (只发布 5 - 3 = 2 个 Pod)

当开始发布时,CloneSet 会先根据 maxSurge 多扩出来一个 Pod,此时 Pod 总数为 6(5 个旧版,1 个新版):

$ kubectl get clone demo
NAME DESIRED UPDATED UPDATED_READY READY TOTAL AGE
demo 5 1 0 5 6 17m
随后,CloneSet 会在保证 maxUnavailable 的前提下逐渐把 Pod 删除、新建的方式更新,直到满足 partition=3 即剩余 3 个旧版本 Pod。此时,因为已经达到了期望的终态,CloneSet 会把新版本 Pod 删除一个,此时 Pod 总数为 5(3 个旧版,2 个新版):

$ kubectl get clone demo
NAME DESIRED UPDATED UPDATED_READY READY TOTAL AGE
demo 5 2 2 5 5 17m
这里可以观察一段时间,当需要继续往下发布时,再次修改 partition 为 0。然后,CloneSet 会再次根据 maxSurge 多扩出来一个 Pod,此时 Pod 总数为 6(3 个旧版,3 个新版):

$ kubectl get clone demo
NAME DESIRED UPDATED UPDATED_READY READY TOTAL AGE
demo 5 3 2 5 6 17m
随后,CloneSet 会在保证 maxUnavailable 的前提下逐渐把 Pod 删除、新建的方式更新,直到满足 partition=0 即所有 Pod 都升级到新版本。最后,CloneSet 会把新版本 Pod 删除一个,此时 Pod 总数为 5(5 个新版):

$ kubectl get clone demo
NAME DESIRED UPDATED UPDATED_READY READY TOTAL AGE
demo 5 5 5 5 5 17m

  1. maxSurge 配合原地升级:

CloneSet 提供了 Pod 原地升级和重建升级两种升级方式,都可以配合 maxSurge / maxUnavailable / partition 等策略来发布。

apiVersion: apps.kruise.io/v1alpha1
kind: CloneSet

...

spec:
updateStrategy:

  type: InPlaceIfPossible
maxSurge: 20%

如果在原地升级方式下配置了 maxSurge,CloneSet 会先扩出来 maxSurge 数量的 Pod,然后对旧版本 Pod 采用 in-place 的方式来升级(更新 Pod spec 中的 image 镜像),最后在满足 partition 终态之后再清理删掉 maxSurge 数量的 Pod。

通过这种方式,既保证了发布过程的业务可用性,也尽量使 Pod 发布过程中 IP、volume 等信息不变。

SidecarSet 支持 volume 注入合并

SidecarSet 是 Kruise 提供的另一个重磅功能,不同于 CloneSet/StatefulSet 这些管理业务 Pod 的 workload,SidecarSet 是负责统一管理集群中的 sidecar 容器版本和注入。

而 v0.5.0 版本中新增的功能,就是在 sidecar 容器注入的时候,解决了 SidecarSet 和 Pod 中 volume 重复定义的冲突问题。这也是来自于一个社区 issue #254 反馈,他们使用 SidecarSet 做日志采集 sidecar 的管理,并期望以旁路的方式注入到所有 Pod 中。

举个例子,我们需要往集群中每个 Pod 都注入一个日志采集 sidecar 容器。但是一来我们无法让每个应用开发者都在自己的 CloneSet/Deployment 中增加这个容器的定义,二来即使在所有应用的 workload 中都加了,如果我们想要升级这个日志采集容器的镜像版本,还得更新所有应用的 workload,这样做的成本实在太高了!

而 OpenKruise 提供的 SidcarSet 正是为了解决上述这个问题。我们只需要将 sidecar 定义写到一个全局的 SidcarSet 中,不管用户用 CloneSet、Deployment、StatefulSet 等任何方式部署,扩出来的 Pod 中都会注入我们定义好的 sidecar 容器。

image.png

以日志采集为例,我们可以先定义一个 SidecarSet:

apiVersion: apps.kruise.io/v1alpha1
kind: SidecarSet
metadata:
name: log-sidecar
spec:
selector:

matchLabels:
  app-type: long-term  # 往所有带 long-term 标签的 Pod 中注入

containers:

  • name: log-collector
    image: xxx:latest
    volumeMounts:

    • name: log-volume
      mountPath: /var/log # 将 log-volume 的卷挂到 /var/log 目录,采集这个目录下的日志

    volumes:

  • name: log-volume # 定义一个名为 log-volume 的卷
    emptyDir: {}
    这里大家可能会问,如果每个应用打出日志的目录路径不同,怎么办?不要急,这就是本次 volume merge 的功能所在。

这个时候,比如有一个应用 A 扩容的原始 Pod 如下:

apiVersion: v1
kind: Pod
metadata:
labels:

app-type: long-term

spec:
containers:

  • name: app
    image: xxx:latest
    volumeMounts:

    • name: log-volume
      mountPath: /app/logs # 应用自己的日志目录

    volumes:

  • name: log-volume # 定义一个名为 log-volume 的卷
    persistentVolumeClaim:

    claimName: pvc-xxx

    那么 kruise webhook 就会将 SidecarSet 中定义的 log sidecar 容器注入到 Pod 中:

apiVersion: v1
kind: Pod
metadata:
labels:

app-type: long-term

spec:
containers:

  • name: app
    image: xxx:latest
    volumeMounts:

    • name: log-volume
      mountPath: /app/logs # 应用自己的日志目录
  • name: log-collector
    image: xxx:latest
    volumeMounts:

    • name: log-volume
      mountPath: /var/log

    volumes:

  • name: log-volume # 定义一个名为 log-volume 的卷
    persistentVolumeClaim:

    claimName: pvc-xxx

    可以看到,因为 SidecarSet 和 Pod 中定义的日志 volume 名字都叫 log-volume,那么在注入的时候就会以 Pod 中定义的 volume 为准。比如这里 Pod 中的 volume 采用了 pvc 的方式来挂载 pv,那么注入 sidecar 后,同样会把这个卷挂到 sidecar 容器中的 /var/log 目录下,然后执行日志采集即可。

这样以 SidecarSet 的方式管理 sidecar 容器,既和应用部署发布做了解耦,也同样可以和应用容器共享 volume 卷,来实现日志采集、监控等相关 sidecar 功能。

总结

本次 v0.5.0 版本的升级,主要带来了应用无损发布和 sidecar 容器管理上更加便捷的能力。

后续 OpenKruise 还会持续在应用部署/发布能力上做出更深的优化,我们也欢迎更多的同学参与到 OpenKruise 社区来,共同建设一个场景更加丰富、完善的 K8s 应用管理、交付扩展能力,能够面向更加规模化、复杂化、极致性能的场景。

本文转自<阿里巴巴云原生技术圈>——阿里巴巴云原生小助手

相关实践学习
容器服务Serverless版ACK Serverless 快速入门:在线魔方应用部署和监控
通过本实验,您将了解到容器服务Serverless版ACK Serverless 的基本产品能力,即可以实现快速部署一个在线魔方应用,并借助阿里云容器服务成熟的产品生态,实现在线应用的企业级监控,提升应用稳定性。
云原生实践公开课
课程大纲 开篇:如何学习并实践云原生技术 基础篇: 5 步上手 Kubernetes 进阶篇:生产环境下的 K8s 实践 相关的阿里云产品:容器服务&nbsp;ACK 容器服务&nbsp;Kubernetes&nbsp;版(简称&nbsp;ACK)提供高性能可伸缩的容器应用管理能力,支持企业级容器化应用的全生命周期管理。整合阿里云虚拟化、存储、网络和安全能力,打造云端最佳容器化应用运行环境。 了解产品详情:&nbsp;https://www.aliyun.com/product/kubernetes
相关文章
|
4月前
|
Prometheus Cloud Native 调度
Sentinel 新版本发布,提升配置灵活性以及可观测配套
Sentinel 新版本发布,提升配置灵活性以及可观测配套
|
4月前
|
自然语言处理 JavaScript 前端开发
MFTCoder 重磅升级 v0.3.0 发布,支持 Mixtral 等更多模型,支持收敛均衡,支持 FSDP
今天,我们对MFTCoder进行重磅升级,比如对Mixtral这个开源MoE的SOTA的多任务微调的支持;再比如我们提供了之前论文中提到的收敛均衡技术:Self-Paced Loss。 MFTCoder已适配支持了更多的主流开源LLMs,如Mixtral、Mistral、Deepseek、 Llama、CodeLlama、Qwen、CodeGeeX2、StarCoder、Baichuan2、ChatGLM2/3、GPT-Neox等。以Deepseek-coder-33b-base为底座,使用MFTCoder微调得到的CodeFuse-Deepseek-33B在HumaneEval测试中pass
65 0
EMQ
|
10月前
|
SQL 消息中间件 存储
eKuiper 1.10.0 发布:定时规则和 EdgeX v3 适配
作为一个里程碑版本,eKuiper 1.10.0 升级了基础依赖的版本,如 Go 语言版本升级到 1.20、EdgeX 支持最新的大版本 Minnesota(v3)等。
EMQ
204 0
|
缓存 Kubernetes 容灾
应用发布新版本如何保障业务流量无损(一)| 学习笔记
快速学习应用发布新版本如何保障业务流量无损
147 0
应用发布新版本如何保障业务流量无损(一)| 学习笔记
|
开发框架 运维 Kubernetes
应用发布新版本如何保障业务流量无损(二)| 学习笔记
快速学习应用发布新版本如何保障业务流量无损
138 0
应用发布新版本如何保障业务流量无损(二)| 学习笔记
|
人工智能 安全 前端开发
【音频】如何保证Serverless业务部署更新的一致性|学习笔记
快速学习【音频】如何保证Serverless业务部署更新的一致性。
170 0
【音频】如何保证Serverless业务部署更新的一致性|学习笔记
|
Kubernetes Cloud Native Dubbo
应用发布新版本如何保障流量无损
业务的发展需要应用系统不断的迭代,我们无法避免应用频繁变更发版,但是我们可以提升应用升级过程中的稳定性和高可用。
应用发布新版本如何保障流量无损
|
负载均衡 Dubbo JavaScript
Dubbo服务治理之灰度发布方案(版本发布控制影响范围)
Dubbo服务治理之灰度发布方案(版本发布控制影响范围)
Dubbo服务治理之灰度发布方案(版本发布控制影响范围)
|
测试技术 Serverless 开发者
SAE 应用分批发布与无损下线的最佳实践|学习笔记
快速学习 SAE 应用分批发布与无损下线的最佳实践
104 0
SAE 应用分批发布与无损下线的最佳实践|学习笔记
|
缓存 Kubernetes Cloud Native
Fluid 0.5 版本发布:开启数据集缓存在线弹性扩缩容之路
为了解决大数据、AI 等数据密集型应用在云原生场景下,面临的异构数据源访问复杂、存算分离 I/O 速度慢、场景感知弱调度低效等痛点问题,南京大学PASALab、阿里巴巴、Alluxio 在 2020 年 6 月份联合发起了开源项目 Fluid。
Fluid 0.5 版本发布:开启数据集缓存在线弹性扩缩容之路