阿里开源!云原生应用自动化引擎 OpenKruise | 直击 KubeCon

简介: 在近期开展的 KubeCon China 2019 上,阿里云将陆续为全球用户分享阿里巴巴超大规模云原生落地实践、云原生前沿技术与应用包括 OpenKruise 开源项目、开放云原生应用中心(Cloud Native App Hub),同时将重磅发布边缘容器、云原生应用管理与交付体系等产品和服务。

image

阿里妹导读:在近期开展的 KubeCon China 2019 上,阿里云将陆续为全球用户分享阿里巴巴超大规模云原生落地实践、云原生前沿技术与应用包括 OpenKruise 开源项目、开放云原生应用中心(Cloud Native App Hub),同时将重磅发布边缘容器、云原生应用管理与交付体系等产品和服务。

接下来的三天,阿里妹将连线会场,为你带来实时报道。

2019年6月24日至26日,由 CNCF 主办的云原生技术大会 KubeCon 在中国上海盛装启幕,阿里云容器平台团队正式宣布开源重量级项目 OpenKruise,将基于阿里巴巴经济体多年大规模应用部署、发布与管理最佳实践沉淀的能力开放给业界。

OpenKruise 是阿里巴巴开源的 Kubernetes 之上云原生应用自动化的引擎。Kruise 项目源自于阿里巴巴经济体应用过去多年的大规模应用部署、发布与管理的最佳实践,源于阿里云Kubernetes服务数千客户的需求沉淀。

“云原生应用自动化引擎”加持下的阿里经济体“全面上云”

随着云原生概念的兴起,越来越多的应用开始尝试在云原生的土壤上耕耘。那么什么是云原生?简而言之,云原生就是一套能够充分利用“云”的能力,高效构建与交付应用的方法论集合,使得应用容器化的用户可以充分的利用云的弹性和“不可变基础设施”等优势专注于自身核心业务价值。

当前,阿里巴巴基础设施的云原生演进与升级也正在如火如荼的进行。而在这个阿里巴巴经济体整体云化的过程中,阿里内部在超大规模的互联网场景中,已经开始进行大量的云原生的理念落地实践,比如轻量级容器化。

阿里巴巴经济体正在大规模推进应用的轻量级容器化,从而达成利用容器的敏捷和一致等特性快速构建符合云原生理念的电商站点交付的能力,适应类似“双十一”大促的严苛技术需求。再比如说云原生应用管理,阿里巴巴经济体正在将 Kubernetes 等项目的应用编排与自动化能力,穿透到上层运维框架当中,驱动电商应用按照云原生的技术理念进行编排、交付、运行。

在阿里巴巴经济体的整体云原生化过程当中,阿里的技术团队逐渐沉淀出了一套紧贴上游社区标准,适应互联网规模化场景的技术理念与最佳实践。这其中,最重要的无疑是如何对应用进行自动化的发布、运行和管理。

OpenKruise:来自阿里经济体云原生化历程的宝贵经验与最佳实践

在 KubeCon 上海,阿里云容器平台团队正式宣布了重量级项目 OpenKruise(以下简称 Kruise)的开源。

Kruise 是 cruise 的谐音,"k" for Kubernetes。字面意义是巡航或豪华游艇,寓意 Kubernetes 上应用的自动巡航,满载阿里巴巴多年应用部署管理经验。

Kruise 的目标是 automate everything on Kubernetes ! Kruise 项目源自于阿里巴巴经济体应用过去多年的大规模应用部署、发布与管理的最佳实践,源于容器平台团队对集团应用规模化运维,规模化建站的能力,源于阿里云 Kubernetes 服务数千客户的需求沉淀。Kruise 借力于云原生社区,集成阿里巴巴云原生实践之精华,反哺社区,指引业界云原生化最佳实践,少走弯路。

OpenKruise 是阿里巴巴开源的 Kubernetes 之上云原生应用自动化的引擎。Kruise 核心在于自动化,我们将从不同维度解决 Kubernetes 之上应用的自动化,包括,部署、升级、弹性扩缩容、Qos 调节、健康检查、迁移修复等等。此次 Kruise 开源的内容主要在应用部署,升级方面,即一套增强版 controller 组件用于应用的部署、升级、运维。后续,Kruise 会依次开源智能化的弹性扩缩容组件,以及应用 Qos 自调节能力的组件等。

Kruise Controllers:将 Kubernetes 的“控制器模式”进行到底

以下内容主要介绍 Kruise Controllers 一套用于 Kubernetes 之上应用自动化部署管理的 controller 组件。

众所周知,Kubernetes 项目的核心原理就是“控制器模式”。

目前,Kubernetes 项目默认已经提供了一套 Controller 组件,例如 Deployment、Statefulset、DaemonSet 等,这些 Controller 提供了比较丰富的应用部署和管理功能。但是,随着 Kubernetes 的使用范围越来越广,真实的企业与规模性场景中的业务诉求与上游 Controller 功能不匹配的情况也越来越常见。

以阿里巴巴为例:阿里巴巴内部的 Kubernetes 集群需要服务涵盖50几个BU,上万种应用。这个体量非常庞大,对规模性和高可用性带来了巨大的挑战。与此同时,阿里云上的 Kubernetes 服务也接入了上千家企业客户,收集并支撑了各种各样的客户需求。这些诉求与最后阿里经济体的实践经验,最终促成了 Kruise 开源项目的诞生。

Kruise 第一期开源主要包含以下Controller,后续会加入更多。

Advanced StatefulSet:具备丰富发布策略、支持原地升级的 StatefulSet

Advanced StatefulSet扩展了原生的StatefulSet,加入了两个新的特性。

  • 原地升级 (In-place update strategy)

原生的 StatefulSet 在做 rolling update 的时候会销毁并且重建 pods. 这在阿里巴巴规模体量的场景下,代价巨大。

  • 首先,所有被删除的应用的 Pods 需要被重新调度一遍,由于 pod 数量大,这对调度带来了不必要的开销,更糟的是,重新调度的 pod 无法正常被调度,由于资源被占用,亲和特性等其他原因。Pod 被重新调度到新的 node上,损失了原来的本地 state, 虽然通常可以被重建,但是还是带来额外开销。
  • 重调度后的 pods 很有可能分布在不同的机器上,由于网络拓扑结构的改变,需要重新申请 IP, 有些依赖 IP 保持的应用无法正常工作,此外,对网络流量的传输带来了不确定性。
  • 针对多容器的 Pod,升级 sidecar 容器而导致主容器重建,通常是不可接受的。

Advanced StatefulSet 引入了原地升级功能,允许在不销毁 pod 的情况下,更新容器 image。这样带来的好处是效率和稳定性。效率很明显,pod 不需要被重新调度了,还是跑在原来的 node,一些本地存储 state 还是可以保留。稳定性体现在 IP 保持,网络拓扑以及流量结构基本不变,稳定性在阿里巴巴及阿里云经济体中一直以来是一个极其重要的指标。

  • 允许最大不可用实例的配置(Max Unavailable)

社区原生的 StatefulSet 在升级的过程中是不允许同时升级多个实例的,这主要是为了某些有状态应用需要依次按序升级的需求。但是,从阿里巴巴场景,以及阿里云容器平台之上的客户了解到,许多应用不需要依次按序升级的语义,这样带来的问题是效率太低。特别是像阿里巴巴一些应用实例数巨大的场景,问题尤其显著。

MaxUnavailable 的功能正是为了解决这个问题,它允许应用实例被并行升级,且保持始终保持最大不可用的实例数不超过 MaxUnavailable 的限制数。

image

Broadcast Job:像 DaemonSet 那样运行的一次性 Job

Broadcast Job 会在集群中每个node上面跑一个 pod 直至结束。类似于社区的DaemonSet,区别在于 DaemonSet 始终保持一个 pod 长服务在每个 node 上跑,而 BroadcastJob 中最终这个 pod 会结束。相比 DaemonSet,Broadcast 结束后不再占用资源,这在某些场景中特别适用,比如升级 node 中某些组件,检测node 上一些配置是否正确等。

image

SidecarSet:大规模场景下 Sidecar 管理利器

Sidecar 在 Kubernetes 中是一个辅助容器的概念,和主容器跑在同一个 pod 中。Sidecar 容器一般是一些基础服务组件如 monitoring 容器,log collection 容器等。

在一个公司中,主业务容器和基础组件容器通常由不同的团队开发和维护,多个团队同时操作和修改同一份 yaml 文件或同一个 API 资源对象,时常会产生一些冲突,且不便于管理。SidecarSet 的理念在于将主业务容器和辅助容器的运维模式解耦。当业务用户提交应用时,不需要显示指定 sidecar 容器,由 sidecar 容器相应的团队编写规则负责自动注入。并且在容器运维和升级时候,利用 Advanced Statefulset 原地升级的功能,业务团队和基础架构团队分别按照自己定义的策略升级各自相应的容器,而不需要耦合在一起升级,产生不必要的影响。Istio 其实采用类似的思想自动给业务容器注入 sidecar 容器的功能,但是其缺乏 sidecar 容器后续升级运维的能力。SidecarSet 有效地把 Sidecar 容器的部署和管理抽象出来。

image

OpenKruise 正在面向开源社区招募合作伙伴与子项目!

Kruise 社区的准则,是基于 Kubernetes 的核心技术理念来构建更强大的自动化能力。目前,Kruise 正在计划发布更多的 Controller 来覆盖更多的场景和功能比如丰富的发布策略、金丝雀发布、蓝绿发布、分批发布等等。

更为重要的是,OpenKruise 是一个 Umbrella 项目,OpenKruise 的维护者们,正以最开放的姿态面向全球招募合作伙伴和贡献者。没错,我们非常期待您能够为 OpenKruise 贡献和共建新的自动化能力,或者一起来共同推Kubernetes 云原生应用编排能力的演进与发展。

原文发布时间为: 2019-06-25
本文作者:未来已来
本文来自云栖社区合作伙伴“ 阿里技术”,了解相关信息可以关注“ 阿里技术”。

相关实践学习
深入解析Docker容器化技术
Docker是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的Linux机器上,也可以实现虚拟化,容器是完全使用沙箱机制,相互之间不会有任何接口。Docker是世界领先的软件容器平台。开发人员利用Docker可以消除协作编码时“在我的机器上可正常工作”的问题。运维人员利用Docker可以在隔离容器中并行运行和管理应用,获得更好的计算密度。企业利用Docker可以构建敏捷的软件交付管道,以更快的速度、更高的安全性和可靠的信誉为Linux和Windows Server应用发布新功能。 在本套课程中,我们将全面的讲解Docker技术栈,从环境安装到容器、镜像操作以及生产环境如何部署开发的微服务应用。本课程由黑马程序员提供。     相关的阿里云产品:容器服务 ACK 容器服务 Kubernetes 版(简称 ACK)提供高性能可伸缩的容器应用管理能力,支持企业级容器化应用的全生命周期管理。整合阿里云虚拟化、存储、网络和安全能力,打造云端最佳容器化应用运行环境。 了解产品详情: https://www.aliyun.com/product/kubernetes
相关文章
|
4月前
|
人工智能 Cloud Native 安全
云原生+AI 为企业出海提供全新技术引擎!明天见
5月22日 14:00「飞天发布时刻」,阿里云云原生应用平台产品负责人李国强将重磅揭晓面向 AI 场景的云原生产品体系升级,通过弹性智能的全球一体化架构、开箱即用的云原生 AI 工程化能力,为中国企业出海提供全新技术引擎。
|
9月前
|
Java 测试技术 数据安全/隐私保护
软件测试中的自动化策略与工具应用
在软件开发的快速迭代中,自动化测试以其高效、稳定的特点成为了质量保证的重要手段。本文将深入探讨自动化测试的核心概念、常见工具的应用,以及如何设计有效的自动化测试策略,旨在为读者提供一套完整的自动化测试解决方案,帮助团队提升测试效率和软件质量。
|
5月前
|
Kubernetes Cloud Native Serverless
OpenKruise v1.8版本解读:解锁云原生应用管理的无限可能
OpenKruise在2025年2月发布了最新的1.8版本。此版本带来了诸多重要的更新与增强,致力于进一步提升云原生应用管理的效率、弹性和可靠性。
|
5月前
|
人工智能 算法 物联网
5G赋能工业自动化:构建未来工厂的新引擎
5G赋能工业自动化:构建未来工厂的新引擎
145 10
|
5月前
|
人工智能 运维 Cloud Native
Argo Workflows at KubeCon Europe 2025: 多元场景的云原生任务编排
Argo Workflow在KubeCon Europe 2025展示了其在AI/ML/HPC任务、事件驱动、平台工程、批量数据处理、混沌测试等多元场景的云原生任务编排能力。
|
7月前
|
Cloud Native Serverless 数据中心
阿里云ACK One:注册集群支持ACS算力——云原生时代的计算新引擎
ACK One注册集群已正式支持ACS(容器计算服务)算力,为企业的容器化工作负载提供更多选择和更强大的计算能力。
|
7月前
|
Cloud Native Serverless 数据中心
阿里云ACK One:注册集群支持ACS算力——云原生时代的计算新引擎
阿里云ACK One:注册集群支持ACS算力——云原生时代的计算新引擎
206 10
|
6月前
|
消息中间件 存储 Cloud Native
基于 RocketMQ 的云原生 MQTT 消息引擎设计
基于 RocketMQ 的云原生 MQTT 消息引擎设计
172 1
|
7月前
|
Kubernetes 持续交付 开发工具
阿里云协同万兴科技落地ACK One GitOps方案,全球多机房应用自动化发布,效率提升50%
阿里云协同万兴科技落地ACK One GitOps方案,全球多机房应用自动化发布,效率提升50%
175 2
|
7月前
|
Kubernetes 持续交付 开发工具
阿里云协同万兴科技落地ACK One GitOps方案,全球多机房应用自动化发布,效率提升50%
阿里云协同万兴科技落地ACK One GitOps方案,全球多机房应用自动化发布,效率提升50%

热门文章

最新文章