SREWorks云原生数智运维工程实践-Kubernetes 资源编排之四:CRD+Operator 篇(上)

本文涉及的产品
资源编排,不限时长
简介: SREWorks云原生数智运维工程实践-

 

作者:炯思钟炯恩)、雪尧郭耀星

 

这是我们的《Kubernetes资源编排系列》的第四篇——CRD+Operator篇。在前面的文章中,常常会提到CRD和k8s operator,但并没有对此进行深入的探讨。作为k8s中的一大亮点,在本篇文章中,我们会详细展开讲讲。

 

一、 什么是CRD

 

如果K8S中的自带资源类型不足以满足业务需求,需要定制开发资源怎么办?自定义资源Custom Resource由此产生。那么,如何让Kubernetes认识这些自定义的资源呢?CRDCustom Resource Definition就承担了一个说明书的角色,让Kubernetes来认识这个自定义资源CR。

 

那么CRD是怎么来的呢?最早是谷歌提出Third Party Resource的概念,希望开发者以插件化形式扩展K8s API对象模型,以增强整个k8s的生态。基于Third Party Resource这一概念,Kubernetes社区在1.7版本中提出了CRD的概念。

 

随便打开一个CRD的YAML可以看到,其主体部分是使用OpenAPI v3 schema来描述CR的字段结构,类似编程语言中的强类型声明。

 

apiVersion: apiextensions.k8s.io/v1

kind: CustomResourceDefinition

metadata:

  name: lights.light.sreworks.io

spec:

  group: light.sreworks.io

  names:

    kind: Light

    plural: lights

  scope: Namespaced

  versions:

    - name: v1

      served: true

      storage: true

      schema:

        openAPIV3Schema:

          description: ...

          type: object

          properties:

            spec:

              type: object

              properties:

                company:

                  type: string

                ...

 

 

有了CRD之后,我们可以自由地增加各种内置资源平级的资源,原本很多之前只维护在软件内部的元数据,也可以被写入到k8s集群中。这极大地拓宽了我们的想象力,什么交换机、作业、路由等各种关联的资源都一股脑地放进集群里面去。

 

在各种自定义资源被放进去之后,就会有人问,这放进去是挺方便的,但是放进去就会生效吗?是的,资源的生效就是Operator的功劳。下面我们就开始介绍Operator。

 

二、 什么是Operator

 

首先随便翻看一本词典看一下operator这个词的定义操作员/运算符,是个名词。那么,operator描述的应该是一个围绕“操作、控制”概念的东西。为了让大家有个更直观的认识,我们来举一个例子,比如1+2=3,这个+就是一个operator运算符,这个+让两个数字发生了一些互动(相加)。

 

有了词典里的概念铺垫后,我们继续往下分析,既然是一种操作或运算,那么在k8s中,是谁来操作?而被操作的对象又是什么呢?让我们来看一下OperatorFramework官网上对于Operator的解释

 

WHAT IS AN OPERATOR AFTER ALL?

An Operator represents human operational knowledge in software, to reliably manage an application. They are methods of packaging, deploying, and managing a Kubernetes application.

 

从这个定义中,我们可以看到,这个operator是指由人发出的,对k8s应用Kubernetes application展开的操作。一般围绕应用的操作有哪些?部署、升级、扩缩容、卸载等等。我们可以先这样理解,operator应该就是一个类似控制器的东西,里面含有一些运维操作后面会继续展开,其实不仅仅是这些

 

较真一点的读者可能会问,既然这样,这东西叫controller是不是会更贴切一点呢?事实上,问出这个问题的读者,和真相很接近了,每个operator基本都会有个控制器,但又不仅仅只有一个控制器,还会有前面提到过的资源定义CRDCustomResourceDefinition。每种自定义资源背后都会有一个或多个控制器,让这些资源看起来像活的一样,我们举一个比较切近生活的例子:

 

我们为家里的灯制作一个CRD和operator,把这个operator和灯开关连起来,当用户修改这个YAML的时候,operator会向开关转发指令。

 

 

apiVersion: v1

kind: Light

metadata:

  name: bedroom

spec:

  power: on

  brightness: 70

  colorTemperature: 5000k

 

 

从名字可以看出这盏灯被放在卧室bedroom,当power=on的时候电灯打开,power=off的时候电灯关闭,修改亮度brightness和色温colorTemperature能操纵这盏灯在打开状态下的视觉效果。

 

通过上面这段灯的YAML我们可以发现,在CRD+operator的场景下,我们可以只关注对象终态,而不去关注其中的控制过程。比如当前家中网络不太稳定,要花1-2秒,重试3次operator才能成功下发指令打开灯,这些重试我们是不感知的。我们只知道只要将power设置为on,灯就会亮。类比到k8s的日常实践,也是这样:一个Pod被放到集群后,控制器会想方设法去克服困难从仓库拉取镜像,启动工作负载,如果crash掉了就立即重试,直到稳定运行为止。我们只关心这个Pod是否最终拉起可用。

 

所以,operator其实是一种架构理念,它区别于常见的shell等运维脚本方案:operator希望应用能够自己管理自己,而不是由运维人员写脚本从外围来控制他们。不过,如果仅仅是这样,可能operator也只能叫controller了,只是一些自控制的逻辑而已。从最前面提到的operator的概念可以看出,operator能够让两种以上的资源产生一些互动关系,那么这是如何实现的呢?

 

我们继续用上面的灯的例子再加个YAML让大家感受一下:

 

我们把自己的家也用一个自定义资源对象来描述,用来承载一些家中的全局设置。

 

 

apiVersion: v1

kind: Home

metadata:

  name: jiongsi-home

spec:

  nobody: false

  stayOpen: []

 

 

当我们家中所有人都出门的时候,家中就没有人了,于是将nobody设为true。然后Home的operator会遍历家中所有的开关、电器、灯等设备,全部都给关上在YAML上设置power=off。同时也会根据常亮的策略stayOpen,保持某些电器不关闭,比如冰箱。

 

image.png

 

从上面的例子可以看出,每个控制器只负责自己的那部分,但从顶层往下看,已经实现了级联控制,能够实现牵一发而动全身的效果。这个就是上面所提到的operator的更深一层的机制:能够像运算符一样,让几种资源产生某种互动关系,一起协作完成一些复杂的工程动作。

 

三、 如何实现K8S Operator

 

不管是原生YAML/Helm还是Kustomize都是通过配置来搞定各类事情。然而CRD+Operator就不一样了,它们让你直接接入apiserver,作为K8S的一部分监听所有你关心的对象,并通过代码进行状态维持及管理。因为CRD的开发是非常复杂的,除了业务逻辑之外,还需要做很多基础的工作,非常不便,所以有了Operator的开发框架(常见的有KubeBuilder和Operator-SDK),让开发人员专注于CRD的业务代码开发。

 

我们可以来看一下operator的架构实现,这个有助于我们理解operator的工作原理

 

image.png

 

如图可知,Operator内部有个控制器来监听CR的变化,同时由于每个变化对应的函数执行需要一定的耗时,所以引入一个队列来依次执行这些函数。由于整个逻辑的执行链路不同于普通的web服务,所以也需要一个框架来承载请求的流转。

 

市面上的KubeBuilder或Operator-SDK开发框架可以降低Operator的难度,但Operator的开发在当前所有的几类组件托管方案当中仍然是最为复杂的。前前后后需要CRD设计及安装,编译Operator及部署到集群,最后再下发CR,外围为了配套这些内容可能还需要上面Helm或Kustomize的协助,配合对应的CICD流程及工具。

 

Spark Operator

 

Spark Operator是大数据分布式系统在k8s场景一次经典的实践。原本Spark的作业提交是需要通过spark-submit命令,但有了Spark Operator之后,我们可以直接向k8s提交作业YAML,然后Spark Operator监听CR,将这一作业提交给控制器。实现了我们前文提到的,将作业资源放在k8s集群进行管理这一目标。

 

image.png

 


相关实践学习
通过Ingress进行灰度发布
本场景您将运行一个简单的应用,部署一个新的应用用于新的发布,并通过Ingress能力实现灰度发布。
容器应用与集群管理
欢迎来到《容器应用与集群管理》课程,本课程是“云原生容器Clouder认证“系列中的第二阶段。课程将向您介绍与容器集群相关的概念和技术,这些概念和技术可以帮助您了解阿里云容器服务ACK/ACK Serverless的使用。同时,本课程也会向您介绍可以采取的工具、方法和可操作步骤,以帮助您了解如何基于容器服务ACK Serverless构建和管理企业级应用。 学习完本课程后,您将能够: 掌握容器集群、容器编排的基本概念 掌握Kubernetes的基础概念及核心思想 掌握阿里云容器服务ACK/ACK Serverless概念及使用方法 基于容器服务ACK Serverless搭建和管理企业级网站应用
相关文章
|
2月前
|
存储 人工智能 调度
容器服务:智算时代云原生操作系统及月之暗面Kimi、深势科技实践分享
容器技术已经发展成为云计算操作系统的关键组成部分,向下高效调度多样化异构算力,向上提供统一编程接口,支持多样化工作负载。阿里云容器服务在2024年巴黎奥运会中提供了稳定高效的云上支持,实现了子弹时间特效等创新应用。此外,容器技术还带来了弹性、普惠的计算能力升级,如每分钟创建1万Pod和秒级CPU资源热变配,以及针对大数据与AI应用的弹性临时盘和跨可用区云盘等高性能存储解决方案。智能运维方面,推出了即时弹性节点池、智能应用弹性策略和可信赖集群托管运维等功能,进一步简化了集群管理和优化了资源利用率。
|
2月前
|
运维 监控 Cloud Native
云原生之运维监控实践:使用 taosKeeper 与 TDinsight 实现对 时序数据库TDengine 服务的监测告警
在数字化转型的过程中,监控与告警功能的优化对保障系统的稳定运行至关重要。本篇文章是“2024,我想和 TDengine 谈谈”征文活动的三等奖作品之一,详细介绍了如何利用 TDengine、taosKeeper 和 TDinsight 实现对 TDengine 服务的状态监控与告警功能。作者通过容器化安装 TDengine 和 Grafana,演示了如何配置 Grafana 数据源、导入 TDinsight 仪表板、以及如何设置告警规则和通知策略。欢迎大家阅读。
68 0
|
2月前
|
Cloud Native 安全 Java
杭州铭师堂的云原生升级实践
在短短 2-3 年间,杭州铭师堂完整经历了云计算应用的四个关键阶段:从“启动上云”到“全量上云”,再到“全栈用云”,最终达到“精益用云”。也从云计算的第一次浪潮,迈过了第二次浪潮,顺利的进入到了 第三次浪潮 AI + 云。
161 13
|
2月前
|
Cloud Native
邀您参加云原生高可用技术沙龙丨云上高可用体系构建:从理论到实践
云原生高可用技术专场,邀您从理论到实践一起交流,探索云上高可用体系构建!
|
2月前
|
Cloud Native 安全 Java
铭师堂的云原生升级实践
铭师堂完整经历了云计算应用的四个关键阶段:从”启动上云”到”全量上云”,再到”全栈用云”,最终达到”精益用云”。通过 MSE 云原生网关的落地,为我们的组织带来了诸多收益,SLA 提升至100%,财务成本降低67%,算力成本降低75%,每次请求 RT 减少5ms。
铭师堂的云原生升级实践
|
2月前
|
Cloud Native API 持续交付
云原生架构下的微服务治理策略与实践####
本文旨在探讨云原生环境下微服务架构的治理策略,通过分析当前面临的挑战,提出一系列实用的解决方案。我们将深入讨论如何利用容器化、服务网格(Service Mesh)等先进技术手段,提升微服务系统的可管理性、可扩展性和容错能力。此外,还将分享一些来自一线项目的经验教训,帮助读者更好地理解和应用这些理论到实际工作中去。 ####
72 0
|
26天前
|
Linux 持续交付 调度
HTTPS 证书自动化运维:https证书管理系统-自动化部署
本指南介绍如何部署Linux服务器节点。首先复制生成的Linux脚本命令,然后将其粘贴到目标服务器上运行。接着刷新页面查看节点记录,并点击“配置证书”选择证书以自动部署。最后,节点部署完成,后续将自动调度,无需人工干预。
HTTPS 证书自动化运维:https证书管理系统-自动化部署
|
26天前
|
监控 运维
HTTPS 证书自动化运维:https证书管理系统- 自动化监控
本文介绍如何设置和查看域名或证书监控。步骤1:根据证书状态选择新增域名或证书监控,线上部署推荐域名监控,未部署选择证书监控。步骤2:查询监控记录详情。步骤3:在详情页查看每日定时检测结果或手动测试。
HTTPS 证书自动化运维:https证书管理系统- 自动化监控
|
26天前
|
运维
HTTPS 证书自动化运维:https证书管理系统之自动化签发
通过访问【https://www.lingyanspace.com】注册账户,进入证书服务菜单并新增证书。填写域名(单域名、多域名或泛域名),创建订单后添加云解析DNS记录进行质检。确认完成后可下载证书,并支持后续查看、更新和定时更新功能。证书过期前15天自动更新,需配置邮箱接收通知。
HTTPS 证书自动化运维:https证书管理系统之自动化签发
|
1月前
|
Kubernetes Java 持续交付
小团队 CI/CD 实践:无需运维,Java Web应用的自动化部署
本文介绍如何使用GitHub Actions和阿里云Kubernetes(ACK)实现Java Web应用的自动化部署。通过CI/CD流程,开发人员无需手动处理复杂的运维任务,从而提高效率并减少错误。文中详细讲解了Docker与Kubernetes的概念,并演示了从创建Kubernetes集群、配置容器镜像服务到设置GitHub仓库Secrets及编写GitHub Actions工作流的具体步骤。最终实现了代码提交后自动构建、推送镜像并部署到Kubernetes集群的功能。整个过程不仅简化了部署流程,还确保了应用在不同环境中的稳定运行。
75 9

热门文章

最新文章