SREWorks云原生数智运维工程实践-Kubernetes 资源编排之四:CRD+Operator 篇(上)

本文涉及的产品
资源编排,不限时长
简介: SREWorks云原生数智运维工程实践-

 

作者:炯思钟炯恩)、雪尧郭耀星

 

这是我们的《Kubernetes资源编排系列》的第四篇——CRD+Operator篇。在前面的文章中,常常会提到CRD和k8s operator,但并没有对此进行深入的探讨。作为k8s中的一大亮点,在本篇文章中,我们会详细展开讲讲。

 

一、 什么是CRD

 

如果K8S中的自带资源类型不足以满足业务需求,需要定制开发资源怎么办?自定义资源Custom Resource由此产生。那么,如何让Kubernetes认识这些自定义的资源呢?CRDCustom Resource Definition就承担了一个说明书的角色,让Kubernetes来认识这个自定义资源CR。

 

那么CRD是怎么来的呢?最早是谷歌提出Third Party Resource的概念,希望开发者以插件化形式扩展K8s API对象模型,以增强整个k8s的生态。基于Third Party Resource这一概念,Kubernetes社区在1.7版本中提出了CRD的概念。

 

随便打开一个CRD的YAML可以看到,其主体部分是使用OpenAPI v3 schema来描述CR的字段结构,类似编程语言中的强类型声明。

 

apiVersion: apiextensions.k8s.io/v1

kind: CustomResourceDefinition

metadata:

  name: lights.light.sreworks.io

spec:

  group: light.sreworks.io

  names:

    kind: Light

    plural: lights

  scope: Namespaced

  versions:

    - name: v1

      served: true

      storage: true

      schema:

        openAPIV3Schema:

          description: ...

          type: object

          properties:

            spec:

              type: object

              properties:

                company:

                  type: string

                ...

 

 

有了CRD之后,我们可以自由地增加各种内置资源平级的资源,原本很多之前只维护在软件内部的元数据,也可以被写入到k8s集群中。这极大地拓宽了我们的想象力,什么交换机、作业、路由等各种关联的资源都一股脑地放进集群里面去。

 

在各种自定义资源被放进去之后,就会有人问,这放进去是挺方便的,但是放进去就会生效吗?是的,资源的生效就是Operator的功劳。下面我们就开始介绍Operator。

 

二、 什么是Operator

 

首先随便翻看一本词典看一下operator这个词的定义操作员/运算符,是个名词。那么,operator描述的应该是一个围绕“操作、控制”概念的东西。为了让大家有个更直观的认识,我们来举一个例子,比如1+2=3,这个+就是一个operator运算符,这个+让两个数字发生了一些互动(相加)。

 

有了词典里的概念铺垫后,我们继续往下分析,既然是一种操作或运算,那么在k8s中,是谁来操作?而被操作的对象又是什么呢?让我们来看一下OperatorFramework官网上对于Operator的解释

 

WHAT IS AN OPERATOR AFTER ALL?

An Operator represents human operational knowledge in software, to reliably manage an application. They are methods of packaging, deploying, and managing a Kubernetes application.

 

从这个定义中,我们可以看到,这个operator是指由人发出的,对k8s应用Kubernetes application展开的操作。一般围绕应用的操作有哪些?部署、升级、扩缩容、卸载等等。我们可以先这样理解,operator应该就是一个类似控制器的东西,里面含有一些运维操作后面会继续展开,其实不仅仅是这些

 

较真一点的读者可能会问,既然这样,这东西叫controller是不是会更贴切一点呢?事实上,问出这个问题的读者,和真相很接近了,每个operator基本都会有个控制器,但又不仅仅只有一个控制器,还会有前面提到过的资源定义CRDCustomResourceDefinition。每种自定义资源背后都会有一个或多个控制器,让这些资源看起来像活的一样,我们举一个比较切近生活的例子:

 

我们为家里的灯制作一个CRD和operator,把这个operator和灯开关连起来,当用户修改这个YAML的时候,operator会向开关转发指令。

 

 

apiVersion: v1

kind: Light

metadata:

  name: bedroom

spec:

  power: on

  brightness: 70

  colorTemperature: 5000k

 

 

从名字可以看出这盏灯被放在卧室bedroom,当power=on的时候电灯打开,power=off的时候电灯关闭,修改亮度brightness和色温colorTemperature能操纵这盏灯在打开状态下的视觉效果。

 

通过上面这段灯的YAML我们可以发现,在CRD+operator的场景下,我们可以只关注对象终态,而不去关注其中的控制过程。比如当前家中网络不太稳定,要花1-2秒,重试3次operator才能成功下发指令打开灯,这些重试我们是不感知的。我们只知道只要将power设置为on,灯就会亮。类比到k8s的日常实践,也是这样:一个Pod被放到集群后,控制器会想方设法去克服困难从仓库拉取镜像,启动工作负载,如果crash掉了就立即重试,直到稳定运行为止。我们只关心这个Pod是否最终拉起可用。

 

所以,operator其实是一种架构理念,它区别于常见的shell等运维脚本方案:operator希望应用能够自己管理自己,而不是由运维人员写脚本从外围来控制他们。不过,如果仅仅是这样,可能operator也只能叫controller了,只是一些自控制的逻辑而已。从最前面提到的operator的概念可以看出,operator能够让两种以上的资源产生一些互动关系,那么这是如何实现的呢?

 

我们继续用上面的灯的例子再加个YAML让大家感受一下:

 

我们把自己的家也用一个自定义资源对象来描述,用来承载一些家中的全局设置。

 

 

apiVersion: v1

kind: Home

metadata:

  name: jiongsi-home

spec:

  nobody: false

  stayOpen: []

 

 

当我们家中所有人都出门的时候,家中就没有人了,于是将nobody设为true。然后Home的operator会遍历家中所有的开关、电器、灯等设备,全部都给关上在YAML上设置power=off。同时也会根据常亮的策略stayOpen,保持某些电器不关闭,比如冰箱。

 

image.png

 

从上面的例子可以看出,每个控制器只负责自己的那部分,但从顶层往下看,已经实现了级联控制,能够实现牵一发而动全身的效果。这个就是上面所提到的operator的更深一层的机制:能够像运算符一样,让几种资源产生某种互动关系,一起协作完成一些复杂的工程动作。

 

三、 如何实现K8S Operator

 

不管是原生YAML/Helm还是Kustomize都是通过配置来搞定各类事情。然而CRD+Operator就不一样了,它们让你直接接入apiserver,作为K8S的一部分监听所有你关心的对象,并通过代码进行状态维持及管理。因为CRD的开发是非常复杂的,除了业务逻辑之外,还需要做很多基础的工作,非常不便,所以有了Operator的开发框架(常见的有KubeBuilder和Operator-SDK),让开发人员专注于CRD的业务代码开发。

 

我们可以来看一下operator的架构实现,这个有助于我们理解operator的工作原理

 

image.png

 

如图可知,Operator内部有个控制器来监听CR的变化,同时由于每个变化对应的函数执行需要一定的耗时,所以引入一个队列来依次执行这些函数。由于整个逻辑的执行链路不同于普通的web服务,所以也需要一个框架来承载请求的流转。

 

市面上的KubeBuilder或Operator-SDK开发框架可以降低Operator的难度,但Operator的开发在当前所有的几类组件托管方案当中仍然是最为复杂的。前前后后需要CRD设计及安装,编译Operator及部署到集群,最后再下发CR,外围为了配套这些内容可能还需要上面Helm或Kustomize的协助,配合对应的CICD流程及工具。

 

Spark Operator

 

Spark Operator是大数据分布式系统在k8s场景一次经典的实践。原本Spark的作业提交是需要通过spark-submit命令,但有了Spark Operator之后,我们可以直接向k8s提交作业YAML,然后Spark Operator监听CR,将这一作业提交给控制器。实现了我们前文提到的,将作业资源放在k8s集群进行管理这一目标。

 

image.png

 


相关实践学习
通过Ingress进行灰度发布
本场景您将运行一个简单的应用,部署一个新的应用用于新的发布,并通过Ingress能力实现灰度发布。
容器应用与集群管理
欢迎来到《容器应用与集群管理》课程,本课程是“云原生容器Clouder认证“系列中的第二阶段。课程将向您介绍与容器集群相关的概念和技术,这些概念和技术可以帮助您了解阿里云容器服务ACK/ACK Serverless的使用。同时,本课程也会向您介绍可以采取的工具、方法和可操作步骤,以帮助您了解如何基于容器服务ACK Serverless构建和管理企业级应用。 学习完本课程后,您将能够: 掌握容器集群、容器编排的基本概念 掌握Kubernetes的基础概念及核心思想 掌握阿里云容器服务ACK/ACK Serverless概念及使用方法 基于容器服务ACK Serverless搭建和管理企业级网站应用
相关文章
|
4天前
|
存储 Kubernetes 开发者
容器化时代的领航者:Docker 和 Kubernetes 云原生时代的黄金搭档
Docker 是一种开源的应用容器引擎,允许开发者将应用程序及其依赖打包成可移植的镜像,并在任何支持 Docker 的平台上运行。其核心概念包括镜像、容器和仓库。镜像是只读的文件系统,容器是镜像的运行实例,仓库用于存储和分发镜像。Kubernetes(k8s)则是容器集群管理系统,提供自动化部署、扩展和维护等功能,支持服务发现、负载均衡、自动伸缩等特性。两者结合使用,可以实现高效的容器化应用管理和运维。Docker 主要用于单主机上的容器管理,而 Kubernetes 则专注于跨多主机的容器编排与调度。尽管 k8s 逐渐减少了对 Docker 作为容器运行时的支持,但 Doc
41 5
容器化时代的领航者:Docker 和 Kubernetes 云原生时代的黄金搭档
|
16天前
|
人工智能 运维 监控
阿里云ACK容器服务生产级可观测体系建设实践
本文整理自2024云栖大会冯诗淳(花名:行疾)的演讲,介绍了阿里云容器服务团队在生产级可观测体系建设方面的实践。冯诗淳详细阐述了容器化架构带来的挑战及解决方案,强调了可观测性对于构建稳健运维体系的重要性。文中提到,阿里云作为亚洲唯一蝉联全球领导者的容器管理平台,其可观测能力在多项关键评测中表现优异,支持AI、容器网络、存储等多个场景的高级容器可观测能力。此外,还介绍了阿里云容器服务在多云管理、成本优化等方面的最新进展,以及即将推出的ACK AI助手2.0,旨在通过智能引擎和专家诊断经验,简化异常数据查找,缩短故障响应时间。
阿里云ACK容器服务生产级可观测体系建设实践
|
16天前
|
运维 Kubernetes 调度
阿里云容器服务 ACK One 分布式云容器企业落地实践
阿里云容器服务ACK提供强大的产品能力,支持弹性、调度、可观测、成本治理和安全合规。针对拥有IDC或三方资源的企业,ACK One分布式云容器平台能够有效解决资源管理、多云多集群管理及边缘计算等挑战,实现云上云下统一管理,提升业务效率与稳定性。
|
1月前
|
Kubernetes Cloud Native 微服务
云原生入门与实践:Kubernetes的简易部署
云原生技术正改变着现代应用的开发和部署方式。本文将引导你了解云原生的基础概念,并重点介绍如何使用Kubernetes进行容器编排。我们将通过一个简易的示例来展示如何快速启动一个Kubernetes集群,并在其上运行一个简单的应用。无论你是云原生新手还是希望扩展现有知识,本文都将为你提供实用的信息和启发性的见解。
|
2月前
|
运维 Linux Apache
,自动化运维成为现代IT基础设施的关键部分。Puppet是一款强大的自动化运维工具
【10月更文挑战第7天】随着云计算和容器化技术的发展,自动化运维成为现代IT基础设施的关键部分。Puppet是一款强大的自动化运维工具,通过定义资源状态和关系,确保系统始终处于期望配置状态。本文介绍Puppet的基本概念、安装配置及使用示例,帮助读者快速掌握Puppet,实现高效自动化运维。
69 4
|
28天前
|
机器学习/深度学习 运维 监控
智能化运维:从自动化到AIOps的演进之路####
本文深入探讨了IT运维领域如何由传统手工操作逐步迈向高度自动化,并进一步向智能化运维(AIOps)转型的过程。不同于常规摘要仅概述内容要点,本摘要将直接引入一个核心观点:随着云计算、大数据及人工智能技术的飞速发展,智能化运维已成为提升企业IT系统稳定性与效率的关键驱动力。文章详细阐述了自动化工具的应用现状、面临的挑战以及AIOps如何通过预测性分析和智能决策支持,实现运维工作的质变,引领读者思考未来运维模式的发展趋势。 ####
|
28天前
|
机器学习/深度学习 数据采集 人工智能
智能化运维:从自动化到AIOps的演进与实践####
本文探讨了智能运维(AIOps)的崛起背景,深入分析了其核心概念、关键技术、应用场景及面临的挑战,并对比了传统IT运维模式,揭示了AIOps如何引领运维管理向更高效、智能的方向迈进。通过实际案例分析,展示了AIOps在不同行业中的应用成效,为读者提供了对未来智能运维趋势的洞察与思考。 ####
73 1
|
1月前
|
机器学习/深度学习 数据采集 人工智能
智能运维:从自动化到AIOps的演进与实践####
本文探讨了智能运维(AIOps)的兴起背景、核心组件及其在现代IT运维中的应用。通过对比传统运维模式,阐述了AIOps如何利用机器学习、大数据分析等技术,实现故障预测、根因分析、自动化修复等功能,从而提升系统稳定性和运维效率。文章还深入分析了实施AIOps面临的挑战与解决方案,并展望了其未来发展趋势。 ####
|
1月前
|
机器学习/深度学习 数据采集 运维
智能化运维:机器学习在故障预测和自动化响应中的应用
智能化运维:机器学习在故障预测和自动化响应中的应用
62 4
|
2月前
|
存储 运维 监控
高效运维:从基础架构到自动化管理的全面指南
【10月更文挑战第11天】 本文将深入探讨如何通过优化基础架构和引入自动化管理来提升企业IT运维效率。我们将从服务器的选择与配置、存储解决方案的评估,到网络的设计与监控,逐一解析每个环节的关键技术点。同时,重点讨论自动化工具在现代运维中的应用,包括配置管理、持续集成与部署(CI/CD)、自动化测试及故障排除等方面。通过实际案例分析,展示这些技术如何协同工作,实现高效的运维管理。无论是IT初学者还是经验丰富的专业人员,都能从中获得有价值的见解和实操经验。
104 1

热门文章

最新文章