【K8S系列】深入解析K8S调度

本文涉及的产品
应用型负载均衡 ALB,每月750个小时 15LCU
传统型负载均衡 CLB,每月750个小时 15LCU
网络型负载均衡 NLB,每月750个小时 15LCU
简介: 【K8S系列】深入解析K8S调度

1 基础介绍

1.1 什么是k8s调度

Kubernetes调度(Scheduling):是指将未调度的Pod自动分配到集群中的节点的过程

Pod是Kubernetes中最小的可部署单元,它通常包括一个或多个容器。

在Kubernetes中,容器可以在集群中的任何节点上运行,调度器可以根据节点的资源使用情况、Pod的资源需求、亲和性和反亲和性等因素,将Pod分配到最合适的节点上运行。


每个Pod都有一个调度器(Scheduler)负责将其分配到一个可用的节点上。

调度器是Kubernetes集群中的一个核心组件,它监视未调度的Pod对象,并为其选择最佳的节点。


Kubernetes调度的工作原理

2.1 原理详解

Kubernetes调度的工作原理可以概括为以下几个步骤:

  1. 创建Pod:用户通过Kubernetes API创建Pod对象,并在其中指定Pod的资源需求、容器镜像等信息。
  2. 调度器监视Pod:Kubernetes调度器监视集群中的未调度Pod对象,并为其选择最佳的节点。
  3. 选择节点:调度器通过算法选择最佳的节点,并将Pod绑定到该节点上。调度器选择节点的依据包括节点的资源使用情况、Pod的资源需求、亲和性和反亲和性等。
  4. 绑定Pod到节点:调度器将Pod和节点之间的绑定信息保存在etcd数据库中,以便节点可以获取Pod的调度信息。
  5. 节点启动Pod节点定期检查etcd数据库中的Pod调度信息,并启动相应的Pod。如果节点故障或资源不足,调度器会重新调度Pod,并将其绑定到其他节点上运行。

2.2 其他因素

调度器选择节点的过程中,有以下一些因素需要考虑:

  1. 节点资源:调度器需要考虑节点的资源使用情况,如CPU、内存、磁盘等。
  2. Pod资源需求:调度器需要考虑Pod的资源需求,如CPU、内存、磁盘等
  3. 调度器选择节点的过程中,有以下一些因素需要考虑:
  4. 节点资源:调度器需要考虑节点的资源使用情况,如CPU、内存、磁盘等。
  5. Pod资源需求:调度器需要考虑Pod的资源需求,如CPU、内存、磁盘等

3 调度算法

调度算法是指决定Pod应该调度到哪个节点上的算法。Kubernetes提供了多种调度算法,可以根据实际情况选择合适的算法。以下是Kubernetes常用的调度算法:

  1. 随机算法
  2. 最小负载算法
  3. 贪心算法
  4. 最佳适应算法
  5. 加权最小平均负载算法

3.1 随机算法

随机算法是最简单的调度算法之一。

  • 规则:它会随机选择一个可用节点,并将Pod调度到该节点上。
  • 效率:这种算法简单、快速,适用于不需要考虑资源利用率和负载均衡的场景。
  • 缺点:随机算法可能会导致节点资源的不均衡分配和资源浪费。

3.2 最小负载算法

最小负载算法会选择当前负载最低的节点,并将Pod调度到该节点上

这种算法可以避免节点资源的不均衡分配,但是可能会导致某些节点的资源利用率过高,从而影响其他Pod的运行。

3.2.1 优点

优点在于可以避免节点资源的不均衡分配和负载过高的问题,从而提高Kubernetes集群的资源利用率和稳定性。同时,最小负载算法可以与其他调度算法结合使用,例如可以与负载均衡算法结合使用,以进一步优化节点的资源利用率和负载均衡。

3.2.2 缺点

缺点在于可能会导致某些节点的资源利用率过低,从而浪费资源。此外,最小负载算法不能保证Pod被调度到最优的节点上,无法满足一些特殊的需求。

3.3 贪心算法

贪心算法是一种基于启发式的算法,它尝试在当前状态下找到最优解。

在Pod调度中,贪心算法会尝试选择最优节点,并将Pod调度到该节点上。

贪心算法的核心思想是:在每一步选择中都采取在当前状态下最优的选择,从而希望最终能够得到全局最优解。

优点

优点在于速度快,可以快速找到局部最优解,适用于大规模的Kubernetes集群。

同时,贪心算法可以与其他调度算法结合使用,例如可以与最小负载算法或最佳适应算法结合使用,以实现更好的负载均衡和资源利用率。

缺点

贪心算法的缺点在于不能保证找到全局最优解,有可能会陷入局部最优解而无法跳出。

此外,贪心算法也可能会导致某些节点的资源利用率过高,从而影响其他Pod的运行。

使用

在实际使用中,贪心算法可以与其他调度算法结合使用,例如可以与最小负载算法或最佳适应算法结合使用,以实现更好的负载均衡和资源利用率。同时,调度器还可以使用亲和性/反亲和性规则来筛选节点,以进一步优化贪心算法的效果。

3.4 最佳适应算法

最佳适应算法(Best Fit Algorithm),它会选择当前可用节点中最适合Pod的节点,并将Pod调度到该节点上。

最佳适应算法考虑节点的资源利用率情况,避免将Pod调度到资源利用率不高的节点上,从而实现负载均衡和资源利用率最大化的目的。

优点

最佳适应算法的优点在于可以避免节点资源的不均衡分配和资源浪费,从而提高Kubernetes集群的资源利用率和稳定性。同时,最佳适应算法可以与其他调度算法结合使用,例如可以与贪心算法或最小负载算法结合使用,以进一步优化节点的资源利用率和负载均衡。

缺点

最佳适应算法的缺点在于可能会导致节点资源利用率的不稳定性,从而影响Pod的运行。如果节点资源利用率变化较快,最佳适应算法可能会导致Pod频繁地迁移,从而影响Pod的稳定性和性能。

3.5 加权最小平均负载算法

加权最小平均负载算法(Weighted Least-Connection Algorithm)是一种调度算法,它会选择当前负载最低且权重最高的节点,并将Pod调度到该节点上。加权最小平均负载算法考虑节点的负载情况和权重,避免将Pod调度到负载过高或权重过低的节点上,从而实现负载均衡和资源利用率最大化的目的。

优点

加权最小平均负载算法的优点在于可以避免节点资源的不均衡分配和负载过高的问题,从而提高Kubernetes集群的资源利用率和稳定性。同时,加权最小平均负载算法可以根据节点的权重分配资源,以满足不同节点的需求。

缺点

加权最小平均负载算法的缺点在于可能会陷入局部最优解而无法跳出。如果节点资源利用率变化较快,加权最小平均负载算法可能会导致Pod频繁地迁移,从而影响Pod的稳定性和性能。

4 调度组件

Kubernetes的调度组件是Kubernetes集群中的一个核心组件,它负责将Pod调度到Kubernetes集群中的节点上,以实现负载均衡和资源利用率最大化的目的。

调度组件通常由以下两个组件组成:

  1. 调度器(Scheduler):负责对新创建的Pod进行调度,选择合适的节点,并将Pod调度到该节点上。调度器会根据节点的资源利用率、亲和性/反亲和性规则、Pod的资源需求等因素来选择节点,并确保Pod能够被成功地调度和运行。
  2. 调度器扩展器(Scheduler Extender):负责对调度器进行扩展,并提供额外的调度策略和规则。调度器扩展器可以通过插件的形式进行扩展,例如可以添加自定义的亲和性/反亲和性规则、节点选择器、调度器过滤器等,以实现更灵活和多样化的调度策略。

调度器实现

Kubernetes还提供了多种调度器实现,包括:

  1. 默认调度器(Default Scheduler):是Kubernetes中的默认调度器,负责对新创建的Pod进行调度,并将Pod调度到合适的节点上。
  2. 自定义调度器(Custom Scheduler):是一种自定义的调度器实现,可以根据实际需求来定义调度策略和规则,以实现更灵活和多样化的调度功能。
  3. 扩展调度器(Extended Scheduler):是一种支持调度器扩展器的调度器实现,可以通过调度器扩展器来添加自定义的调度规则和策略,以实现更灵活和多样化的调度功能。

总之,Kubernetes的调度组件是Kubernetes集群中的一个核心组件,可以实现负载均衡和资源利用率最大化的目的。在实际使用中,需要根据实际情况和需求来选择合适的调度器实现和调度策略,以确保Kubernetes集群的资源利用率最大化。

5 调度示例

5.1 如何实现pod的调度

当我们创建一个Pod时,Pod会被加入到调度器的无调度队列中等待被调度。调度器会定期轮询无调度队列,检查每个Pod的调度需求,然后将它们调度到最适合的节点上。调度器的调度决策是基于节点的资源利用率、Pod的资源需求和亲和性/反亲和性规则等因素。


以下是Pod的调度流程的详细步骤:

  1. 获取Pod的 调度需求
  2. 选择适合的节点
  3. 分配Pod到节点
  4. 保存调度信息
  5. 启动Pod


1 获取Pod的 调度需求

调度器首先获取Pod的调度需求,包括Pod的容器镜像、资源需求和亲和性/反亲和性规则等。

2 选择适合的节点

调度器会根据Pod的调度需求和集群的资源情况,在可用的节点中选择最适合的一个。调度器会根据节点的资源利用率、Pod的资源需求和亲和性/反亲和性规则等因素来进行选择。如果没有可用的节点满足Pod的需求,Pod就会一直处于等待调度的状态。

3 分配Pod到节点

调度器会将Pod分配到选择的节点上,并将Pod对象的spec.nodeName字段设置为节点的名称。这样,kubelet就可以知道Pod被分配到了哪个节点上。

4 保存调度信息

调度器会将Pod和节点之间的绑定信息保存在etcd数据库中。这些信息包括Pod的名称、命名空间、调度时间戳和节点名称等。kube-scheduler会周期性地检查这些绑定信息,以确保Pod已经被分配到了正确的节点上。

5 启动Pod

当Pod被分配到节点上时,kubelet会从etcd数据库中获取Pod的配置信息,并根据这些信息启动Pod中的容器。容器启动后,Pod就可以开始运行了。

总之,Pod的调度流程是由调度器来完成的。调度器会根据节点的资源利用率、Pod的资源需求和亲和性/反亲和性规则等因素来选择最适合的节点,并将Pod分配到节点上运行。一旦Pod被分配到节点上,kubelet就会从etcd数据库中获取Pod的配置信息,并启动Pod中的容器。

5.2 调度器如何选择最适合的节点?

调度器在选择最适合的节点时,会根据一定的策略和算法进行选择。以下是调度器选择节点的一些主要考虑因素:

  • 资源利用率
  • Pod的资源需求
  • 亲和性和反亲和性规则
  • 节点的标签和注释
  • 节点的负载均衡

资源利用率

调度器会检查集群中各个节点的资源使用情况,包括CPU、内存、磁盘和网络等方面的使用情况。调度器会选择资源利用率最低的节点,以确保Pod能够得到足够的资源。

Pod的资源需求

调度器会检查Pod的资源需求,包括CPU和内存等方面的需求。调度器会选择可以满足Pod资源需求的节点,以避免Pod因为资源不足而无法正常运行。

亲和性和反亲和性规则

调度器会检查Pod的亲和性和反亲和性规则。亲和性规则指定了Pod应该调度到哪些节点上,而反亲和性规则指定了Pod不应该调度到哪些节点上。调度器会根据这些规则来选择节点,以确保Pod被调度到最合适的节点上。

节点的标签和注释

调度器会检查节点的标签和注释。节点的标签可以用来标识节点的特性和属性,而注释可以提供节点的附加信息。调度器可以使用这些信息来选择最适合的节点。

节点的负载均衡

调度器会尝试在集群中平衡负载,避免某个节点过度负载,而其他节点资源利用率太低。调度器会选择负载均衡最优的节点,以确保集群中的资源利用率最大化。

总之,调度器在选择最适合的节点时,会考虑多个因素,包括资源利用率、Pod的资源需求、亲和性和反亲和性规则、节点的标签和注释以及负载均衡等。调度器会使用这些信息来选择最优的节点,以确保Pod被调度到最合适的节点上。

5.3 调度器如何检查Pod的资源需求?

调度器在检查Pod的资源需求时,会查看Pod的定义中

spec.containers[*].resources.requests
spec.containers[*].resources.limits

字段中指定的资源需求和资源限制。


resources.requests字段指定了Pod启动时所需的最小资源量。例如,CPU和内存等资源的需求量。如果Pod的实际资源使用量超过了请求量,Kubernetes会杀死该Pod并重新启动。

resources.limits字段指定了Pod最大可以使用的资源量。例如,CPU和内存等资源的限制量。如果Pod的实际资源使用量超过了限制量,Kubernetes会限制该Pod的资源使用,并可能导致Pod无法正常运行。


调度器会根据这些资源需求和限制来选择最适合的节点来调度Pod。调度器在选择节点时会考虑节点的资源利用率和Pod的资源需求,以确保Pod可以得到足够的资源来正常运行。

5.2 如何设置Pod的亲和性和反亲和性规则

在Kubernetes中,亲和性(Affinity)和反亲和性(Anti-Affinity)是用来指定Pod和Node之间关系的规则。通过设置亲和性和反亲和性规则,可以让调度器将Pod分配到最合适的节点上。

亲和性规则用于指示Pod应该被调度到哪些节点上,而反亲和性规则用于指示Pod不应该被调度到哪些节点上。下面是如何设置Pod的亲和性和反亲和性规则:

通过标签(Labels)设置亲和性和反亲和性规则

可以通过标签来设置Pod的亲和性和反亲和性规则。首先,需要在Pod中定义标签选择器(Label Selector),然后使用Node Affinity和Pod Affinity来指定亲和性规则,使用Node Anti-Affinity和Pod Anti-Affinity来指定反亲和性规则。例如,以下是一个使用标签选择器和亲和性规则的Pod定义:

apiVersion: v1
kind: Pod
metadata:
  name: my-pod
spec:
  containers:
  - name: my-container
    image: my-image
  affinity:
    nodeAffinity:
      requiredDuringSchedulingIgnoredDuringExecution:
        nodeSelectorTerms:
        - matchExpressions:
          - key: my-label
            operator: In
            values:
            - my-value

在上面的示例中,Pod选择器使用matchExpressions指定了一个标签选择器,该选择器选择my-label=my-value的节点。然后,使用nodeAffinity指定了一个亲和性规则,该规则要求Pod被调度到拥有该标签的节点上。

通过拓扑域(Topology)设置亲和性和 反亲和性规则

可以使用Topology来指定Pod的亲和性和反亲和性规则。Topology是指节点的拓扑结构,如拓扑域、区域、机架等。使用Topology可以确保Pod被调度到拓扑结构相似的节点上。例如,以下是一个使用Topology和亲和性规则的Pod定义:

apiVersion: v1
kind: Pod
metadata:
  name: my-pod
spec:
  containers:
  - name: my-container
    image: my-image
  affinity:
    podAffinity:
      requiredDuringSchedulingIgnoredDuringExecution:
      - labelSelector:
          matchLabels:
            app: my-app
        topologyKey: rack

在上面的示例中,Pod选择器使用matchLabels指定了一个标签选择器,该选择器选择app=my-app的Pod。然后,使用topologyKey指定了一个亲和性规则,该规则要求Pod被调度到与已经调度了app=my-app的Pod在同一个rack中的节点上。


总之,通过设置亲和性和反亲和性规则,可以让调度器将Pod分配到最合适的节点上。可以使用标签或拓扑域来设置Pod的亲和性和反亲和性规则。注意,正确的设置亲和性和反亲和性规则需要了解集群的拓扑结构和资源使用情况,否则可能会导致Pod无法正确调度。

5.2 如何设置Pod的资源限制和请求

在Kubernetes中,可以通过设置Pod的资源限制和请求来控制Pod使用的资源量。资源限制(Resource Limits)指定了Pod最大可以使用的资源量,而资源请求(Resource Requests)则指定了Pod启动时所需的最小资源量。设置Pod的资源限制和请求可以确保Pod在运行时不会使用过多的资源,并且可以提高Pod在集群中的调度成功率。以下是如何设置Pod的资源限制和请求的示例:

apiVersion: v1
kind: Pod
metadata:
  name: my-pod
spec:
  containers:
  - name: my-container
    image: my-image
    resources:
      limits:
        cpu: "1"
        memory: "500Mi"
      requests:
        cpu: "0.5"
        memory: "250Mi"

在上面的示例中,Pod中的容器my-container设置了资源限制和请求。容器的资源限制是1个CPU核心和500MiB内存,而容器的资源请求是0.5个CPU核心和250MiB内存。

可以通过以下方式设置资源限制和请求:

CPU和内存

可以使用CPU和内存来设置资源限制和请求。CPU的单位是CPU核心,内存的单位是字节。可以使用以下格式指定CPU和内存:

  • CPU:使用分数或整数表示CPU核心数量。例如,0.5表示一半核心,1表示一个核心,2表示两个核心。
  • 内存:使用字节、千字节、兆字节或吉字节表示内存大小。例如,1Gi表示1个吉字节,500Mi表示500兆字节。

其他资源

除了CPU和内存之外,还可以使用其他资源来设置资源限制和请求,如GPU、存储等。不同的资源可以使用不同的单位,具体取决于资源类型。可以在Kubernetes文档中查看各种资源类型的详细信息。

总之,设置Pod的资源限制和请求可以控制Pod使用的资源量。可以使用CPU和内存来设置资源限制和请求,也可以使用其他资源类型。在设置资源限制和请求时,需要考虑Pod所需的资源量以及集群的资源使用情况,以避免Pod无法正常运行或影响其他Pod的运行。

6 总结

总之,Kubernetes调度是Kubernetes的核心功能之一,它能够自动将Pod分配到最合适的节点上,并确保Pod在所选节点上正常运行。调度器通过算法选择最佳的节点,并将Pod绑定到该节点上。调度器选择节点的依据包括节点的资源使用情况、Pod的资源需求、亲和性和反亲和性等。管理员可以根据自己的需求选择不同的调度算法,并监视调度器的日志以确保集群的正常运行。  


相关实践学习
深入解析Docker容器化技术
Docker是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的Linux机器上,也可以实现虚拟化,容器是完全使用沙箱机制,相互之间不会有任何接口。Docker是世界领先的软件容器平台。开发人员利用Docker可以消除协作编码时“在我的机器上可正常工作”的问题。运维人员利用Docker可以在隔离容器中并行运行和管理应用,获得更好的计算密度。企业利用Docker可以构建敏捷的软件交付管道,以更快的速度、更高的安全性和可靠的信誉为Linux和Windows Server应用发布新功能。 在本套课程中,我们将全面的讲解Docker技术栈,从环境安装到容器、镜像操作以及生产环境如何部署开发的微服务应用。本课程由黑马程序员提供。     相关的阿里云产品:容器服务 ACK 容器服务 Kubernetes 版(简称 ACK)提供高性能可伸缩的容器应用管理能力,支持企业级容器化应用的全生命周期管理。整合阿里云虚拟化、存储、网络和安全能力,打造云端最佳容器化应用运行环境。 了解产品详情: https://www.aliyun.com/product/kubernetes
相关文章
|
8月前
|
缓存 Kubernetes Docker
GitLab Runner 全面解析:Kubernetes 环境下的应用
GitLab Runner 是 GitLab CI/CD 的核心组件,负责执行由 `.gitlab-ci.yml` 定义的任务。它支持多种执行方式(如 Shell、Docker、Kubernetes),可在不同环境中运行作业。本文详细介绍了 GitLab Runner 的基本概念、功能特点及使用方法,重点探讨了流水线缓存(以 Python 项目为例)和构建镜像的应用,特别是在 Kubernetes 环境中的配置与优化。通过合理配置缓存和镜像构建,能够显著提升 CI/CD 流水线的效率和可靠性,助力开发团队实现持续集成与交付的目标。
|
5月前
|
人工智能 Serverless 调度
突破地域限制,实现算力无限供给 —阿里云ACK One注册集群开启多地域Serverless算力调度
本文介绍了阿里云ACK One注册集群多地域Serverless算力调度解决方案,解决传统数据中心在AI时代面临的算力不足问题。方案通过分钟级接入、100%兼容Kubernetes操作及云上Serverless弹性,实现跨地域弹性算力供给,支持高并发请求与模型快速迭代。文中详细描述了快速接入步骤、指定地域调度及动态调度方法,并提供了相关代码示例。该方案助力企业实现AI推理服务的规模化部署,提升商业落地效率。
|
5月前
|
人工智能 Serverless 调度
突破地域限制,实现算力无限供给 -- 阿里云ACK One注册集群开启多地域Serverless算力调度
传统单地域算力难以支撑AI推理场景的高并发实时响应、突发高流量的要求,阿里云容器服务ACK One注册集群推出多地域Serverless算力调度方案完美解决此问题。
|
6月前
|
人工智能 分布式计算 调度
打破资源边界、告别资源浪费:ACK One 多集群Spark和AI作业调度
ACK One多集群Spark作业调度,可以帮助您在不影响集群中正在运行的在线业务的前提下,打破资源边界,根据各集群实际剩余资源来进行调度,最大化您多集群中闲置资源的利用率。
|
10月前
|
Kubernetes 监控 API
深入解析Kubernetes及其在生产环境中的最佳实践
深入解析Kubernetes及其在生产环境中的最佳实践
562 93
|
8月前
|
Kubernetes Linux 虚拟化
入门级容器技术解析:Docker和K8s的区别与关系
本文介绍了容器技术的发展历程及其重要组成部分Docker和Kubernetes。从传统物理机到虚拟机,再到容器化,每一步都旨在更高效地利用服务器资源并简化应用部署。容器技术通过隔离环境、减少依赖冲突和提高可移植性,解决了传统部署方式中的诸多问题。Docker作为容器化平台,专注于创建和管理容器;而Kubernetes则是一个强大的容器编排系统,用于自动化部署、扩展和管理容器化应用。两者相辅相成,共同推动了现代云原生应用的快速发展。
2320 11
|
10月前
|
存储 安全 Linux
Golang的GMP调度模型与源码解析
【11月更文挑战第11天】GMP 调度模型是 Go 语言运行时系统的核心部分,用于高效管理和调度大量协程(goroutine)。它通过少量的操作系统线程(M)和逻辑处理器(P)来调度大量的轻量级协程(G),从而实现高性能的并发处理。GMP 模型通过本地队列和全局队列来减少锁竞争,提高调度效率。在 Go 源码中,`runtime.h` 文件定义了关键数据结构,`schedule()` 和 `findrunnable()` 函数实现了核心调度逻辑。通过深入研究 GMP 模型,可以更好地理解 Go 语言的并发机制。
321 1
|
10月前
|
算法 Linux 定位技术
Linux内核中的进程调度算法解析####
【10月更文挑战第29天】 本文深入剖析了Linux操作系统的心脏——内核中至关重要的组成部分之一,即进程调度机制。不同于传统的摘要概述,我们将通过一段引人入胜的故事线来揭开进程调度算法的神秘面纱,展现其背后的精妙设计与复杂逻辑,让读者仿佛跟随一位虚拟的“进程侦探”,一步步探索Linux如何高效、公平地管理众多进程,确保系统资源的最优分配与利用。 ####
192 4
|
10月前
|
运维 Kubernetes Cloud Native
Kubernetes云原生架构深度解析与实践指南####
本文深入探讨了Kubernetes作为领先的云原生应用编排平台,其设计理念、核心组件及高级特性。通过剖析Kubernetes的工作原理,结合具体案例分析,为读者呈现如何在实际项目中高效部署、管理和扩展容器化应用的策略与技巧。文章还涵盖了服务发现、负载均衡、配置管理、自动化伸缩等关键议题,旨在帮助开发者和运维人员掌握利用Kubernetes构建健壮、可伸缩的云原生生态系统的能力。 ####
|
10月前
|
缓存 负载均衡 算法
Linux内核中的进程调度算法解析####
本文深入探讨了Linux操作系统核心组件之一——进程调度器,着重分析了其采用的CFS(完全公平调度器)算法。不同于传统摘要对研究背景、方法、结果和结论的概述,本文摘要将直接揭示CFS算法的核心优势及其在现代多核处理器环境下如何实现高效、公平的资源分配,同时简要提及该算法如何优化系统响应时间和吞吐量,为读者快速构建对Linux进程调度机制的认知框架。 ####

推荐镜像

更多