k8s集群调度

本文涉及的产品
容器服务 Serverless 版 ACK Serverless,317元额度 多规格
容器服务 Serverless 版 ACK Serverless,952元额度 多规格
简介: k8s集群调度

屏幕截图 2023-08-28 163846.png

Scheduler调度器

scheduler是kubernetes的调度器,主要的任务是把定义的pod分配到集群的节点上,听起来非常简单,但有很多要考虑的问题:

   公平:如何保证每个节点都能被分配资源

   资源高效利用:集群所有资源最大化被使用

   效率:允许用户根据自己的需求控制调度的逻辑

   灵活:允许用户根据自己的需求控制调度的逻辑

   scheduler是作为单独的程序运行的,启动之后一直监听api server,获取podspec,nodename为空的pod,对每个pod都会创建一个binding,表明该pod应该放到哪个节点上。

一、调度过程

 调度分为几个部分:

   首先过滤掉不满足条件的节点,这个过程为predicate;

   然后对通过的节点按照优先级排序,这个过程为priority;

   最后从中选择优先级最高的节点,如果中间步骤有错误,直接报错。

   Predicate的算法:

   PodFitsResources: 节点上剩余的资源是否大于pod请求的资源

   PodFitsHost: 如果pod指定了nodename,检查节点名称是否和nodename匹配

   PodFitsHostPorts: 节点上已经使用的port是否和pod申请的port冲突

   PodSelectorMatches: 过滤掉和pod指定的label不匹配的节点

   NoDiskConflict:已经mount的volume和pod指定的volume不冲突,除非都是只读

   注:资源、nodename匹配、port冲突、标签匹配、持久卷支持

   如果predicate过程中没有合适的节点,pod会一直在pending状态,不断重试调度,直到有节点满足条件。经过这个步骤,如果有多个节点满足条件,就据需priorities过程:按照优先级大小对节点排序。

   优先级由一系列键值对组成,键是该优先级项的名称,值是权重,优先级项包括:

   LeastRequestedPriority: 通过计算cpu和memory的使用率决定权重,使用率越低权重越高

   BalanceResourceAllocation:节点上cpu和memory使用率越接近,权重越高,和上面一起用

   ImageLocalityPriority:倾向已经有要使用镜像的节点,镜像大小值越大,权重越高

   通过算法对所有的优先级项目和权重进行计算,得出最终结果。

   除了k8s自带的调度器,也可以通过spec:schedulername参数指定自定义的调度器。

二、节点亲和性(pod与节点之间)

pod.spec.nodeAffinity

   preferredDuringSchedulingIgnoredDuringExecution: 软策略

   requiredDuringSchedulingIgnoredDuringExecution: 硬策略

硬策略:必须在满足条件下执行

---yaml
apiVersion: v1
kind: Pod
metadata:
  name: affinity
  labels:
    app: node-affinity-pod
spec:
  containers:
  - name: with-node-affinity
    image: nginx
    imagePullPolicy: IfNotPresent
  affinity:
    nodeAffinity:
      requiredDuringSchedulingIgnoredDuringExecution:
        nodeSelectorTerms:
          - matchExpressions:
            - key: kubernetes.io/hostname
              operator: NotIn
              values:
              - node02

(key字段来自标签:kubectl get node --show-labels)

键值运算关系:

   In: label的值在某个列表中

   NotIn: label的值不在某个列表中

   Gt: label的值大于某个值

   Lt: label的值小于某个值

   Exists: 某个label存在

   DoesNotExist: 某个label不存在

软策略:满足条件执行,不满足就放弃,在其他条件下执行

---yaml
apiVersion: v1
kind: Pod
metadata:
  name: affinity
  labels:
    app: node-affinity-pod
spec:
  containers:
  - name: with-node-affinity
    image: nginx
    imagePullPolicy: IfNotPresent
  affinity:
    nodeAffinity:
      preferredDuringSchedulingIgnoredDuringExecution:
      - weight: 1
        preference:
          matchExpressions:
            - key: kubernetes.io/hostname
              operator: In
              values:
              - node03

三、pod亲和性(pod之间)

pod.spec.affinity.podAffinity/podAntiAffinity

   preferredDuringSchedulingIgnoredDuringExecution: 软策略

   requiredDuringSchedulingIgnoredDuringExecution: 硬策略

硬策略:匹配条件就在同一主机

vim pod1.yaml
apiVersion: v1
kind: Pod
metadata:
  name: node1
  labels:
    app: node1
spec:
  containers:
  - name: with-node-affinity
    image: nginx
    imagePullPolicy: IfNotPresent
  affinity:
    nodeAffinity:
      requiredDuringSchedulingIgnoredDuringExecution:
        nodeSelectorTerms:
        - matchExpressions:
          - key: kubernetes.io/hostname
            operator: In
            values:
            - node01   
vim pod2.yaml
apiVersion: v1
kind: Pod
metadata:
  name: pod2
  labels:
    app: pod2
spec:
  containers:
  - name: pod2
    image: nginx
    imagePullPolicy: IfNotPresent
  affinity:
    podAffinity:
      requiredDuringSchedulingIgnoredDuringExecution:
      - labelSelector:
          matchExpressions:
          - key: app
            operator: In
            values:
            - node1
        topologyKey: kubernetes.io/hostname

---------------------------------------------

亲和性/反亲和性调度策略比较:

调度策略        匹配标签        拓扑域支持    调度目标

nodeAffinity    主机        否        指定主机

podAffinity    pod        是        pod与指定pod同一拓扑域

podAntiAffinity    pod        是        pod与指定pod不在同一拓扑域

---------------------------------------------

四、Taint和Toleration

节点亲和性,是pod的一种属性(偏好或硬性要求),它使pod被吸引到一类特定的节点,Taint则相反,它使节点能够排斥一类特定的pod。

Taint和Toleration相互配合,可以用来避免pod被分配到不适合的节点上。每个节点上都可以应用一个或多个Taint,这表示对于那些容忍这些Taint的pod,是不会被该节点接受的,如果将Toleration应用于pod上,则表示这些pod可以(但不要求)被调度到具有匹配Taint的节点上。

(一)污点(Taint)

1.Taint的组成

使用kubectl taint命令可以给某个node节点设置污点,node被设置上污点后就和pod产生了一种排斥的关系,可以让node拒绝pod的调度执行,甚至将node上已存在的pod驱逐出去。

每个污点的组成:

   key=value:effect

每个污点有一个key和value作为污点的标签,其中value可以为空,effect描述污点的作用。当前Taint effect支持如下三个选项:

   NoSchedule: 表示k8s不会将pod调度到具有该污点的node上

   PreferNoSchedule: 表示k8s将尽量避免将pod调度到具有该污点的node上

   NoExecute: 表示k8s不会将pod调度到具有该污点的node上,还会把已有的pod驱逐

2.污点的设置、查看、去除

设置污点:

   kubectl taint nodes node01 check=lhy:NoExecute

查看污点:

   kubectl describe nodes node01 | grep Taint

去除污点:

   kubectl taint nodes node01 check:NoExecute-

(二)容忍(Tolerations)

设置了污点的node将根据Taint的effect:NoSchedule、PreferNoSchedule、NoExecute和pod之间产生互斥的关系,pod将在一定程度上不会被调度到node上,但我们可以在pod上设置Toleration,意思是设置了容忍的pod将可以容忍污点的存在,可以被调度到存在污点的node上。

1.在pod的yaml中设置:

pod.spec.tolerations
    spec:
      tolerations:
      - key: check
        operator: Equal
        value: lhy
        effect: NoExecute
        tolerationSeconds: 3600

注:

其中key,value,effect要与node上的Taint保持一致

operator的值为Exists将会忽略value值

tolerationSeconds用于描述当pod需要被驱逐时还可以保留运行的时间

2.当不指定key值时,表示容忍所有的污点key:

tolerations:

- operator: Exists

3.当不指定effect值时,表示容忍所有的污点:

tolerations:

- key: key1

 operator: Exists

4.当有多个master存在时,为防止资源浪费,可以如下设置:

kubectl taint nodes master node-role.kubernetes.io/master=:PreferNoSchedule

五、指定调度节点

1.pod.spec.nodeName

指定node名直接调度到对应node节点上,强制匹配跳过Scheduler调度

apiVersion: apps/v1
kind: Deployment
metadata:
  name: bdqn1
spec:
  selector:
    matchLabels:
      app: bdqn1
  replicas: 5
  template:
    metadata:
      labels:
        app: bdqn1
    spec:
      nodeName: node02
      containers:
        - name: bdqn1
          image: nginx
          imagePullPolicy: IfNotPresent
          ports:      
            - containerPort: 80

2. pod.spec.nodeSelector

通过label-selector机制选择节点,由调度器匹配label,然后调度pod到对应节点,强制约束

apiVersion: apps/v1
kind: Deployment
metadata:
  name: bdqn2
spec:
  selector:
    matchLabels:
      app: bdqn2
  replicas: 3
  template:
    metadata:
      labels:
        app: bdqn2
    spec:
      nodeSelector:
        disk: ssd
      containers:
        - name: bdqn2
          image: nginx
          imagePullPolicy: IfNotPresent
          ports:      
            - containerPort: 80

查看标签:

kubectl get nodes --show-labels

设置node标签:

kubectl label node node01 disk=ssd

去除node标签:

kubectl label node node01 disk-

相关实践学习
通过Ingress进行灰度发布
本场景您将运行一个简单的应用,部署一个新的应用用于新的发布,并通过Ingress能力实现灰度发布。
容器应用与集群管理
欢迎来到《容器应用与集群管理》课程,本课程是“云原生容器Clouder认证“系列中的第二阶段。课程将向您介绍与容器集群相关的概念和技术,这些概念和技术可以帮助您了解阿里云容器服务ACK/ACK Serverless的使用。同时,本课程也会向您介绍可以采取的工具、方法和可操作步骤,以帮助您了解如何基于容器服务ACK Serverless构建和管理企业级应用。 学习完本课程后,您将能够: 掌握容器集群、容器编排的基本概念 掌握Kubernetes的基础概念及核心思想 掌握阿里云容器服务ACK/ACK Serverless概念及使用方法 基于容器服务ACK Serverless搭建和管理企业级网站应用
目录
相关文章
|
25天前
|
JSON Kubernetes 容灾
ACK One应用分发上线:高效管理多集群应用
ACK One应用分发上线,主要介绍了新能力的使用场景
|
26天前
|
Kubernetes 持续交付 开发工具
ACK One GitOps:ApplicationSet UI简化多集群GitOps应用管理
ACK One GitOps新发布了多集群应用控制台,支持管理Argo CD ApplicationSet,提升大规模应用和集群的多集群GitOps应用分发管理体验。
|
1月前
|
Kubernetes 应用服务中间件 nginx
搭建Kubernetes v1.31.1服务器集群,采用Calico网络技术
在阿里云服务器上部署k8s集群,一、3台k8s服务器,1个Master节点,2个工作节点,采用Calico网络技术。二、部署nginx服务到k8s集群,并验证nginx服务运行状态。
497 1
|
1月前
|
应用服务中间件 调度 nginx
Kubernetes的Pod调度:让你的应用像乘坐头等舱!
Kubernetes的Pod调度:让你的应用像乘坐头等舱!
|
1月前
|
Kubernetes Cloud Native 微服务
微服务实践之使用 kube-vip 搭建高可用 Kubernetes 集群
微服务实践之使用 kube-vip 搭建高可用 Kubernetes 集群
107 1
|
1月前
|
负载均衡 应用服务中间件 nginx
基于Ubuntu-22.04安装K8s-v1.28.2实验(二)使用kube-vip实现集群VIP访问
基于Ubuntu-22.04安装K8s-v1.28.2实验(二)使用kube-vip实现集群VIP访问
51 1
|
1月前
|
Kubernetes Ubuntu Linux
Centos7 搭建 kubernetes集群
本文介绍了如何搭建一个三节点的Kubernetes集群,包括一个主节点和两个工作节点。各节点运行CentOS 7系统,最低配置为2核CPU、2GB内存和15GB硬盘。详细步骤包括环境配置、安装Docker、关闭防火墙和SELinux、禁用交换分区、安装kubeadm、kubelet、kubectl,以及初始化Kubernetes集群和安装网络插件Calico或Flannel。
143 0
|
1月前
|
Kubernetes Cloud Native 流计算
Flink-12 Flink Java 3分钟上手 Kubernetes云原生下的Flink集群 Rancher Stateful Set yaml详细 扩容缩容部署 Docker容器编排
Flink-12 Flink Java 3分钟上手 Kubernetes云原生下的Flink集群 Rancher Stateful Set yaml详细 扩容缩容部署 Docker容器编排
73 0
|
1月前
|
弹性计算 Kubernetes Linux
如何使用minikube搭建k8s集群
如何使用minikube搭建k8s集群
|
1月前
|
Kubernetes 应用服务中间件 调度
k8s的Pod常见的几种调度形式
k8s的Pod常见的几种调度形式
31 0

推荐镜像

更多