Kubernetes Scheduler Framework 扩展: 2. Binpack

简介: # 前言 ## 为什么需要Binpack功能? Kubernetes默认开启的资源调度策略是`LeastRequestedPriority`,消耗的资源最少的节点得分最高,优先被调度。这样的资源选择情况有可能导致较多的资源碎片,如下图所示,两个节点各剩余1GPU的资源,导致申请2GPU的作业无法调度,导致整体资源使用率下降。 如果使用的资源调度策略是Binpack,优先将节点

前言

为什么需要Binpack功能?

Kubernetes默认开启的资源调度策略是LeastRequestedPriority,消耗的资源最少的节点得分最高,优先被调度。这样的资源选择情况有可能导致较多的资源碎片,如下图所示,两个节点各剩余1GPU的资源,导致申请2GPU的作业无法调度,导致整体资源使用率下降。


4d207ea9999ae00e8e9a1df84e4ebe26.png


如果使用的资源调度策略是Binpack,优先将节点填满之后,再调度下一个节点,则上图所出现的资源碎片问得到解决,申请2GPU的作业被正常调度到节点上,提升了集群的资源使用率。



04ee0be02e416c781b5318c9a8837c8e.png


实现方案


9cd6af9aa2999779b48308a2e2cc8a44.png

Binpack实现已经抽象成Scheduler Framework的Score插件,用于优选阶段节点打分。具体的实现可以分为两个部分,构建打分函数和打分.

构建打分函数

构建打分函数的过程比较容易理解,就是用户可以自己定义不同的利用率所对应的分值大小,以便影响调度的决策过程。
1.如果用户设定的对应方式如下所示,即如果资源利用率为0的时候,得分为0分,当资源利用率为100时,得分为10分,所以得到的资源利用率越高,得分越高,则这个行为是Binpack的资源选择方式。
undefinedundefined

2.用户也可以设置成利用率为0时,得分为10分,利用率为100时,得分为0分。这样意味着资源利用率越低,则得分越高,这种行为是spread的资源选择方式。
undefinedundefined

3.用户除了2个点之外也可以新增更多的点,对应关系可以不是线性的关系,例如可以标识资源利用率为50时,得分为8,则会将打分分割为两个区间: 0-50和50-100。
undefinedundefined

打分

用户可以自己定义在Binpack计算中所要参考的资源以及权重值,例如可以只是设定GPU和CPU的值和权重。

resourcetoweightmap: 
  "cpu": 1
  "nvidia.com/gpu": 1

然后在打分过程总,会通过计算(pod.Request + node.Allocated)/node.Total的结果得到对应资源的利用率,并且将利用率带入上文中所述的打分函数中,得到相应的分数。最后将所有的资源根据weight值,加权得到最终的分数。

Score = line(resource1_utilization) * weight1 + line(resource2_utilization) * weight2 ....) / (weight1 + weight2 ....)

Binpack使用

前提条件

  1. 目前需要使用CPU和内存的Binpack时,需要支持Kubernetes 1.14及以上版本
  2. 需要支持GPU等扩展资源的Binpack时,需要支持Kubernetes 1.16及以上版本

配置方法

  1. 修改 /etc/kubernetes/manifests/kube-scheduler.yaml, 在Kube-scheduler的启动命令中增加--policy-config-file=/etc/kubernetes/scheduler-policy.json, 并且配置相应的volumes和volumeMounts支持目录挂载,配置的参考示例:
apiVersion: v1
kind: Pod
metadata:
  creationTimestamp: null
  labels:
    component: kube-scheduler
    tier: control-plane
  name: kube-scheduler
  namespace: kube-system
spec:
  containers:
  - command:
    - kube-scheduler
    - --bind-address=127.0.0.1
    - --kubeconfig=/etc/kubernetes/scheduler.conf
    - --leader-elect=true
    - -v=3
    - --policy-config-file=/etc/kubernetes/scheduler-policy.json
    image: registry-vpc.cn-beijing.aliyuncs.com/acs/kube-scheduler:v1.14.8-aliyun.1
    imagePullPolicy: IfNotPresent
    livenessProbe:
      failureThreshold: 8
      httpGet:
        host: 127.0.0.1
        path: /healthz
        port: 10251
        scheme: HTTP
      initialDelaySeconds: 15
      timeoutSeconds: 15
    name: kube-scheduler
    resources:
      requests:
        cpu: 100m
    volumeMounts:
    - mountPath: /etc/kubernetes/scheduler.conf
      name: kubeconfig
      readOnly: true
    - mountPath: /etc/localtime
      name: localtime
    - mountPath: /etc/kubernetes/scheduler-policy.json
      name: policy
  hostNetwork: true
  priorityClassName: system-cluster-critical
  volumes:
  - hostPath:
      path: /etc/kubernetes/scheduler.conf
      type: FileOrCreate
    name: kubeconfig
  - hostPath:
      path: /etc/localtime
      type: ""
    name: localtime
  - hostPath:
      path: /etc/kubernetes/scheduler-policy.json
      type: FileOrCreate
    name: policy
status: {}
  1. 新建/etc/kubernetes/scheduler-policy.json, 用户可以自行配置其他的priorities策略。
{
  "kind" : "Policy",
  "apiVersion" : "v1",
  "priorities" : [
      {
          "name":"RequestedToCapacityRatioPriority",
          "weight":5,
          "argument":{
             "requestedToCapacityRatioArguments":{
                "shape":[
                   {
                      "utilization":0,
                      "score":0
                   },
                   {
                      "utilization":100,
                      "score":10
                   }
                ],
                "resources":[
                   {
                      "name":  "cpu",
                      "weight":  1
                   },
                   {
                      "name":  "nvidia.com/gpu",
                      "weight":  1
                   }
                ]
             }
          }
      }
      ]
}

Demo演示

当前集群有3个节点, 每个节点的CPU剩余资源为3.6个cpu
1.如果当前集群没有开启Binpack的功能是,我们创建nginx容器

apiVersion: apps/v1
kind: ReplicaSet
metadata:
  name: nginx
  labels:
    app: nginx
spec:
  replicas: 6
  selector:
    matchLabels:
      app: nginx
  template:
    metadata:
      name: nginx
      labels:
        app: nginx
    spec:
      containers:
      - name: nginx
        image: nginx
        resources:
          limits:
            cpu: 500m
            memory: 500Mi
          requests:
            cpu: 500m
            memory: 500Mi

结果是所有的pod被均匀的分布到3个节点上。

# kubectl get pods -o wide
NAME          READY   STATUS    RESTARTS   AGE   IP             NODE                       NOMINATED NODE   READINESS GATES
nginx-5rh66   1/1     Running   0          34s   172.20.0.211   cn-beijing.192.168.5.232   <none>           <none>
nginx-859lz   1/1     Running   0          34s   172.20.0.210   cn-beijing.192.168.5.232   <none>           <none>
nginx-bjsfq   1/1     Running   0          34s   172.20.1.8     cn-beijing.192.168.5.231   <none>           <none>
nginx-hnpfg   1/1     Running   0          34s   172.20.1.75    cn-beijing.192.168.5.233   <none>           <none>
nginx-kgc58   1/1     Running   0          34s   172.20.1.9     cn-beijing.192.168.5.231   <none>           <none>
nginx-sbhxl   1/1     Running   0          34s   172.20.1.74    cn-beijing.192.168.5.233   <none>           <none>

2.如果开启了Binpack的功能时,如下面结果所示, 所有的Nginx pod被分配到同一个节点cn-beijing.192.168.5.232上,优先打满一个节点

# kubectl get pods -o wide
NAME          READY   STATUS    RESTARTS   AGE   IP             NODE                       NOMINATED NODE   READINESS GATES
nginx-62ltj   1/1     Running   0          68s   172.20.0.204   cn-beijing.192.168.5.232   <none>           <none>
nginx-75fzz   1/1     Running   0          68s   172.20.0.206   cn-beijing.192.168.5.232   <none>           <none>
nginx-8mxl8   1/1     Running   0          68s   172.20.0.209   cn-beijing.192.168.5.232   <none>           <none>
nginx-pbv9s   1/1     Running   0          68s   172.20.0.208   cn-beijing.192.168.5.232   <none>           <none>
nginx-qrkqh   1/1     Running   0          68s   172.20.0.207   cn-beijing.192.168.5.232   <none>           <none>
nginx-xgfgq   1/1     Running   0          68s   172.20.0.205   cn-beijing.192.168.5.232   <none>           <none>
相关实践学习
通过Ingress进行灰度发布
本场景您将运行一个简单的应用,部署一个新的应用用于新的发布,并通过Ingress能力实现灰度发布。
容器应用与集群管理
欢迎来到《容器应用与集群管理》课程,本课程是“云原生容器Clouder认证“系列中的第二阶段。课程将向您介绍与容器集群相关的概念和技术,这些概念和技术可以帮助您了解阿里云容器服务ACK/ACK Serverless的使用。同时,本课程也会向您介绍可以采取的工具、方法和可操作步骤,以帮助您了解如何基于容器服务ACK Serverless构建和管理企业级应用。 学习完本课程后,您将能够: 掌握容器集群、容器编排的基本概念 掌握Kubernetes的基础概念及核心思想 掌握阿里云容器服务ACK/ACK Serverless概念及使用方法 基于容器服务ACK Serverless搭建和管理企业级网站应用
目录
相关文章
|
1月前
|
弹性计算 人工智能 Serverless
阿里云ACK One:注册集群云上节点池(CPU/GPU)自动弹性伸缩,助力企业业务高效扩展
在当今数字化时代,企业业务的快速增长对IT基础设施提出了更高要求。然而,传统IDC数据中心却在业务存在扩容慢、缩容难等问题。为此,阿里云推出ACK One注册集群架构,通过云上节点池(CPU/GPU)自动弹性伸缩等特性,为企业带来全新突破。
|
7月前
|
运维 Kubernetes Cloud Native
OpenKruise是一个基于Kubernetes的扩展套件
OpenKruise是一个基于Kubernetes的扩展套件【1月更文挑战第14天】【1月更文挑战第68篇】
45 2
|
7月前
|
Kubernetes 负载均衡 Cloud Native
猿创征文|云原生|kubernetes二进制1.18单master扩展为多master
猿创征文|云原生|kubernetes二进制1.18单master扩展为多master
94 0
|
11天前
|
弹性计算 调度 数据中心
阿里云 ACK One 注册集群云上弹性:扩展业务新利器
随着企业数字化转型深入,传统IDC数据中心因物理容量限制,难以实现动态扩容,缺乏弹性能力。阿里云ACK One注册集群凭借其高度灵活性和丰富资源选择,成为解决此问题的最佳方案。通过与阿里云资源的整合,ACK One不仅实现了计算资源的按需扩展,提高了资源利用率,还通过按需付费模式降低了成本,使企业能够更高效地应对业务增长和高峰需求。
|
27天前
|
Prometheus Kubernetes 监控
深入探索Kubernetes中的Pod自动扩展(Horizontal Pod Autoscaler, HPA)
深入探索Kubernetes中的Pod自动扩展(Horizontal Pod Autoscaler, HPA)
|
4月前
|
Kubernetes 算法 调度
在k8S中,Scheduler使用哪两种算法将Pod绑定到worker节点?
在k8S中,Scheduler使用哪两种算法将Pod绑定到worker节点?
|
4月前
|
Kubernetes 负载均衡 算法
如何在kubernetes中实现分布式可扩展的WebSocket服务架构
如何在kubernetes中实现分布式可扩展的WebSocket服务架构
95 1
|
4月前
|
Kubernetes API 调度
在k8S中,Scheduler作用及实现原理是什么?
在k8S中,Scheduler作用及实现原理是什么?
|
5月前
|
Kubernetes 持续交付 Python
Kubernetes(通常简称为K8s)是一个开源的容器编排系统,用于自动化部署、扩展和管理容器化应用程序。
Kubernetes(通常简称为K8s)是一个开源的容器编排系统,用于自动化部署、扩展和管理容器化应用程序。
|
6月前
|
Kubernetes 监控 调度
K8S中Scheduler原理分析
【6月更文挑战第20天】K8S Scheduler是集群的关键组件,它监听API Server,为新Pod选择合适的Node。
下一篇
DataWorks