基于ACK One注册集群实现IDC中K8s集群添加云上CPU/GPU节点

本文涉及的产品
容器服务 Serverless 版 ACK Serverless,952元额度 多规格
容器镜像服务 ACR,镜像仓库100个 不限时长
容器服务 Serverless 版 ACK Serverless,317元额度 多规格
简介: 基于ACK One注册集群实现IDC中K8s集群添加云上CPU/GPU节点

在前一篇文章《基于ACK One注册集群轻松实现云上云下K8s集群统一管理》中,我们注重介绍了注册集群的应用场景,架构实现,安全加固,以及在他云K8s集群和IDC自建K8s集群中使用阿里云容器服务ACK的强大可观测性能力,实现云上云下K8s集群的统一运维管理。本文会重点介绍ACK One注册集群的另一个重要使用场景--云上弹性。

概述

ACK One注册集群的云上弹性能力针对的场景:

  1. 业务快速增长:在本地IDC中部署的K8s集群,往往受到IDC计算资源的限制无法及时扩容,计算资源的采购部署上线往往周期较长,无法承担业务流量的快速增长。
  2. 业务周期性增长或突发增长:本地IDC中的计算资源数量相对固定,无法应对业务周期性高峰,或者突发业务流量的增长。

解决以上场景的根本是计算资源弹性能力,可以跟随业务流量的变化,弹性扩大或者缩小计算资源,满足业务需求的同时也保证了成本的平衡。

通过ACK One注册集群,本地IDC中的K8s集群可以弹性扩容阿里云ECS节点池,利用阿里云容器服务的极致弹性能力,扩容应对业务流量增长,缩容实现成本节约。

尤其针对AI场景,通过ACK One注册集群,可以将云上GPU机器接入IDC中的K8s集群。

ACK One注册集群云上弹性架构图:

image.png

演示 - 阿里云GPU机器加入本地IDC中K8s集群

1. 创建ACK One注册集群

访问ACK One控制台注册集群用页面,我们已经创建了注册集群“ACKOneRegisterCluster1”并接入了本地IDC中的K8s集群。参见:《基于ACK One注册集群轻松实现云上云下K8s集群统一管理

image.png

接入后,可以通过ACK One控制台查看本地IDC K8s集群,目前只有一个master节点。

image.png


2. 创建GPU节点池并手动扩容创建1个GPU节点

在注册集群中创建节点池GPU-P100,将云上GPU机器加入IDC中K8s集群。

image.png

在IDC K8s集群中执行kubectl查看节点信息。

kubectl get node
NAME                           STATUS   ROLES    AGE     VERSION
cn-zhangjiakou.172.16.217.xx   Ready    <none>   5m35s   v1.20.9    // 云上GPU机器
iz8vb1xtnuu0ne6b58hvx0z        Ready    master   20h     v1.20.9    // IDC机器
k describe node cn-zhangjiakou.172.16.217.xx
Name:               cn-zhangjiakou.172.16.217.xx
Roles:              <none>
Labels:             aliyun.accelerator/nvidia_count=1             //nvidia labels
                    aliyun.accelerator/nvidia_mem=16280MiB        //nvidia labels 
                    aliyun.accelerator/nvidia_name=Tesla-P100-PCIE-16GB  //nvidia labels
                    beta.kubernetes.io/arch=amd64
                    beta.kubernetes.io/os=linux
                    kubernetes.io/arch=amd64
                    kubernetes.io/hostname=cn-zhangjiakou.172.16.217.xx
                    kubernetes.io/os=linux
Capacity:
  cpu:                4
  ephemeral-storage:  123722704Ki
  hugepages-1Gi:      0
  hugepages-2Mi:      0
  memory:             30568556Ki
  nvidia.com/gpu:     1              //nvidia gpu
  pods:               110
Allocatable:
  cpu:                4
  ephemeral-storage:  114022843818
  hugepages-1Gi:      0
  hugepages-2Mi:      0
  memory:             30466156Ki
  nvidia.com/gpu:     1              //nvidia gpu
  pods:               110
System Info:
  OS Image:                   Alibaba Cloud Linux (Aliyun Linux) 2.1903 LTS (Hunting Beagle)
  Operating System:           linux
  Architecture:               amd64
  Container Runtime Version:  docker://19.3.13
  Kubelet Version:            v1.20.9
  Kube-Proxy Version:         v1.20.9
......


3. 运行GPU任务测试

在IDC中K8s集群中提交GPU测试任务,运行结果成功。

> cat <<EOF | kubectl apply -f -
apiVersion: v1
kind: Pod
metadata:
  name: gpu-pod
spec:
  restartPolicy: Never
  containers:
    - name: cuda-container
      image: acr-multiple-clusters-registry.cn-hangzhou.cr.aliyuncs.com/ack-multiple-clusters/cuda10.2-vectoradd
      resources:
        limits:
          nvidia.com/gpu: 1 # requesting 1 GPU
EOF
> kubectl logs gpu-pod
[Vector addition of 50000 elements]
Copy input data from the host memory to the CUDA device
CUDA kernel launch with 196 blocks of 256 threads
Copy output data from the CUDA device to the host memory
Test PASSED
Done


多级弹性调度

通过上面的演示,我们可以通过ACK One注册集群,使用云上ECS资源创建节点池,并添加到IDC集群中。您可以为节点池或者节点打标(label),并通过设置Pod的节点亲"affinity"或者“nodeSelector"的方式,为Pod选择是在IDC本地节点中运行,还是在云上ECS节点用运行。这种方式需要修改应用pod的配置,如果生产系统有较多的应用需要处理,则需要编写调度规则,适合自定义调度的场景,例如:特定CUDA版本的GPU训练任务调度到云上特定的GPU ECS实例上。

为了简化IDC中K8s集群使用云上ECS资源,ACK One注册集群提供多级弹性调度功能,通过安装ack-co-scheduler组件,您可以定义ResourcePolicy CR对象,使用多级弹性调度功能。

ResourcePolicy CR是命名空间资源,重要参数解析:

  • selector:声明ResourcePolicy作用于同一命名空间下label上打了key1=value1的Pod。
  • strategy:调度策略选择,目前只支持prefer
  • units:用户自定义的调度单元。应用扩容时,将按照units下资源的顺序选择资源运行;应用缩容时,将按照逆序进行缩容。
  • resource:弹性资源的类型,目前支持idcecseci三种类型。
  • nodeSelector:用nodelabel标识该调度单元下的节点,只对ecs资源生效。
  • max:在该组资源最多部署多少个实例。

ResourcePolicy支持以下场景:

场景1: 优先使用IDC中集群资源,再使用云上ECS资源

apiVersion: scheduling.alibabacloud.com/v1alpha1
kind: ResourcePolicy
metadata:
  name: cost-balance-policy
spec:
  selector:
    app: nginx           // 选择应用Pod
  strategy: prefer
  units:
  - resource: idc        //优先使用idc指定使用IDC中节点资源
  - resource: ecs        //当idc节点资源不足时,使用云上ECS,可以通过nodeSelector选择节点
    nodeSelector:
      alibabacloud.com/nodepool-id=np7b30xxx


场景2: 混合使用IDC资源和云上ECS资源

apiVersion: scheduling.alibabacloud.com/v1alpha1
kind: ResourcePolicy
metadata:
  name: load-balance-policy
spec:
  selector:
    app: nginx
  strategy: prefer
  units:
  - resource: idc
    max: 2             //在idc节点中最多启动2个应用实例
  - resource: ecs
    nodeSelector:
      alibabacloud.com/nodepool-id=np7b30xxx
    max: 4             //在ecs节点池中最多启动4个应用实例


总结

演示中,我们将阿里云GPU P100机器添加到IDC中的K8s集群,扩展了IDC的GPU算力。

通过ACK One注册集群:

  1. 您可以选择阿里云上的各种ECS实例类型和规格,包括:X86,ARM,GPU等。
  2. 您可以手动扩容和缩容ECS实例数量。
  3. 您可以配置ECS实例数量的自动弹性伸缩。
  4. 您可以使用多级弹性调度,优先使用IDC中资源,IDC资源不足的情况下,自动扩容云上ECS节点池处理突发业务流量。

预告

后续我们将陆续推出ACK One注册集群的系列文章,包括:Serverless方式扩容IDC中K8s集群,容灾备份,安全管理等。

参考文档

注册集群概述:https://help.aliyun.com/document_detail/155208.html

创建ECS节点池:https://help.aliyun.com/document_detail/208054.html

配置ECS节点自动弹性伸缩:https://help.aliyun.com/document_detail/208055.html

多级弹性调度:https://help.aliyun.com/document_detail/446694.html

联系我们

钉钉群号:35688562

二维码:

image.png

相关实践学习
通过Ingress进行灰度发布
本场景您将运行一个简单的应用,部署一个新的应用用于新的发布,并通过Ingress能力实现灰度发布。
容器应用与集群管理
欢迎来到《容器应用与集群管理》课程,本课程是“云原生容器Clouder认证“系列中的第二阶段。课程将向您介绍与容器集群相关的概念和技术,这些概念和技术可以帮助您了解阿里云容器服务ACK/ACK Serverless的使用。同时,本课程也会向您介绍可以采取的工具、方法和可操作步骤,以帮助您了解如何基于容器服务ACK Serverless构建和管理企业级应用。 学习完本课程后,您将能够: 掌握容器集群、容器编排的基本概念 掌握Kubernetes的基础概念及核心思想 掌握阿里云容器服务ACK/ACK Serverless概念及使用方法 基于容器服务ACK Serverless搭建和管理企业级网站应用
相关文章
|
1天前
|
Kubernetes 固态存储 调度
在K8S中,如何在指定节点上部署Pod呢?
在K8S中,如何在指定节点上部署Pod呢?
|
1天前
|
存储 Kubernetes 监控
在K8S中,worke节点如何加入K8S高可用集群?
在K8S中,worke节点如何加入K8S高可用集群?
|
1天前
|
Kubernetes 调度 容器
在K8S中,如何把某个worker节点设置为不可调度?
在K8S中,如何把某个worker节点设置为不可调度?
|
1天前
|
Kubernetes 网络协议 网络架构
在K8S中,keepalived是如何检测工作节点是否存活的?
在K8S中,keepalived是如何检测工作节点是否存活的?
|
1天前
|
Kubernetes API Docker
在K8S中,节点状态notReady如何排查?
在K8S中,节点状态notReady如何排查?
|
1天前
|
Kubernetes API 调度
在K8S中,节点状态哪个组件负责上报的?
在K8S中,节点状态哪个组件负责上报的?
|
1天前
|
Kubernetes 监控 测试技术
在K8S中,如何查看pod状态的详情? 事件显示cpu不足如何处理?
在K8S中,如何查看pod状态的详情? 事件显示cpu不足如何处理?
|
1天前
|
Kubernetes API 调度
在K8S中,worke节点启动阶段包括什么?
在K8S中,worke节点启动阶段包括什么?
|
4天前
|
机器学习/深度学习 编解码 人工智能
阿里云gpu云服务器租用价格:最新收费标准与活动价格及热门实例解析
随着人工智能、大数据和深度学习等领域的快速发展,GPU服务器的需求日益增长。阿里云的GPU服务器凭借强大的计算能力和灵活的资源配置,成为众多用户的首选。很多用户比较关心gpu云服务器的收费标准与活动价格情况,目前计算型gn6v实例云服务器一周价格为2138.27元/1周起,月付价格为3830.00元/1个月起;计算型gn7i实例云服务器一周价格为1793.30元/1周起,月付价格为3213.99元/1个月起;计算型 gn6i实例云服务器一周价格为942.11元/1周起,月付价格为1694.00元/1个月起。本文为大家整理汇总了gpu云服务器的最新收费标准与活动价格情况,以供参考。
阿里云gpu云服务器租用价格:最新收费标准与活动价格及热门实例解析
|
13天前
|
编解码 分布式计算 Linux
最新阿里云服务器、轻量应用服务器、GPU云服务器活动价格参考
阿里云服务器产品包含云服务器、轻量应用服务器、GPU云服务器等,本文汇总了这些云服务器当下最新的实时活动价格情况,包含经济型e实例云服务器价格、通用算力型u1实例云服务器价格、第七代云服务器价格、轻量应用服务器最新价格、GPU云服务器价格,以供大家参考。
最新阿里云服务器、轻量应用服务器、GPU云服务器活动价格参考

相关产品

  • 容器服务Kubernetes版
  • 推荐镜像

    更多