阿里云上弹性伸缩kubernetes集群 - autoscaler

本文涉及的产品
容器镜像服务 ACR,镜像仓库100个 不限时长
简介: 阿里云Kubernetes服务简化了K8S集群的创建、升级和手动扩缩容。然而使用Kubernetes集群经常问到的一个问题是,我应该保持多大的节点规模来满足应用需求呢? Autoscaler的出现解决了这个问题,它可以自动的根据部署的应用所请求的资源量来动态的伸缩集群。

阿里云Kubernetes服务简化了K8S集群的创建、升级和手动扩缩容。然而使用Kubernetes集群经常问到的一个问题是,我应该保持多大的节点规模来满足应用需求呢? Autoscaler的出现解决了这个问题,它可以自动的根据部署的应用所请求的资源量来动态的伸缩集群。

tips: 一个好的实践是显示的为你的每个应用指定资源请求的值request.

前置条件

为了实现集群规模的自动扩展,需要完成以下工作。

    1. 使用阿里云Kubernete服务在阿里云某个Region创建一个kubernetes集群,这里以杭州Region为例。
    1. 在相应的Region(示例杭州)创建ESS弹性伸缩实例,并配置。

获取kubernetes集群的添加节点命令

为了使得ESS实例节点可以动态加入Kubernetes集群,我们需要获取Kubernetes集群添加节点命令作为,ESS伸缩组的userdata数据。
进入上一步创建好的Kubernetes集群的管理控制台,选择刚刚创建的集群,点击[更多]->[添加已有节点]:
image

拷贝黑框中的内容备用:

curl http://aliacs-k8s-cn-hangzhou.oss-cn-hangzhou.aliyuncs.com/public/pkg/run/attach/attach_node.sh | bash -s -- --docker-version 17.06.2-ce-1 --token 9e3606.1de6xxxxxxxx9a9 --endpoint 192.168.223.87:6443 --cluster-dns 172.19.0.10

ESS 需要这段脚本来初始化新扩展出来的节点。

创建ESS实例。

自动扩展kubernetes集群需要阿里云ESS(弹性伸缩组)的支持,因此需要先创建一个ESS。
进入ESS控制台. 选择杭州Region(和kubernetes集群所在region保持一致),点击【创建伸缩组】,在弹出的对话框中填写相应信息,注意网络类型选择专有网络,并且专有网络选择前置条件1中的Kubernetes集群的vpc网络名,然后选择一个vswitch,然后提交。如下图:

image

注意:
这里的VPC网络的选择一定要是前面创建的kubernetes集群所使用的VPC网络,可以进入容器服务kubernetes集群控制台,选择该集群,点击管理,查看该VPC信息,如下图:
image

最后记录刚刚创建的伸缩组的名字,格式为regionid.ess_group_name, eg. cn-hangzhou.kubernetes-hangzhou-group,这个名字在配置autoscaler的时候会用上。

创建伸缩配置项

选择刚才创建的伸缩组,点击添加[伸缩配置], 选择实例规格、安全组(和kubernetes集群同属于一个安全组)、带宽峰值选择0(不分配公网IP)、公共镜像选择centos 7.4、设置云盘大小, 最后设置用户数据。
image

image

注意用户数据选择【使用文本形式】,同时将获取kubernetes集群的添加节点命令粘贴到该文本框中,并在之前添加#!/bin/bashyum clean all。 下面是一个用户数据的示例,替换成你自己的:

#!/bin/bash
yum clean all
curl http://aliacs-k8s-cn-hangzhou.oss-cn-hangzhou.aliyuncs.com/public/pkg/run/attach/attach_node.sh | bash -s -- --docker-version 17.06.2-ce-1 --token 9e3606.1de6xxxxxxxx9a9 --endpoint 192.168.223.87:6443 --cluster-dns 172.19.0.10

然后完成创建,启用配置。

部署Autoscaler到kubernetes集群中

由于autoscaler会调用阿里云ESS api来触发集群规模调整,因此需要配置api 访问的accesskey。 同时需要手动指定上面刚刚创建伸缩组,格式为regionid.ess_group_name, 上面示例:cn-hangzhou.kubernetes-hangzhou-group

创建AutoScaler kubernetes deployment。 所有命令均在其中一台master上面执行。

[root@iZbuZ autoscale]# export ACCESS_KEY=<replace with your own key> \
                            ACCESS_SECRET=<replace with your own>
[root@iZbuZ autoscale]# export AUTO_SCALER_GROUP=<replace with above group name>
[root@iZbuZ autoscale]# kubectl create secret generic cloud-config \
                            -n kube-system \
                            --from-literal=access-key-id="${ACCESS_KEY}" \
                            --from-literal=access-key-secret="${ACCESS_SECRET}"
[root@iZbuZ autoscale]#            
[root@iZbuZ autoscale]# cat <<EOF | kubectl apply -f -
apiVersion: extensions/v1beta1
kind: Deployment
metadata:
  name: cluster-autoscaler
  namespace: kube-system
  labels:
    app: cluster-autoscaler
spec:
  replicas: 1
  selector:
    matchLabels:
      app: cluster-autoscaler
  template:
    metadata:
      labels:
        app: cluster-autoscaler
    spec:
      serviceAccountName: admin
      containers:
        - image: registry.cn-hangzhou.aliyuncs.com/google-containers/cluster-autoscaler:v1.1.0
          name: cluster-autoscaler
          resources:
            limits:
              cpu: 100m
              memory: 300Mi
            requests:
              cpu: 100m
              memory: 300Mi
          command:
            - ./cluster-autoscaler
            - --v=4
            - --stderrthreshold=info
            - --cloud-provider=alicloud
            - --skip-nodes-with-local-storage=false
            - --nodes=1:100:${AUTO_SCALER_GROUP}
          env:
          - name: ACCESS_KEY_ID
            valueFrom:
              secretKeyRef:
                name: cloud-config
                key: access-key-id
          - name: ACCESS_KEY_SECRET
            valueFrom:
              secretKeyRef:
                name: cloud-config
                key: access-key-secret
          imagePullPolicy: "Always"
EOF

[root@iZbuZ autoscale]# kubectl get deploy -n kube-system cluster-autoscaler
NAME                 DESIRED   CURRENT   UP-TO-DATE   AVAILABLE   AGE
cluster-autoscaler   1         1         1            1           17h

完成创建。

测试自动扩展节点效果

Autoscaler根据用户应用的资源静态请求量来决定是否扩展集群大小,因此请设置好应用的资源请求量。

测试前节点数量如下,配置均为2核4G ECS,其中两个节点可调度。

[root@iZbuZ ~]# kubectl get no
NAME                                 STATUS    ROLES     AGE       VERSION
cn-hangzhou.i-bp12xhp8qv06m48u6j6q   Ready     <none>    1d        v1.8.4
cn-hangzhou.i-bp13sdsyk6zszfotf49x   Ready     master    1d        v1.8.4
cn-hangzhou.i-bp16808sbruko78l8j96   Ready     <none>    1d        v1.8.4
cn-hangzhou.i-bp1bb7xjnbyxmxska58u   Ready     master    1d        v1.8.4
cn-hangzhou.i-bp1bhan5nqzh8vfk08qb   Ready     master    1d        v1.8.4

接下来我们创建一个副本nginx deployment, 指定每个nginx副本需要消耗1核1G内存。

[root@iZbuZ ~]# cat <<EOF | kubectl apply -f -
apiVersion: extensions/v1beta1
kind: Deployment
metadata:
  labels:
    run: nginx
  name: nginx
spec:
  replicas: 1
  template:
      labels:
        run: nginx
    spec:
      containers:
      - image: nginx
        imagePullPolicy: Always
        name: nginx
        resources:
          requests:
            cpu: "1"
            memory: 1Gi
EOF

[root@iZbuZ ~]# kubectl get po
NAME                    READY     STATUS    RESTARTS   AGE
http-svc-wpxgj          1/1       Running   0          1d
http-svc-z9hjv          1/1       Running   0          1d
nginx-9d9b56898-xvkkm   1/1       Running   0          18h

看到由于有足够的cpu内存资源,所以pod能够正常调度。接下来我们使用kubectl scale 命令来扩展副本数量到4个。

[root@iZbuZ ~]# kubectl scale deploy nginx --replicas 4 
[root@iZbuZ ~]# kubectl get po
NAME                    READY     STATUS    RESTARTS   AGE
http-svc-wpxgj          1/1       Running   0          1d
http-svc-z9hjv          1/1       Running   0          1d
nginx-9d9b56898-jphgw   1/1       Running   0          18h
nginx-9d9b56898-p92lk   1/1       pending   0          20s
nginx-9d9b56898-sbrp6   1/1       pending   0          20s
nginx-9d9b56898-xvkkm   1/1       Running   0          18h
[root@iZbuZ ~]# kubectl describe po nginx-9d9b56898-p92lk |grep -A 4 Event

发现由于没有足够的cpu内存资源,该pod无法被调度(pod 处于pending状态)。这时候autoscaler会介入,尝试创建一个新的节点来让pod可以被调度。接下来我们执行一个watch kubectl get no的命令来监视node的添加。大约几分钟后,就有新的节点添加进来了

[root@iZbuZ ~]# watch kubectl get no
Every 2.0s: kubectl get no                                                                                                                                       
NAME                                 STATUS    ROLES     AGE       VERSION
cn-hangzhou.i-bp12xhp8qv06m48u6j6q   Ready     <none>    1d        v1.8.4
cn-hangzhou.i-bp13sdsyk6zszfotf49x   Ready     master    1d        v1.8.4
cn-hangzhou.i-bp16808sbruko78l8j96   Ready     <none>    1d        v1.8.4
cn-hangzhou.i-bp17cnn1s5fxh5aeujii   Ready     <none>    1m        v1.8.4
cn-hangzhou.i-bp1bb7xjnbyxmxska58u   Ready     master    1d        v1.8.4
cn-hangzhou.i-bp1bhan5nqzh8vfk08qb   Ready     master    1d        v1.8.4

[root@iZbuZ ~]# kubectl get po
NAME                    READY     STATUS    RESTARTS   AGE
http-svc-wpxgj          1/1       Running   0          1d
http-svc-z9hjv          1/1       Running   0          1d
nginx-9d9b56898-jphgw   1/1       Running   0          18h
nginx-9d9b56898-p92lk   1/1       Running   0          2m
nginx-9d9b56898-sbrp6   1/1       Running   0          2m
nginx-9d9b56898-xvkkm   1/1       Running   0          18h

可以观察到比测试前新增了一个节点,并且pod也正常调度了。

测试自动收缩节点数量

当Autoscaler发现通过调整Pod分布时可以空闲出多余的node的时候,会执行节点移除操作。这个操作不会立即执行,通常设置了一个冷却时间,300s左右才会执行scale down。
通过kubectl scale 来调整nginx副本数量到1个,观察集群节点的变化。

[root@iZbuZ ~]# kubectl scale deploy nginx --replicas 1
[root@iZbuZ ~]# watch kubectl get no
Every 2.0s: kubectl get no                                                                                                                                       
NAME                                 STATUS    ROLES     AGE       VERSION
cn-hangzhou.i-bp12xhp8qv06m48u6j6q   Ready     <none>    1d        v1.8.4
cn-hangzhou.i-bp13sdsyk6zszfotf49x   Ready     master    1d        v1.8.4
cn-hangzhou.i-bp16808sbruko78l8j96   Ready     <none>    1d        v1.8.4
cn-hangzhou.i-bp1bb7xjnbyxmxska58u   Ready     master    1d        v1.8.4
cn-hangzhou.i-bp1bhan5nqzh8vfk08qb   Ready     master    1d        v1.8.4

总结

Autoscaler会作为一个开源工具独立使用,阿里云Kubernetes服务也将进一步简化弹性伸缩的用户体验,将弹性计算和Kubernetes集群管理完美结合在一起。也欢迎您的意见和建议,帮助我们迭代产品能力。

阿里云Kubernetes服务 全球首批通过Kubernetes一致性认证,简化了Kubernetes集群生命周期管理,内置了与阿里云产品集成,也将进一步简化Kubernetes的开发者体验,帮助用户关注云端应用价值创新。

相关实践学习
通过Ingress进行灰度发布
本场景您将运行一个简单的应用,部署一个新的应用用于新的发布,并通过Ingress能力实现灰度发布。
容器应用与集群管理
欢迎来到《容器应用与集群管理》课程,本课程是“云原生容器Clouder认证“系列中的第二阶段。课程将向您介绍与容器集群相关的概念和技术,这些概念和技术可以帮助您了解阿里云容器服务ACK/ACK Serverless的使用。同时,本课程也会向您介绍可以采取的工具、方法和可操作步骤,以帮助您了解如何基于容器服务ACK Serverless构建和管理企业级应用。 学习完本课程后,您将能够: 掌握容器集群、容器编排的基本概念 掌握Kubernetes的基础概念及核心思想 掌握阿里云容器服务ACK/ACK Serverless概念及使用方法 基于容器服务ACK Serverless搭建和管理企业级网站应用
目录
相关文章
|
6天前
|
缓存 容灾 网络协议
ACK One多集群网关:实现高效容灾方案
ACK One多集群网关可以帮助您快速构建同城跨AZ多活容灾系统、混合云同城跨AZ多活容灾系统,以及异地容灾系统。
|
17天前
|
Kubernetes Ubuntu 网络安全
ubuntu使用kubeadm搭建k8s集群
通过以上步骤,您可以在 Ubuntu 系统上使用 kubeadm 成功搭建一个 Kubernetes 集群。本文详细介绍了从环境准备、安装 Kubernetes 组件、初始化集群到管理和使用集群的完整过程,希望对您有所帮助。在实际应用中,您可以根据具体需求调整配置,进一步优化集群性能和安全性。
68 12
|
19天前
|
Prometheus Kubernetes 监控
OpenAI故障复盘 - 阿里云容器服务与可观测产品如何保障大规模K8s集群稳定性
聚焦近日OpenAI的大规模K8s集群故障,介绍阿里云容器服务与可观测团队在大规模K8s场景下我们的建设与沉淀。以及分享对类似故障问题的应对方案:包括在K8s和Prometheus的高可用架构设计方面、事前事后的稳定性保障体系方面。
|
21天前
|
Kubernetes 网络协议 应用服务中间件
Kubernetes Ingress:灵活的集群外部网络访问的利器
《Kubernetes Ingress:集群外部访问的利器-打造灵活的集群网络》介绍了如何通过Ingress实现Kubernetes集群的外部访问。前提条件是已拥有Kubernetes集群并安装了kubectl工具。文章详细讲解了Ingress的基本组成(Ingress Controller和资源对象),选择合适的版本,以及具体的安装步骤,如下载配置文件、部署Nginx Ingress Controller等。此外,还提供了常见问题的解决方案,例如镜像下载失败的应对措施。最后,通过部署示例应用展示了Ingress的实际使用方法。
45 2
|
1月前
|
存储 Kubernetes 关系型数据库
阿里云ACK备份中心,K8s集群业务应用数据的一站式灾备方案
本文源自2024云栖大会苏雅诗的演讲,探讨了K8s集群业务为何需要灾备及其重要性。文中强调了集群与业务高可用配置对稳定性的重要性,并指出人为误操作等风险,建议实施周期性和特定情况下的灾备措施。针对容器化业务,提出了灾备的新特性与需求,包括工作负载为核心、云资源信息的备份,以及有状态应用的数据保护。介绍了ACK推出的备份中心解决方案,支持命名空间、标签、资源类型等维度的备份,并具备存储卷数据保护功能,能够满足GitOps流程企业的特定需求。此外,还详细描述了备份中心的使用流程、控制台展示、灾备难点及解决方案等内容,展示了备份中心如何有效应对K8s集群资源和存储卷数据的灾备挑战。
|
2月前
|
Prometheus Kubernetes 监控
深入探索Kubernetes中的Pod自动扩展(Horizontal Pod Autoscaler, HPA)
深入探索Kubernetes中的Pod自动扩展(Horizontal Pod Autoscaler, HPA)
|
2月前
|
Kubernetes 监控 Cloud Native
Kubernetes集群的高可用性与伸缩性实践
Kubernetes集群的高可用性与伸缩性实践
83 1
|
3月前
|
JSON Kubernetes 容灾
ACK One应用分发上线:高效管理多集群应用
ACK One应用分发上线,主要介绍了新能力的使用场景
|
3月前
|
Kubernetes 持续交付 开发工具
ACK One GitOps:ApplicationSet UI简化多集群GitOps应用管理
ACK One GitOps新发布了多集群应用控制台,支持管理Argo CD ApplicationSet,提升大规模应用和集群的多集群GitOps应用分发管理体验。
|
3月前
|
Kubernetes Cloud Native 云计算
云原生之旅:Kubernetes 集群的搭建与实践
【8月更文挑战第67天】在云原生技术日益成为IT行业焦点的今天,掌握Kubernetes已成为每个软件工程师必备的技能。本文将通过浅显易懂的语言和实际代码示例,引导你从零开始搭建一个Kubernetes集群,并探索其核心概念。无论你是初学者还是希望巩固知识的开发者,这篇文章都将为你打开一扇通往云原生世界的大门。
154 17

相关产品

  • 容器服务Kubernetes版