阿里云ACK One:注册集群云上节点池(CPU/GPU)自动弹性伸缩,助力企业业务高效扩展

简介: 在当今数字化时代,企业业务的快速增长对IT基础设施提出了更高要求。然而,传统IDC数据中心却在业务存在扩容慢、缩容难等问题。为此,阿里云推出ACK One注册集群架构,通过云上节点池(CPU/GPU)自动弹性伸缩等特性,为企业带来全新突破。

【阅读原文】戳:阿里云ACK One:注册集群云上节点池(CPU/GPU)自动弹性伸缩,助力企业业务高效扩展

在当今数字化时代,企业业务的快速增长对IT基础设施提出了更高要求。然而,传统IDC数据中心却在业务的高低峰挑战中显得力不从心。扩容慢、缩容难的问题,主要源于传统数据中心资源无法实现动态伸缩。这一切,都因为缺乏灵活、高效的解决方案而停滞不前。

 

为此,阿里云推出ACK One注册集群[1]架构,通过云上节点池(CPU/GPU)自动弹性伸缩等特性,为企业带来全新突破。云上节点池自动弹性伸缩通过动态分配云上计算资源,实时响应业务需求的变化。不论是在业务高峰时自动扩容以保障服务稳定,还是在业务低峰期缩减资源以节省成本,云上节点池都能轻松应对。以最小代价换取最大收益,使得企业专注于核心业务的拓展。

 

 

 

 

ACK One注册集群云上弹性的典型场景与优势

 

 

 

ACK One注册集群的云上弹性能力针对的场景:

 

业务周期性高峰或突发式增长:本地IDC中的计算资源数量相对固定,无法应对业务周期性高峰,或者突发业务流量的增长。例如热搜、电商大促等。

 

业务快速增长: 在本地IDC中部署的K8s集群,往往受到IDC计算资源的限制无法动态扩容,计算资源的采购部署上线往往周期较长,无法承担业务流量的快速增长。

 

AI推理与训练:提供丰富的GPU实例规格选择,满足多种类型的AI任务。

 

ACK One注册集群云上弹性架构如下图所示:

 

 

通过ACK One注册集群,本地IDC中的K8s集群可以弹性扩容阿里云ECS节点池(CPU/GPU),利用阿里云容器服务的极致弹性能力,当业务需求增加时,节点池会自动扩展节点,当业务需求减少时,节点池会自动收缩节点。这种自动弹性伸缩的方式,可以有效解决客户业务的弹性诉求,同时在成本和时效上具有明显优势。

 

通过云上弹性架构图,我们可以看出目前有两种弹性算力,分别是ECS弹性算力和Serveless弹性算力,下面我们分别介绍各自的特性、优势以及适用场景。

 

 

 

 

- ECS(CPU/GPU)弹性算力 -

 

特性和优势

 

 

可控性:用户拥有对实例配置、网络、安全等的完全控制权。

 

多种实例规格:提供丰富的CPU/GPU实例类型,不仅满足普通应用,同时也可以满足AI场景下的应用。

 

持久化存储:支持挂载不同类型的存储卷,满足数据持久化需求。

 

 

 

 

适用场景

 

 

长期应用和服务:适合需要长期运行并具有稳定资源需求的应用。

 

高性能计算任务:需要专用高性能资源(如GPU)的任务,如AI训练和推理。

 

 

 

- Serverless弹性算力 -

 

特性和优势

 

 

Serverless架构:无需用户管理底层的虚拟机或服务器,用户只需关注容器的运行。

 

快速启动:业务容器可以做到秒级启动,适合需要快速扩展容量的场景。

 

按需计费:基于实际使用时间进行计费,使其在成本管理方面非常高效。

 

 

 

适用场景

 

 

短期任务或批量处理任务:针对需要在短时间内处理大量数据的场景非常理想。

 

按需伸缩的应用:如电商大促、新闻热点等场景,需要快速响应业务高峰。

 

 

 

 

- ECS(CPU/GPU)弹性算力和Serverless弹性算力区别 -

 

 

管理级别:Serverless算力 是无服务器的容器服务,不需要管理基础设施;ECS 是可定制的虚拟机服务,用户可以管理服务器配置和维护。

 

启动速度:Serverless算力 启动速度极快,适于需要快速响应的场景;ECS 启动相对较慢。

 

使用灵活性:Serverless算力更加灵活,适合短期任务;ECS 适合长期运行和需要复杂设置的应用。

 

成本:Serverless算力 基于实际使用时间计费,更适合短期和波动大的任务;ECS 适合长期稳定负载,对于长时间运行的实例更具成本效益。

 

本篇主要介绍ACK One注册集群云上ECS弹性。

 

 

 

 

为本地IDC K8s集群添加云上节点池自动弹性实践

 

- 创建ACK One注册集群 -

 

 

1. 首先通过控制台或者命令行工具创建注册集群。更多请参考文档通过控制台创建注册集群[2]

 

2. 在IDC数据中心目标Kubernetes集群部署agent代理组件。

 

3. 在目标集群检查代理组件运行情况。

 

kubectl -n kube-system get pod |grep ack-cluster-agent

 

预期输出:

 

ack-cluster-agent-5f7d568f6-6fc4k              1/1     Running   0          9s
ack-cluster-agent-5f7d568f6-tf6fp              1/1     Running   0          9s

 

 

 

 

- 创建注册集群弹性节点池 -

 

 

1. 登录容器服务管理控制台[3],在左侧导航栏选择集群

 

2. 在集群列表页面,单击目标集群名称,然后在左侧导航栏,选择节点管理 > 节点池

 

3. 在节点池页面,根据需求创建节点池并扩容节点。具体操作,请参见创建节点池[4]

 

 

需要选中开启自动弹性伸缩

 

4. 执行如下命令,查看节点池资源。

 

kubectl get no -l alibabacloud.com/nodepool-id=<NodePoolID>   #此处为弹性节点池ID

 

预期输出:

 

No resources found

 

 

 

 

- 部署应用验证云上节点池自动弹性伸缩 -

 

 

1. 执行如下命令,创建Pod到注册集群弹性节点池。

 

kubectl apply -f - <<EOF
apiVersion: apps/v1
kind: Deployment
metadata:
  labels:
    app: nginx-autoscaler-cloud
  name: nginx-deployment-autoscaler-cloud
  namespace: default
spec:
  replicas: 2
  selector:
    matchLabels:
      app: nginx-autoscaler-cloud
  template:
    metadata:
      labels:
        app: nginx-autoscaler-cloud
    spec:
      affinity:
        nodeAffinity:
          requiredDuringSchedulingIgnoredDuringExecution:
            nodeSelectorTerms:
              - matchExpressions:
                  - key: alibabacloud.com/nodepool-id
                    operator: In
                    values:
                      - <NodePoolID>   #此处填写上面创建的弹性节点池ID
      containers:
        - image: 'registry.cn-hangzhou.aliyuncs.com/eci_open/nginx:1.14.2'
          imagePullPolicy: IfNotPresent
          name: nginx-autoscaler-cloud
          ports:
            - containerPort: 80
              protocol: TCP
          resources:
            limits:
              cpu: '2'
              memory: 4Gi
            requests:
              cpu: '1'
              memory: 2Gi
EOF

 

2. 由于节点池里默认没有节点,因此会出现Pod无法调度。执行如下命令会看到Pending的Pod。

 

kubectl get po -owide |grep nginx-deployment-autoscaler-cloud

 

预期输出:

 

nginx-deployment-autoscaler-cloud-567d69ddb8-78szz   0/1     Pending   0          85s     <none>           <none>                         <none>           <none>
nginx-deployment-autoscaler-cloud-567d69ddb8-8c6h2   0/1     Pending   0          85s     <none>           <none>                         <none>           <none>

 

3. 此时,等待触发弹性伸缩。再次执行如下命令,查看节点池资源。

 

kubectl get no -l alibabacloud.com/nodepool-id=<NodePoolID>   #此处为弹性节点池ID

 

预期输出:

 

NAME                            STATUS   ROLES    AGE    VERSION
cn-zhangjiakou.192.168.XX.XXX   Ready    <none>   2m2s   v1.28.2

 

4. 当节点池资源运行正常后,我们再次执行如下命令。

 

kubectl get po -owide |grep nginx-deployment-autoscaler-cloud

 

预期输出:

 

nginx-deployment-autoscaler-cloud-66db9cb877-8r6bc   1/1     Running   0          5m29s   192.168.XX.XXX     cn-zhangjiakou.192.168.XX.XXX         <none>           <none>
nginx-deployment-autoscaler-cloud-66db9cb877-s44b8   1/1     Running   0          5m29s   192.168.XX.XXX     cn-zhangjiakou.192.168.XX.XXX         <none>           <none>

 

5. 应用缩容,节点资源自动回收。

 

 

 

 

总结

 

 

 

阿里云ACK One注册集群云上节点池以其卓越的弹性资源选择和简便的操作步骤,为企业带来了前所未有的灵活性和扩展能力。无论是普通计算、容器实例,还是高性能计算任务,阿里云都能快速响应业务需求,从而助力企业更高效地解决业务快速弹性的问题。

 

立即访问阿里云ACK One官网[5],了解更多详情,开始您的智能扩展之旅吧!

 

欢迎加入ACK One客户交流钉钉与我们一同交流。(钉钉群号:35688562

 

 

相关链接:

 

[1]ACK One注册集群

 

https://help.aliyun.com/zh/ack/overview-9?spm=a2c4g.11186623.0.i2

 

[2]通过控制台创建注册集群

 

https://help.aliyun.com/zh/ack/distributed-cloud-container-platform-for-kubernetes/user-guide/create-a-registered-cluster-through-the-console?spm=a2c4g.11186623.0.0.4361791ckiZK3p

 

[3]容器服务管理控制台

 

https://account.aliyun.com/login/login.htm?oauth_callback=https%3A%2F%2Fcs.console.aliyun.com%2F%3Fspm%3Da2c4g.11186623.0.0.15b46218eStSY6

 

[4]创建节点池

 

https://help.aliyun.com/zh/ack/ack-managed-and-ack-dedicated/user-guide/create-a-node-pool#task-2457443

 

[5]阿里云ACK One官网

 

https://help.aliyun.com/zh/ack/distributed-cloud-container-platform-for-kubernetes/product-overview/?spm=a2c4g.11186623.0.i11



我们是阿里巴巴云计算和大数据技术幕后的核心技术输出者。

欢迎关注 “阿里云基础设施”同名微信微博知乎

获取关于我们的更多信息~


相关实践学习
深入解析Docker容器化技术
Docker是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的Linux机器上,也可以实现虚拟化,容器是完全使用沙箱机制,相互之间不会有任何接口。Docker是世界领先的软件容器平台。开发人员利用Docker可以消除协作编码时“在我的机器上可正常工作”的问题。运维人员利用Docker可以在隔离容器中并行运行和管理应用,获得更好的计算密度。企业利用Docker可以构建敏捷的软件交付管道,以更快的速度、更高的安全性和可靠的信誉为Linux和Windows Server应用发布新功能。 在本套课程中,我们将全面的讲解Docker技术栈,从环境安装到容器、镜像操作以及生产环境如何部署开发的微服务应用。本课程由黑马程序员提供。 &nbsp; &nbsp; 相关的阿里云产品:容器服务 ACK 容器服务 Kubernetes 版(简称 ACK)提供高性能可伸缩的容器应用管理能力,支持企业级容器化应用的全生命周期管理。整合阿里云虚拟化、存储、网络和安全能力,打造云端最佳容器化应用运行环境。 了解产品详情: https://www.aliyun.com/product/kubernetes
相关文章
|
3月前
|
人工智能 算法 调度
阿里云ACK托管集群Pro版共享GPU调度操作指南
本文介绍在阿里云ACK托管集群Pro版中,如何通过共享GPU调度实现显存与算力的精细化分配,涵盖前提条件、使用限制、节点池配置及任务部署全流程,提升GPU资源利用率,适用于AI训练与推理场景。
342 1
|
7月前
|
运维 Kubernetes Cloud Native
智联招聘 × 阿里云 ACK One:云端弹性算力颠覆传统 IDC 架构,打造春招技术新范式
在 2025 年春季招聘季的激战中,智联招聘凭借阿里云 ACK One 注册集群与弹性 ACS 算力的深度融合,成功突破传统 IDC 机房的算力瓶颈,以云上弹性架构支撑千万级用户的高并发访问,实现招聘服务效率与稳定性的双重跃升。
|
3月前
|
弹性计算 监控 调度
ACK One 注册集群云端节点池升级:IDC 集群一键接入云端 GPU 算力,接入效率提升 80%
ACK One注册集群节点池实现“一键接入”,免去手动编写脚本与GPU驱动安装,支持自动扩缩容与多场景调度,大幅提升K8s集群管理效率。
267 89
|
7月前
|
运维 监控 Cloud Native
智联招聘 × 阿里云 ACK One:云端弹性算力颠覆传统 IDC 架构,打造春招技术新范式
在 2025 年春季招聘季的激战中,智联招聘凭借阿里云 ACK One 注册集群与弹性 ACS 算力的深度融合,成功突破传统 IDC 机房的算力瓶颈,以云上弹性架构支撑千万级用户的高并发访问,实现招聘服务效率与稳定性的双重跃升。文章介绍了 ACK One+ACS 的弹性架构如何解决了春招的燃眉之急,让智联招聘的技术团队能够聚焦创新业务开发,欢迎关注。
|
8月前
|
资源调度 Kubernetes 调度
从单集群到多集群的快速无损转型:ACK One 多集群应用分发
ACK One 的多集群应用分发,可以最小成本地结合您已有的单集群 CD 系统,无需对原先应用资源 YAML 进行修改,即可快速构建成多集群的 CD 系统,并同时获得强大的多集群资源调度和分发的能力。
339 9
|
8月前
|
资源调度 Kubernetes 调度
从单集群到多集群的快速无损转型:ACK One 多集群应用分发
本文介绍如何利用阿里云的分布式云容器平台ACK One的多集群应用分发功能,结合云效CD能力,快速将单集群CD系统升级为多集群CD系统。通过增加分发策略(PropagationPolicy)和差异化策略(OverridePolicy),并修改单集群kubeconfig为舰队kubeconfig,可实现无损改造。该方案具备多地域多集群智能资源调度、重调度及故障迁移等能力,帮助用户提升业务效率与可靠性。
|
6月前
|
运维 Kubernetes 持续交付
ACK One GitOps:让全球化游戏服务持续交付更简单
ACK One GitOps 致力于提供开箱即用的多集群 GitOps 持续交付能力,简化游戏等服务的多集群/多地域统一部署,让您更加专注于业务开发。
|
9月前
|
人工智能 Serverless 调度
突破地域限制,实现算力无限供给 —阿里云ACK One注册集群开启多地域Serverless算力调度
本文介绍了阿里云ACK One注册集群多地域Serverless算力调度解决方案,解决传统数据中心在AI时代面临的算力不足问题。方案通过分钟级接入、100%兼容Kubernetes操作及云上Serverless弹性,实现跨地域弹性算力供给,支持高并发请求与模型快速迭代。文中详细描述了快速接入步骤、指定地域调度及动态调度方法,并提供了相关代码示例。该方案助力企业实现AI推理服务的规模化部署,提升商业落地效率。
|
9月前
|
人工智能 Serverless 调度
突破地域限制,实现算力无限供给 -- 阿里云ACK One注册集群开启多地域Serverless算力调度
传统单地域算力难以支撑AI推理场景的高并发实时响应、突发高流量的要求,阿里云容器服务ACK One注册集群推出多地域Serverless算力调度方案完美解决此问题。
|
10月前
|
人工智能 分布式计算 调度
打破资源边界、告别资源浪费:ACK One 多集群Spark和AI作业调度
ACK One多集群Spark作业调度,可以帮助您在不影响集群中正在运行的在线业务的前提下,打破资源边界,根据各集群实际剩余资源来进行调度,最大化您多集群中闲置资源的利用率。

热门文章

最新文章

推荐镜像

更多