突破地域限制,实现算力无限供给 -- 阿里云ACK One注册集群开启多地域Serverless算力调度

简介: 传统单地域算力难以支撑AI推理场景的高并发实时响应、突发高流量的要求,阿里云容器服务ACK One注册集群推出多地域Serverless算力调度方案完美解决此问题。

【阅读原文】戳:突破地域限制,实现算力无限供给--阿里云ACK One注册集群开启多地域Serverless算力调度

随着企业在数字化转型中的进一步深化,基础设施的灵活性和扩展能力成为了关键挑战。传统的IDC数据中心受制于物理容量的限制,难以实现动态扩容,因而缺乏必要的弹性能力。这时,ACK One注册集群[1]凭借分钟级快速接入,100%兼容Kubernetes原生操作习惯,以及云上Serverless弹性因其高度的灵活性和丰富的资源选择,成为了解决这一问题的最佳方案。

 

然而,随着AI时代的来临,大模型的参数规模正以千亿量级跃进,推动训练与推理的算力需求指数级增长。对传统数据中心用户而言,通过ACK One注册集云上Serverless弹性,虽能应对常规业务需求,却在AI时代暴显得捉襟见肘。具体的表现如下:

 

GPU卡型差异:GPU卡型在不同地域覆盖上存在一定的差异。

 

GPU库存波动:单地域GPU资源由于库存缘故存在波动,极端情况可能导致短期无法购买到相应的资源。

 

在AI推理场景中,高并发请求的实时响应、突发流量的弹性承载以及模型版本的快速迭代,对于算力的供给效率提出了更高的要求。而传统单地域算力所面临的问题难以支撑高可用的推理服务需求,严重制约企业AI服务的商业化落地速度。

 

针对这一行业性的挑战,阿里云基于容器服务ACK One注册集群推出多地域Serverless算力调度解决方案。该方案以"实现无限算力供给"为核心,为企业构建跨地域的弹性算力供给,助力企业实现AI推理服务的规模化、低延迟、高性价比部署,抢占生成式AI时代的商业化先机。

 

image.png

 

 

 

 

快速接入

 

 

 

登录阿里云容器服务控制台[2],根据提示开通容器服务。

登录容器计算服务控制台[3],根据提示开通ACS服务。

创建ACK One注册集群并接入数据中心或者其他云厂商的Kubernetes集群(建议版本为1.24及以上)。具体操作,请参见创建ACK One注册集群并接入目标集群[4]

安装ACK Virtual Node组件。具体操作,请参考ACK One注册集群使用Serverless算力[5]

 


 

 

示例

 

 

说明:

 

ACK One注册集群使用ACS GPU算力,请提交工单[6]申请。

关于ACS的算力类型和算力质量,请参见计算类型与算力质量的对应关系[7]

关于gpu-model-series的可选卡型,请参见GPU型号说明[8]

 

 

指定地域调度

 

在默认情况下,如果我们需要将业的Serverless算力调度到指定的地域,可以在业务应用的定义中添加标签alibabacloud.com/serverless-region-id:来实现。如下:

 

apiVersion: apps/v1
kind: Deployment
metadata:
  labels:
    app: nginx-gpu-specified-region
  name: nginx-gpu-deployment-specified-region
  namespace: default
spec:
  replicas: 1
  selector:
    matchLabels:
      app: nginx-gpu-specified-region
  template:
    metadata:
      labels:
        alibabacloud.com/acs: "true" 
        alibabacloud.com/compute-class: gpu
        alibabacloud.com/compute-qos: default
        alibabacloud.com/gpu-model-series: example-model  # GPU卡型,请按照实际情况替换,例如T4
        alibabacloud.com/serverless-region-id: <RegionID> # 通过该标签指定地域,若不指定会使用默认地域
        app: nginx-gpu-specified-region
    spec:  
      containers:
        - image: 'mirrors-ssl.aliyuncs.com/nginx:stable-alpine'
          imagePullPolicy: IfNotPresent
          name: nginx
          ports:
            - containerPort: 80
              protocol: TCP
          resources:
            limits:
              cpu: 1
              memory: 1Gi
              nvidia.com/gpu: "1"
            requests:
              cpu: 1
              memory: 1Gi
              nvidia.com/gpu: "1"

 

 

使用ack-co-scheduler调度器动态调度

 

在自定地域调度的示例中,是通过为业务应用设置标签alibabacloud.com/serverless-region-id: 来实现将业务应用调度到指定地域的Serverless算力。

 

然而,这种方式存在一定的限制和缺少灵活性。为了解决该问题,我们可以借助于阿里云ack-co-scheduler调度器的ResourcePolicy策略实现动态调度,不仅满足业务的诉求,也降低业务负载配置的复杂度。

 

下面我们通过一个当某地域资源不足的时候,自动调度到其他地域的示例。调度器通过spec.selector字段,选中带有标签app: nginx-gpu-resourcepolicy的业务应用,并且根据spec.units中定义的调度策略进行调度。如下:

 

调度策略定义

 

apiVersion: scheduling.alibabacloud.com/v1alpha1
kind: ResourcePolicy
metadata:
  name: multi-vk-gpu-resourcepolicy
  namespace: default
spec:
  selector: # 在selector中标记Pod,表示带有app=nginx-gpu-resourcepolicy标签的Pod将遵循此调度策略
    app: nginx-gpu-resourcepolicy
  units:
  # 优先使用该地域的资源,当该地域资源不足时候,自动切换到其他地域
  - resource: acs # resource类型指定为acs
    nodeSelector: # 支持通过nodeSelector指定虚拟节点地域
      topology.kubernetes.io/region: <RegionID>
      type: virtual-kubelet
    podLabels:
      alibabacloud.com/serverless-region-id: <RegionID>
      alibabacloud.com/compute-class: gpu
      alibabacloud.com/compute-qos: default
      alibabacloud.com/gpu-model-series: example-model  # GPU卡型,请按照实际情况替换
  - resource: acs 
    nodeSelector: # 支持通过nodeSelector指定虚拟节点地域
      topology.kubernetes.io/region: <RegionID>
      type: virtual-kubelet
    podLabels:
      alibabacloud.com/serverless-region-id: <RegionID>  
      alibabacloud.com/compute-class: gpu
      alibabacloud.com/compute-qos: default
      alibabacloud.com/gpu-model-series: example-model  # GPU卡型,请按照实际情况替换

 

说明:

 

spec.selector表示带有app=nginx-gpu-resourcepolicy标签的Pod将遵循此调度策略。

spec.units

- resource: acs表示指定的资源类型为acs。

- nodeSelector:表示通过nodeSelector指定业务应用要被调度到的节点。

- podLabels:表示调度器会为带有spec.selector标签的pod追加指定的标签。

 

业务负载定义

 

apiVersion: apps/v1
kind: Deployment
metadata:
  labels:
    app: nginx-gpu-resourcepolicy
  name: nginx-gpu-deployment-resourcepolicy
  namespace: default
spec:
  replicas: 1
  selector:
    matchLabels:
      app: nginx-gpu-resourcepolicy
  template:
    metadata:
      labels:
        app: nginx-gpu-resourcepolicy
    spec:  
      schedulerName: ack-co-scheduler  
      containers:
        - image: 'mirrors-ssl.aliyuncs.com/nginx:stable-alpine'
          imagePullPolicy: IfNotPresent
          name: nginx
          ports:
            - containerPort: 80
              protocol: TCP
          resources:
            limits:
              cpu: 1
              memory: 1Gi
              nvidia.com/gpu: "1"
            requests:
              cpu: 1
              memory: 1Gi
              nvidia.com/gpu: "1"

 

 

 

 

总结


 

 

阿里云ACK One注册集群多地域Serverless算力调度解决方案,为数据中心客户提供“无边界”的AI算力供给能力。无论是应对千卡级训练的资源洪峰,还是实现推理的多地域覆盖,都足以轻松应对。

 

本文作为ACK One注册集群多地域Serverless算力调度的开篇之作,后续还会有多地域场景下如何实现镜像和存储加速等场景,敬请期待。

 

立即访问阿里云ACK One官网[9],了解更多详情,开始您的智能扩展之旅吧!

 

欢迎通过钉钉扫描下方二维码或搜索钉钉群号加入ACK One客户交流钉钉与我们一同交流。(钉钉群号:35688562

 

0409-二维码.png

 

相关链接:

 

[1] ACK One注册集群

https://help.aliyun.com/zh/ack/distributed-cloud-container-platform-for-kubernetes/user-guide/overview-9?spm=a2c4g.11186623.0.i2

 

[2] 阿里云容器服务控制台

https://account.aliyun.com/login/login.htm?oauth_callback=https%3A%2F%2Fcsnew.console.aliyun.com%2F&clearRedirectCookie=1&lang=zh#/

 

[3] 容器计算服务控制台

https://account.aliyun.com/login/login.htm?oauth_callback=https%3A%2F%2Facs.console.aliyun.com%2F&clearRedirectCookie=1&lang=zh

 

[4] 创建ACK One注册集群并接入目标集群

https://help.aliyun.com/zh/ack/distributed-cloud-container-platform-for-kubernetes/user-guide/create-a-registered-cluster-through-the-console?spm=a2c4g.11186623.help-menu-85222.d_2_1_5_0.2291791cYryyIg&scm=20140722.H_121053._.OR_help-T_cn~zh-V_1

 

[5] ACK One注册集群使用Serverless算力

https://help.aliyun.com/zh/ack/distributed-cloud-container-platform-for-kubernetes/user-guide/schedule-pods-to-run-on-acs-using-virtual-nodes?spm=a2c4g.11186623.help-menu-85222.d_2_1_8_0_0.2afe1d21eBYnwM

 

[6] 提交工单

https://account.aliyun.com/login/login.htm?oauth_callback=https%3A%2F%2Fselfservice.console.aliyun.com%2Fticket%2FcreateIndex&clearRedirectCookie=1&lang=zh

 

[7] 计算类型与算力质量的对应关系

https://help.aliyun.com/zh/cs/user-guide/acs-pod-instance-overview?spm=a2c4g.11186623.0.0.67292430jBBDu0#44f0bbeea4cfh

 

[8] GPU型号说明

https://help.aliyun.com/zh/cs/user-guide/pod-gpu-model-and-driver-version#88ca12b4c291k

 

[9] 阿里云ACK One官网

https://csnew.console.aliyun.com/#/k8s/cluster/createV2/external?region=cn-hangzhou


我们是阿里巴巴云计算和大数据技术幕后的核心技术输出者。

欢迎关注 “阿里云基础设施”同名微信微博知乎

获取关于我们的更多信息~

相关实践学习
深入解析Docker容器化技术
Docker是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的Linux机器上,也可以实现虚拟化,容器是完全使用沙箱机制,相互之间不会有任何接口。Docker是世界领先的软件容器平台。开发人员利用Docker可以消除协作编码时“在我的机器上可正常工作”的问题。运维人员利用Docker可以在隔离容器中并行运行和管理应用,获得更好的计算密度。企业利用Docker可以构建敏捷的软件交付管道,以更快的速度、更高的安全性和可靠的信誉为Linux和Windows Server应用发布新功能。 在本套课程中,我们将全面的讲解Docker技术栈,从环境安装到容器、镜像操作以及生产环境如何部署开发的微服务应用。本课程由黑马程序员提供。 &nbsp; &nbsp; 相关的阿里云产品:容器服务 ACK 容器服务 Kubernetes 版(简称 ACK)提供高性能可伸缩的容器应用管理能力,支持企业级容器化应用的全生命周期管理。整合阿里云虚拟化、存储、网络和安全能力,打造云端最佳容器化应用运行环境。 了解产品详情: https://www.aliyun.com/product/kubernetes
相关文章
|
运维 Kubernetes Cloud Native
智联招聘 × 阿里云 ACK One:云端弹性算力颠覆传统 IDC 架构,打造春招技术新范式
在 2025 年春季招聘季的激战中,智联招聘凭借阿里云 ACK One 注册集群与弹性 ACS 算力的深度融合,成功突破传统 IDC 机房的算力瓶颈,以云上弹性架构支撑千万级用户的高并发访问,实现招聘服务效率与稳定性的双重跃升。
|
运维 监控 Cloud Native
智联招聘 × 阿里云 ACK One:云端弹性算力颠覆传统 IDC 架构,打造春招技术新范式
在 2025 年春季招聘季的激战中,智联招聘凭借阿里云 ACK One 注册集群与弹性 ACS 算力的深度融合,成功突破传统 IDC 机房的算力瓶颈,以云上弹性架构支撑千万级用户的高并发访问,实现招聘服务效率与稳定性的双重跃升。文章介绍了 ACK One+ACS 的弹性架构如何解决了春招的燃眉之急,让智联招聘的技术团队能够聚焦创新业务开发,欢迎关注。
|
资源调度 Kubernetes 调度
从单集群到多集群的快速无损转型:ACK One 多集群应用分发
本文介绍如何利用阿里云的分布式云容器平台ACK One的多集群应用分发功能,结合云效CD能力,快速将单集群CD系统升级为多集群CD系统。通过增加分发策略(PropagationPolicy)和差异化策略(OverridePolicy),并修改单集群kubeconfig为舰队kubeconfig,可实现无损改造。该方案具备多地域多集群智能资源调度、重调度及故障迁移等能力,帮助用户提升业务效率与可靠性。
|
资源调度 Kubernetes 调度
从单集群到多集群的快速无损转型:ACK One 多集群应用分发
ACK One 的多集群应用分发,可以最小成本地结合您已有的单集群 CD 系统,无需对原先应用资源 YAML 进行修改,即可快速构建成多集群的 CD 系统,并同时获得强大的多集群资源调度和分发的能力。
984 9
|
11月前
|
运维 Kubernetes 持续交付
ACK One GitOps:让全球化游戏服务持续交付更简单
ACK One GitOps 致力于提供开箱即用的多集群 GitOps 持续交付能力,简化游戏等服务的多集群/多地域统一部署,让您更加专注于业务开发。
|
人工智能 Serverless 调度
突破地域限制,实现算力无限供给 —阿里云ACK One注册集群开启多地域Serverless算力调度
本文介绍了阿里云ACK One注册集群多地域Serverless算力调度解决方案,解决传统数据中心在AI时代面临的算力不足问题。方案通过分钟级接入、100%兼容Kubernetes操作及云上Serverless弹性,实现跨地域弹性算力供给,支持高并发请求与模型快速迭代。文中详细描述了快速接入步骤、指定地域调度及动态调度方法,并提供了相关代码示例。该方案助力企业实现AI推理服务的规模化部署,提升商业落地效率。
|
8月前
|
人工智能 运维 Kubernetes
Serverless 应用引擎 SAE:为传统应用托底,为 AI 创新加速
在容器技术持续演进与 AI 全面爆发的当下,企业既要稳健托管传统业务,又要高效落地 AI 创新,如何在复杂的基础设施与频繁的版本变化中保持敏捷、稳定与低成本,成了所有技术团队的共同挑战。阿里云 Serverless 应用引擎(SAE)正是为应对这一时代挑战而生的破局者,SAE 以“免运维、强稳定、极致降本”为核心,通过一站式的应用级托管能力,同时支撑传统应用与 AI 应用,让企业把更多精力投入到业务创新。
815 30
|
9月前
|
存储 人工智能 Serverless
函数计算进化之路:AI 应用运行时的状态剖析
AI应用正从“请求-响应”迈向“对话式智能体”,推动Serverless架构向“会话原生”演进。阿里云函数计算引领云上 AI 应用 Serverless 运行时技术创新,实现性能、隔离与成本平衡,开启Serverless AI新范式。
861 12
|
SQL 分布式计算 Serverless
鹰角网络:EMR Serverless Spark 在《明日方舟》游戏业务的应用
鹰角网络为应对游戏业务高频活动带来的数据潮汐、资源弹性及稳定性需求,采用阿里云 EMR Serverless Spark 替代原有架构。迁移后实现研发效率提升,支持业务快速发展、计算效率提升,增强SLA保障,稳定性提升,降低运维成本,并支撑全球化数据架构部署。
1414 56
鹰角网络:EMR Serverless Spark 在《明日方舟》游戏业务的应用
|
人工智能 开发框架 安全
Serverless MCP 运行时业界首发,函数计算让 AI 应用最后一公里提速
作为云上托管 MCP 服务的最佳运行时,函数计算 FC 为阿里云百炼 MCP 提供弹性调用能力,用户只需提交 npx 命令即可“零改造”将开源 MCP Server 部署到云上,函数计算 FC 会准备好计算资源,并以弹性、可靠的方式运行 MCP 服务,按实际调用时长和次数计费,欢迎你在阿里云百炼和函数计算 FC 上体验 MCP 服务。
1068 31

热门文章

最新文章

推荐镜像

更多