突破地域限制,实现算力无限供给 —阿里云ACK One注册集群开启多地域Serverless算力调度

本文涉及的产品
可观测监控 Prometheus 版,每月50GB免费额度
可观测可视化 Grafana 版,10个用户账号 1个月
云原生网关 MSE Higress,422元/月
简介: 本文介绍了阿里云ACK One注册集群多地域Serverless算力调度解决方案,解决传统数据中心在AI时代面临的算力不足问题。方案通过分钟级接入、100%兼容Kubernetes操作及云上Serverless弹性,实现跨地域弹性算力供给,支持高并发请求与模型快速迭代。文中详细描述了快速接入步骤、指定地域调度及动态调度方法,并提供了相关代码示例。该方案助力企业实现AI推理服务的规模化部署,提升商业落地效率。

1.gif


随着企业在数字化转型中的进一步深化,基础设施的灵活性和扩展能力成为了关键挑战。传统的 IDC 数据中心受制于物理容量的限制,难以实现动态扩容,因而缺乏必要的弹性能力。这时,ACK One 注册集群【1】凭借分钟级快速接入,100% 兼容 Kubernetes 原生操作习惯,以及云上 Serverless 弹性因其高度的灵活性和丰富的资源选择,成为了解决这一问题的最佳方案。


然而,随着 AI 时代的来临,大模型的参数规模正以千亿量级跃进,推动训练与推理的算力需求指数级增长。对传统数据中心用户而言,通过 ACK One 注册集云上 Serverless 弹性,虽能应对常规业务需求,却在 AI 时代暴显得捉襟见肘。具体的表现如下:


  • GPU 卡型差异:GPU 卡型在不同地域覆盖上存在一定的差异。
  • GPU 库存波动:单地域 GPU 资源由于库存缘故存在波动,极端情况可能导致短期无法购买到相应的资源。


在 AI 推理场景中,高并发请求的实时响应、突发流量的弹性承载以及模型版本的快速迭代,对于算力的供给效率提出了更高的要求。而传统单地域算力所面临的问题难以支撑高可用的推理服务需求,严重制约企业 AI 服务的商业化落地速度。


针对这一行业性的挑战,阿里云基于容器服务 ACK One 注册集群推出多地域 Serverless 算力调度解决方案该方案以"实现无限算力供给"为核心,为企业构建跨地域的弹性算力供给,助力企业实现AI推理服务的规模化、低延迟、高性价比部署,抢占生成式 AI 时代的商业化先机。


1743565695589-c4d36045-42f5-478d-8f2a-d018715bcdd9.jpeg


快速接入


  • 登录阿里云容器服务控制台【2】,根据提示开通容器服务。
  • 登录容器计算服务控制台【3】,根据提示开通 ACS 服务。
  • 创建 ACK One 注册集群并接入数据中心或者其他云厂商的 Kubernetes 集群(建议版本为 1.24 及以上)。具体操作,请参见创建 ACK One 注册集群并接入目标集群【4】
  • 安装 ACK Virtual Node 组件。具体操作,请参考 ACK One 注册集群使用 Serverless 算力【5】


示例


说明:


  • ACK One 注册集群使用 ACS GPU 算力,请提交工单【6】申请。
  • 关于 ACS 的算力类型和算力质量,请参见计算类型与算力质量的对应关系【7】
  • 关于 gpu-model-series 的可选卡型,请参见 GPU 型号说明【8】


指定地域调度


在默认情况下,如果我们需要将业的 Serverless 算力调度到指定的地域,可以在业务应用的定义中添加标签 alibabacloud.com/serverless-region-id:  来实现。如下:


apiVersion: apps/v1
kind: Deployment
metadata:
  labels:
    app: nginx-gpu-specified-region
  name: nginx-gpu-deployment-specified-region
  namespace: default
spec:
  replicas: 1
  selector:
    matchLabels:
      app: nginx-gpu-specified-region
  template:
    metadata:
      labels:
        alibabacloud.com/acs: "true" 
        alibabacloud.com/compute-class: gpu
        alibabacloud.com/compute-qos: default
        alibabacloud.com/gpu-model-series: example-model  # GPU卡型,请按照实际情况替换,例如T4
        alibabacloud.com/serverless-region-id: <RegionID> # 通过该标签指定地域,若不指定会使用默认地域
        app: nginx-gpu-specified-region
    spec:  
      containers:
        - image: 'mirrors-ssl.aliyuncs.com/nginx:stable-alpine'
          imagePullPolicy: IfNotPresent
          name: nginx
          ports:
            - containerPort: 80
              protocol: TCP
          resources:
            limits:
              cpu: 1
              memory: 1Gi
              nvidia.com/gpu: "1"
            requests:
              cpu: 1
              memory: 1Gi
              nvidia.com/gpu: "1"


使用ack-co-scheduler调度器动态调度


在自定地域调度的示例中,是通过为业务应用设置标签 alibabacloud.com/serverless-region-id:  来实现将业务应用调度到指定地域的 Serverless 算力。


然而,这种方式存在一定的限制和缺少灵活性。为了解决该问题,我们可以借助于阿里云 ack-co-scheduler 调度器的 ResourcePolicy 策略实现动态调度,不仅满足业务的诉求,也降低业务负载配置的复杂度


下面我们通过一个当某地域资源不足的时候,自动调度到其他地域的示例。调度器通过 spec.selector 字段,选中带有标签 app: nginx-gpu-resourcepolicy 的业务应用,并且根据 spec.units 中定义的调度策略进行调度。如下:


  • 调度策略定义


apiVersion: scheduling.alibabacloud.com/v1alpha1
kind: ResourcePolicy
metadata:
  name: multi-vk-gpu-resourcepolicy
  namespace: default
spec:
  selector: # 在selector中标记Pod,表示带有app=nginx-gpu-resourcepolicy标签的Pod将遵循此调度策略
    app: nginx-gpu-resourcepolicy
  units:
  # 优先使用该地域的资源,当该地域资源不足时候,自动切换到其他地域
  - resource: acs # resource类型指定为acs
    nodeSelector: # 支持通过nodeSelector指定虚拟节点地域
      topology.kubernetes.io/region: <RegionID>
      type: virtual-kubelet
    podLabels:
      alibabacloud.com/serverless-region-id: <RegionID>
      alibabacloud.com/compute-class: gpu
      alibabacloud.com/compute-qos: default
      alibabacloud.com/gpu-model-series: example-model  # GPU卡型,请按照实际情况替换
  - resource: acs 
    nodeSelector: # 支持通过nodeSelector指定虚拟节点地域
      topology.kubernetes.io/region: <RegionID>
      type: virtual-kubelet
    podLabels:
      alibabacloud.com/serverless-region-id: <RegionID>  
      alibabacloud.com/compute-class: gpu
      alibabacloud.com/compute-qos: default
      alibabacloud.com/gpu-model-series: example-model  # GPU卡型,请按照实际情况替换      

说明:


  • spec.selector 表示带有 app=nginx-gpu-resourcepolicy 标签的 Pod 将遵循此调度策略。
  • spec.units
  • resource: acs 表示指定的资源类型为 acs。
  • nodeSelector:表示通过 nodeSelector 指定业务应用要被调度到的节点。
  • podLabels:表示调度器会为带有 spec.selector 标签的 pod 追加指定的标签。


apiVersion: apps/v1
kind: Deployment
metadata:
  labels:
    app: nginx-gpu-resourcepolicy
  name: nginx-gpu-deployment-resourcepolicy
  namespace: default
spec:
  replicas: 1
  selector:
    matchLabels:
      app: nginx-gpu-resourcepolicy
  template:
    metadata:
      labels:
        app: nginx-gpu-resourcepolicy
    spec:  
      schedulerName: ack-co-scheduler  
      containers:
        - image: 'mirrors-ssl.aliyuncs.com/nginx:stable-alpine'
          imagePullPolicy: IfNotPresent
          name: nginx
          ports:
            - containerPort: 80
              protocol: TCP
          resources:
            limits:
              cpu: 1
              memory: 1Gi
              nvidia.com/gpu: "1"
            requests:
              cpu: 1
              memory: 1Gi
              nvidia.com/gpu: "1"


总结


阿里云 ACK One 注册集群多地域 Serverless 算力调度解决方案,为数据中心客户提供“无边界”的 AI 算力供给能力。无论是应对千卡级训练的资源洪峰,还是实现推理的多地域覆盖,都足以轻松应对。


本文作为 ACK One 注册集群多地域 Serverless 算力调度的开篇之作,后续还会有多地域场景下如何实现镜像和存储加速等场景,敬请期待。


欢迎通过钉钉扫描下方二维码或搜索钉钉群号加入 ACK One 客户交流钉钉与我们一同交流。(钉钉群号:35688562)


【1】ACK One注册集群

https://help.aliyun.com/zh/ack/distributed-cloud-container-platform-for-kubernetes/user-guide/overview-9?spm=a2c4g.11186623.0.i2


【2】阿里云容器服务控制台

https://account.aliyun.com/login/login.htm?oauth_callback=https%3A%2F%2Fcsnew.console.aliyun.com%2F&lang=zh#/


【3】容器计算服务控制台

https://account.aliyun.com/login/login.htm?oauth_callback=https%3A%2F%2Facs.console.aliyun.com%2F&lang=zh


【4】创建ACK One注册集群并接入目标集群

https://help.aliyun.com/zh/ack/distributed-cloud-container-platform-for-kubernetes/user-guide/create-a-registered-cluster-through-the-console?spm=a2c4g.11186623.help-menu-85222.d_2_1_5_0.2291791cYryyIg&scm=20140722.H_121053._.OR_help-T_cn~zh-V_1


【5】ACK One注册集群使用Serverless算力

https://help.aliyun.com/zh/ack/distributed-cloud-container-platform-for-kubernetes/user-guide/schedule-pods-to-run-on-acs-using-virtual-nodes?spm=a2c4g.11186623.help-menu-85222.d_2_1_8_0_0.2afe1d21eBYnwM


【6】提交工单

https://account.aliyun.com/login/login.htm?oauth_callback=https%3A%2F%2Fselfservice.console.aliyun.com%2Fticket%2FcreateIndex&clearRedirectCookie=1&lang=zh


【7】计算类型与算力质量的对应关系

https://help.aliyun.com/zh/cs/user-guide/acs-pod-instance-overview?spm=a2c4g.11186623.0.0.67292430jBBDu0#44f0bbeea4cfh


【8】GPU型号说明

https://help.aliyun.com/zh/cs/user-guide/pod-gpu-model-and-driver-version#88ca12b4c291k

相关实践学习
深入解析Docker容器化技术
Docker是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的Linux机器上,也可以实现虚拟化,容器是完全使用沙箱机制,相互之间不会有任何接口。Docker是世界领先的软件容器平台。开发人员利用Docker可以消除协作编码时“在我的机器上可正常工作”的问题。运维人员利用Docker可以在隔离容器中并行运行和管理应用,获得更好的计算密度。企业利用Docker可以构建敏捷的软件交付管道,以更快的速度、更高的安全性和可靠的信誉为Linux和Windows Server应用发布新功能。 在本套课程中,我们将全面的讲解Docker技术栈,从环境安装到容器、镜像操作以及生产环境如何部署开发的微服务应用。本课程由黑马程序员提供。 &nbsp; &nbsp; 相关的阿里云产品:容器服务 ACK 容器服务 Kubernetes 版(简称 ACK)提供高性能可伸缩的容器应用管理能力,支持企业级容器化应用的全生命周期管理。整合阿里云虚拟化、存储、网络和安全能力,打造云端最佳容器化应用运行环境。 了解产品详情: https://www.aliyun.com/product/kubernetes
相关文章
|
3月前
|
运维 监控 Cloud Native
智联招聘 × 阿里云 ACK One:云端弹性算力颠覆传统 IDC 架构,打造春招技术新范式
在 2025 年春季招聘季的激战中,智联招聘凭借阿里云 ACK One 注册集群与弹性 ACS 算力的深度融合,成功突破传统 IDC 机房的算力瓶颈,以云上弹性架构支撑千万级用户的高并发访问,实现招聘服务效率与稳定性的双重跃升。文章介绍了 ACK One+ACS 的弹性架构如何解决了春招的燃眉之急,让智联招聘的技术团队能够聚焦创新业务开发,欢迎关注。
143 10
|
3月前
|
运维 Kubernetes Cloud Native
智联招聘 × 阿里云 ACK One:云端弹性算力颠覆传统 IDC 架构,打造春招技术新范式
在 2025 年春季招聘季的激战中,智联招聘凭借阿里云 ACK One 注册集群与弹性 ACS 算力的深度融合,成功突破传统 IDC 机房的算力瓶颈,以云上弹性架构支撑千万级用户的高并发访问,实现招聘服务效率与稳定性的双重跃升。
|
4月前
|
资源调度 Kubernetes 调度
从单集群到多集群的快速无损转型:ACK One 多集群应用分发
ACK One 的多集群应用分发,可以最小成本地结合您已有的单集群 CD 系统,无需对原先应用资源 YAML 进行修改,即可快速构建成多集群的 CD 系统,并同时获得强大的多集群资源调度和分发的能力。
149 9
|
4月前
|
资源调度 Kubernetes 调度
从单集群到多集群的快速无损转型:ACK One 多集群应用分发
本文介绍如何利用阿里云的分布式云容器平台ACK One的多集群应用分发功能,结合云效CD能力,快速将单集群CD系统升级为多集群CD系统。通过增加分发策略(PropagationPolicy)和差异化策略(OverridePolicy),并修改单集群kubeconfig为舰队kubeconfig,可实现无损改造。该方案具备多地域多集群智能资源调度、重调度及故障迁移等能力,帮助用户提升业务效率与可靠性。
|
2月前
|
运维 Kubernetes 持续交付
ACK One GitOps:让全球化游戏服务持续交付更简单
ACK One GitOps 致力于提供开箱即用的多集群 GitOps 持续交付能力,简化游戏等服务的多集群/多地域统一部署,让您更加专注于业务开发。
|
5月前
|
人工智能 Serverless 调度
突破地域限制,实现算力无限供给 -- 阿里云ACK One注册集群开启多地域Serverless算力调度
传统单地域算力难以支撑AI推理场景的高并发实时响应、突发高流量的要求,阿里云容器服务ACK One注册集群推出多地域Serverless算力调度方案完美解决此问题。
|
5月前
|
SQL 分布式计算 Serverless
鹰角网络:EMR Serverless Spark 在《明日方舟》游戏业务的应用
鹰角网络为应对游戏业务高频活动带来的数据潮汐、资源弹性及稳定性需求,采用阿里云 EMR Serverless Spark 替代原有架构。迁移后实现研发效率提升,支持业务快速发展、计算效率提升,增强SLA保障,稳定性提升,降低运维成本,并支撑全球化数据架构部署。
485 56
鹰角网络:EMR Serverless Spark 在《明日方舟》游戏业务的应用
|
3月前
|
存储 编解码 Serverless
Serverless架构下的OSS应用:函数计算FC自动处理图片/视频转码(演示水印添加+缩略图生成流水线)
本文介绍基于阿里云函数计算(FC)和对象存储(OSS)构建Serverless媒体处理流水线,解决传统方案资源利用率低、运维复杂、成本高等问题。通过事件驱动机制实现图片水印添加、多规格缩略图生成及视频转码优化,支持毫秒级弹性伸缩与精确计费,提升处理效率并降低成本,适用于高并发媒体处理场景。
188 0
|
5月前
|
人工智能 开发框架 安全
Serverless MCP 运行时业界首发,函数计算让 AI 应用最后一公里提速
作为云上托管 MCP 服务的最佳运行时,函数计算 FC 为阿里云百炼 MCP 提供弹性调用能力,用户只需提交 npx 命令即可“零改造”将开源 MCP Server 部署到云上,函数计算 FC 会准备好计算资源,并以弹性、可靠的方式运行 MCP 服务,按实际调用时长和次数计费,欢迎你在阿里云百炼和函数计算 FC 上体验 MCP 服务。
479 30
|
8月前
|
人工智能 运维 物联网
云大使 X 函数计算 FC 专属活动上线!享返佣,一键打造 AI 应用
如今,AI 技术已经成为推动业务创新和增长的重要力量。但对于许多企业和开发者来说,如何高效、便捷地部署和管理 AI 应用仍然是一个挑战。阿里云函数计算 FC 以其免运维的特点,大大降低了 AI 应用部署的复杂性。用户无需担心底层资源的管理和运维问题,可以专注于应用的创新和开发,并且用户可以通过一键部署功能,迅速将 AI 大模型部署到云端,实现快速上线和迭代。函数计算目前推出了多种规格的云资源优惠套餐,用户可以根据实际需求灵活选择。

相关产品

  • 容器服务Kubernetes版
  • 函数计算
  • 推荐镜像

    更多