使用ACK Edge统一管理多地域的ECS资源

简介: 本文介绍如何使用ACK Edge来管理分布在多个地域的ECS资源。

【阅读原文】戳:使用ACK Edge统一管理多地域的ECS资源

ACK Edge面向分布式计算场景,在云端提供一个标准、安全、高可用的Kubernetes集群。支持将地域分散的计算资源接入云端Kubernetes集群,以云原生方式实现分布式计算场景下的应用统一生命周期管理和资源统一调度。同时,能够与云上现有的产品能力融合,保障分布式计算场景下应用的稳定运行。本文介绍如何使用ACK Edge来管理分布在多个地域的ECS资源。

 

 

 

 

场景描述

 

 

 

在多个VPC中都有ECS实例,希望用一个Kubernetes集群来统一管理这些ECS实例和应用;

 

在多个地域中都有ECS实例,希望用一个Kubernetes集群来统一管理这些ECS实例和应用;

 

在多个账号中都有ECS实例,希望用一个Kubernetes集群来统一管理这些ECS实例和应用。

 

 

 

 

方案优势

 

 

 

提供标准的云原生接口,采用云原生的方式运维分布式应用,降低业务的运维成本;

 

Kubernetes集群的控制面由阿里云托管,并提供SLA保障,用户无需运维Kubernetes集群;

 

与已有的云产品,包括弹性、网络、存储、可观测等能力融合,保障应用的稳定运行;

 

支持数十种不同操作系统的异构计算资源接入;

 

提供边缘自治、云边运维通道、单元化管理,支持中心管边场景下的运维、稳定性以及业务通信需求;

 

优化了云边通信流量,降低流量成本,单集群可纳管上千节点。

 

 

 

 

方案示例

 

 

 

示例一:使用ACK Edge管理地域分散的应用

 

 

当您有大量分散在不同地域的ECS需要统一管理或者部署相同的业务,您可以创建一个ACK Edge集群来统一接入不同地域的ECS,通过部署DaemonSet、或者OpenKruise DaemonSet来实现统一容器化管理。例如:

 

安全防护场景

 

在分布式计算环境中,为了防止系统被恶意攻击、数据泄露等问题,通常需要分布式资源上部署网络安全的Agent来为系统提供安全保障,可以使用ACK Edge完成安全Agent的统一部署和运维。

 

分布式压测、拨测场景

 

在大规模的业务压测场景中,压测工具从各个地域同时发起压测任务。因此,压测工具需要部署在地域分散的资源中,可以使用ACK Edge来纳管这些资源,快速地向不同地域部署压测工具。

 

缓存加速场景

 

分布式缓存加速服务,需要在各个地域部署缓存服务来加速网络内容的传输速度,采用ACK Edge可以实现对分布式缓存服务的统一部署和运维。

 

 

 

操作步骤

 

1. 环境准备

 

 

选择一个地域作为中心地域,创建ACK Edge集群

 

在组件管理中安装OpenKruise

 

为每个地域分别创建缘节点池, 并将ECS实例接入到对应的节点池中

 

 

2. 采用原生的DaemonSet模型管理业务

 

 

部署示例,在集群详情页面选择守护进程集,按需求选择命名空间以及部署方式,并按提示一步一步完成部署。

 

 

业务升级,同样在守护进程集页面,编辑DaemonSet的模版,实现业务版本及配置的升级。

 

 

 

3. 使用OpenKruise的DaemonSet部署业务

 

 

部署示例,在集群详情页面选择容器组,选择用yaml的方式部署,并选择模版自定义,将部署的yaml粘贴到编辑框中并提交。

 

 

业务升级, 在自定义工作负载页面,找到OpenKruise的DaemonSet,在要修改的工作负载后面编辑yaml即可实现业务版本及配置的升级。

 

 

 

示例二:单地域GPU资源不足时,可跨地域购买GPU实例扩容

 

当您在某个地域部署AI任务时,如果遇到了GPU资源不足的问题,您可以去其他地域购买需要的GPU实例,然后将对应的GPU实例接入到ACK Edge集群中,ACK Edge可以将任务调度到满足条件的实例上。

 

 

 

操作步骤

 

1. 准备环境

 

 

创建ACK Edge集群

部署训练或者推理任务

 

 

2. 集群所在地域GPU资源不足时,去其它地域购买GPU实例

 

 

部署yaml示例

 

apiVersion: apps/v1
kind: Deployment
metadata:
  name: tensorflow-mnist
  labels:
    app: tensorflow-mnist
spec:
  replicas: 1
  selector:
    matchLabels:
      app: tensorflow-mnist
  template:
    metadata:
      name: tensorflow-mnist
      labels:
        app: tensorflow-mnist
    spec:
      containers:
      - name: tensorflow-mnist
        image: registry.cn-beijing.aliyuncs.com/acs/tensorflow-mnist-sample:v1.5
        command:
        - python
        - tensorflow-sample-code/tfjob/docker/mnist/main.py
        - --max_steps=100000
        - --data_dir=tensorflow-sample-code/data
        resources:
          limits:
            nvidia.com/gpu: "1"
          requests:
            nvidia.com/gpu: "1"
        workingDir: /root

 

 

3. 新建边缘节点池,生成GPU实例接入脚本,将GPU实例接入该节点池。

 

 

4. 任务调度到新加入的GPU实例上

 

 

 

相关文档:

 

[1] 创建ACK Edge集群

https://help.aliyun.com/zh/ack/ack-edge/user-guide/create-an-ack-edge-cluster-1?spm=a2c4g.11186623.help-menu-85222.d_1_0_0.79b85e75UIWnHJ&scm=20140722.H_124723._.OR_help-T_cn~zh-V_1

 

[2] 创建和管理边缘节点池

https://help.aliyun.com/zh/ack/ack-edge/user-guide/edge-node-pool-management?spm=a2c4g.11186623.help-menu-85222.d_1_1_1.5f4484886zKHZx&scm=20140722.H_199462._.OR_help-T_cn~zh-V_1

 

[3] ACK Edge集群组件管理

https://help.aliyun.com/zh/ack/ack-edge/user-guide/component-overview?spm=a2c4g.11186623.help-menu-85222.d_1_3.576375a81t11zj&scm=20140722.H_2856040._.OR_help-T_cn~zh-V_1

 

[4] ACK Edge集群计费说明

https://help.aliyun.com/zh/ack/ack-edge/product-overview/billing-of-ack-edge-clusters?spm=a2c4g.11186623.help-menu-85222.d_0_2.129f1961BpAEz3&scm=20140722.H_178718._.OR_help-T_cn~zh-V_1

 

[5] OpenKruise DaemonSet

https://openkruise.io/zh/docs/user-manuals/advanceddaemonset/



我们是阿里巴巴云计算和大数据技术幕后的核心技术输出者。

欢迎关注 “阿里云基础设施”同名微信微博知乎

获取关于我们的更多信息~

相关实践学习
通义万相文本绘图与人像美化
本解决方案展示了如何利用自研的通义万相AIGC技术在Web服务中实现先进的图像生成。
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情: https://www.aliyun.com/product/ecs
相关文章
|
6月前
|
前端开发
WebView2 控件(基于 Microsoft Edge (Chromium) 的嵌入式浏览器控件),保存资源(图片、脚本、CSS)
WebView2 控件(基于 Microsoft Edge (Chromium) 的嵌入式浏览器控件),保存资源(图片、脚本、CSS)
355 56
|
9月前
|
人工智能 Serverless 调度
突破地域限制,实现算力无限供给 —阿里云ACK One注册集群开启多地域Serverless算力调度
本文介绍了阿里云ACK One注册集群多地域Serverless算力调度解决方案,解决传统数据中心在AI时代面临的算力不足问题。方案通过分钟级接入、100%兼容Kubernetes操作及云上Serverless弹性,实现跨地域弹性算力供给,支持高并发请求与模型快速迭代。文中详细描述了快速接入步骤、指定地域调度及动态调度方法,并提供了相关代码示例。该方案助力企业实现AI推理服务的规模化部署,提升商业落地效率。
|
9月前
|
人工智能 Serverless 调度
突破地域限制,实现算力无限供给 -- 阿里云ACK One注册集群开启多地域Serverless算力调度
传统单地域算力难以支撑AI推理场景的高并发实时响应、突发高流量的要求,阿里云容器服务ACK One注册集群推出多地域Serverless算力调度方案完美解决此问题。
|
11月前
|
存储 监控 调度
应对IDC资源紧缺:ACK Edge如何解决LLM推理服务的弹性挑战
应对IDC资源紧缺:ACK Edge如何解决LLM推理服务的弹性挑战
286 5
|
11月前
|
存储 Kubernetes 对象存储
部署DeepSeek但GPU不足,ACK One注册集群助力解决IDC GPU资源不足
部署DeepSeek但GPU不足,ACK One注册集群助力解决IDC GPU资源不足
329 3
|
11月前
|
弹性计算 运维 Kubernetes
使用ACK Edge统一管理多地域的ECS资源
使用ACK Edge统一管理多地域的ECS资源
242 0
|
11月前
|
边缘计算 调度 对象存储
部署DeepSeek但IDC GPU不足,阿里云ACK Edge虚拟节点来帮忙
部署DeepSeek但IDC GPU不足,阿里云ACK Edge虚拟节点来帮忙
270 0
|
3月前
|
弹性计算 运维 安全
阿里云轻量应用服务器与云服务器ECS啥区别?新手帮助教程
阿里云轻量应用服务器适合个人开发者搭建博客、测试环境等低流量场景,操作简单、成本低;ECS适用于企业级高负载业务,功能强大、灵活可扩展。二者在性能、网络、镜像及运维管理上差异显著,用户应根据实际需求选择。
347 10
|
3月前
|
运维 安全 Ubuntu
阿里云渠道商:服务器操作系统怎么选?
阿里云提供丰富操作系统镜像,涵盖Windows与主流Linux发行版。选型需综合技术兼容性、运维成本、安全稳定等因素。推荐Alibaba Cloud Linux、Ubuntu等用于Web与容器场景,Windows Server支撑.NET应用。建议优先选用LTS版本并进行测试验证,通过标准化镜像管理提升部署效率与一致性。

热门文章

最新文章

推荐镜像

更多