使用ACK Edge统一管理多地域的ECS资源

本文涉及的产品
性能测试 PTS,5000VUM额度
简介: 本文介绍如何使用ACK Edge来管理分布在多个地域的ECS资源。

【阅读原文】戳:使用ACK Edge统一管理多地域的ECS资源

ACK Edge面向分布式计算场景,在云端提供一个标准、安全、高可用的Kubernetes集群。支持将地域分散的计算资源接入云端Kubernetes集群,以云原生方式实现分布式计算场景下的应用统一生命周期管理和资源统一调度。同时,能够与云上现有的产品能力融合,保障分布式计算场景下应用的稳定运行。本文介绍如何使用ACK Edge来管理分布在多个地域的ECS资源。

 

 

 

 

场景描述

 

 

 

在多个VPC中都有ECS实例,希望用一个Kubernetes集群来统一管理这些ECS实例和应用;

 

在多个地域中都有ECS实例,希望用一个Kubernetes集群来统一管理这些ECS实例和应用;

 

在多个账号中都有ECS实例,希望用一个Kubernetes集群来统一管理这些ECS实例和应用。

 

 

 

 

方案优势

 

 

 

提供标准的云原生接口,采用云原生的方式运维分布式应用,降低业务的运维成本;

 

Kubernetes集群的控制面由阿里云托管,并提供SLA保障,用户无需运维Kubernetes集群;

 

与已有的云产品,包括弹性、网络、存储、可观测等能力融合,保障应用的稳定运行;

 

支持数十种不同操作系统的异构计算资源接入;

 

提供边缘自治、云边运维通道、单元化管理,支持中心管边场景下的运维、稳定性以及业务通信需求;

 

优化了云边通信流量,降低流量成本,单集群可纳管上千节点。

 

 

 

 

方案示例

 

 

 

示例一:使用ACK Edge管理地域分散的应用

 

 

当您有大量分散在不同地域的ECS需要统一管理或者部署相同的业务,您可以创建一个ACK Edge集群来统一接入不同地域的ECS,通过部署DaemonSet、或者OpenKruise DaemonSet来实现统一容器化管理。例如:

 

安全防护场景

 

在分布式计算环境中,为了防止系统被恶意攻击、数据泄露等问题,通常需要分布式资源上部署网络安全的Agent来为系统提供安全保障,可以使用ACK Edge完成安全Agent的统一部署和运维。

 

分布式压测、拨测场景

 

在大规模的业务压测场景中,压测工具从各个地域同时发起压测任务。因此,压测工具需要部署在地域分散的资源中,可以使用ACK Edge来纳管这些资源,快速地向不同地域部署压测工具。

 

缓存加速场景

 

分布式缓存加速服务,需要在各个地域部署缓存服务来加速网络内容的传输速度,采用ACK Edge可以实现对分布式缓存服务的统一部署和运维。

 

 

 

操作步骤

 

1. 环境准备

 

 

选择一个地域作为中心地域,创建ACK Edge集群

 

在组件管理中安装OpenKruise

 

为每个地域分别创建缘节点池, 并将ECS实例接入到对应的节点池中

 

 

2. 采用原生的DaemonSet模型管理业务

 

 

部署示例,在集群详情页面选择守护进程集,按需求选择命名空间以及部署方式,并按提示一步一步完成部署。

 

 

业务升级,同样在守护进程集页面,编辑DaemonSet的模版,实现业务版本及配置的升级。

 

 

 

3. 使用OpenKruise的DaemonSet部署业务

 

 

部署示例,在集群详情页面选择容器组,选择用yaml的方式部署,并选择模版自定义,将部署的yaml粘贴到编辑框中并提交。

 

 

业务升级, 在自定义工作负载页面,找到OpenKruise的DaemonSet,在要修改的工作负载后面编辑yaml即可实现业务版本及配置的升级。

 

 

 

示例二:单地域GPU资源不足时,可跨地域购买GPU实例扩容

 

当您在某个地域部署AI任务时,如果遇到了GPU资源不足的问题,您可以去其他地域购买需要的GPU实例,然后将对应的GPU实例接入到ACK Edge集群中,ACK Edge可以将任务调度到满足条件的实例上。

 

 

 

操作步骤

 

1. 准备环境

 

 

创建ACK Edge集群

部署训练或者推理任务

 

 

2. 集群所在地域GPU资源不足时,去其它地域购买GPU实例

 

 

部署yaml示例

 

apiVersion: apps/v1
kind: Deployment
metadata:
  name: tensorflow-mnist
  labels:
    app: tensorflow-mnist
spec:
  replicas: 1
  selector:
    matchLabels:
      app: tensorflow-mnist
  template:
    metadata:
      name: tensorflow-mnist
      labels:
        app: tensorflow-mnist
    spec:
      containers:
      - name: tensorflow-mnist
        image: registry.cn-beijing.aliyuncs.com/acs/tensorflow-mnist-sample:v1.5
        command:
        - python
        - tensorflow-sample-code/tfjob/docker/mnist/main.py
        - --max_steps=100000
        - --data_dir=tensorflow-sample-code/data
        resources:
          limits:
            nvidia.com/gpu: "1"
          requests:
            nvidia.com/gpu: "1"
        workingDir: /root

 

 

3. 新建边缘节点池,生成GPU实例接入脚本,将GPU实例接入该节点池。

 

 

4. 任务调度到新加入的GPU实例上

 

 

 

相关文档:

 

[1] 创建ACK Edge集群

https://help.aliyun.com/zh/ack/ack-edge/user-guide/create-an-ack-edge-cluster-1?spm=a2c4g.11186623.help-menu-85222.d_1_0_0.79b85e75UIWnHJ&scm=20140722.H_124723._.OR_help-T_cn~zh-V_1

 

[2] 创建和管理边缘节点池

https://help.aliyun.com/zh/ack/ack-edge/user-guide/edge-node-pool-management?spm=a2c4g.11186623.help-menu-85222.d_1_1_1.5f4484886zKHZx&scm=20140722.H_199462._.OR_help-T_cn~zh-V_1

 

[3] ACK Edge集群组件管理

https://help.aliyun.com/zh/ack/ack-edge/user-guide/component-overview?spm=a2c4g.11186623.help-menu-85222.d_1_3.576375a81t11zj&scm=20140722.H_2856040._.OR_help-T_cn~zh-V_1

 

[4] ACK Edge集群计费说明

https://help.aliyun.com/zh/ack/ack-edge/product-overview/billing-of-ack-edge-clusters?spm=a2c4g.11186623.help-menu-85222.d_0_2.129f1961BpAEz3&scm=20140722.H_178718._.OR_help-T_cn~zh-V_1

 

[5] OpenKruise DaemonSet

https://openkruise.io/zh/docs/user-manuals/advanceddaemonset/



我们是阿里巴巴云计算和大数据技术幕后的核心技术输出者。

欢迎关注 “阿里云基础设施”同名微信微博知乎

获取关于我们的更多信息~

相关实践学习
快速体验PolarDB开源数据库
本实验环境已内置PostgreSQL数据库以及PolarDB开源数据库:PolarDB PostgreSQL版和PolarDB分布式版,支持一键拉起使用,方便各位开发者学习使用。
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情: https://www.aliyun.com/product/ecs
目录
打赏
0
11
11
0
239
分享
相关文章
分享一个纯净无广、原版操作系统、开发人员工具、服务器等资源免费下载的网站
分享一个纯净无广、原版操作系统、开发人员工具、服务器等资源免费下载的网站
应对IDC资源紧缺:ACK Edge如何解决LLM推理服务的弹性挑战
应对IDC资源紧缺:ACK Edge如何解决LLM推理服务的弹性挑战
部署DeepSeek但GPU不足,ACK One注册集群助力解决IDC GPU资源不足
部署DeepSeek但GPU不足,ACK One注册集群助力解决IDC GPU资源不足
使用ACK Edge统一管理多地域的ECS资源
使用ACK Edge统一管理多地域的ECS资源
部署DeepSeek但IDC GPU不足,阿里云ACK Edge虚拟节点来帮忙
部署DeepSeek但IDC GPU不足,阿里云ACK Edge虚拟节点来帮忙
部署 DeepSeek 但 GPU 不足,ACK One 注册集群助力解决 IDC GPU 资源不足
部署 DeepSeek 但 GPU 不足,ACK One 注册集群助力解决 IDC GPU 资源不足
K8s集群实战:使用kubeadm和kuboard部署Kubernetes集群
总之,使用kubeadm和kuboard部署K8s集群就像回归童年一样,简单又有趣。不要忘记,技术是为人服务的,用K8s集群操控云端资源,我们不过是想在复杂的世界找寻简单。尽管部署过程可能遇到困难,但朝着简化复杂的目标,我们就能找到意义和乐趣。希望你也能利用这些工具,找到你的乐趣,满足你的需求。
50 33
集群部署:使用Rancher部署Kubernetes集群。
以上就是使用 Rancher 部署 Kubernetes 集群的流程。使用 Rancher 和 Kubernetes,开发者可以受益于灵活性和可扩展性,允许他们在多种环境中运行多种应用,同时利用自动化工具使工作负载更加高效。
46 19
打破资源边界、告别资源浪费:ACK One 多集群Spark和AI作业调度
ACK One多集群Spark作业调度,可以帮助您在不影响集群中正在运行的在线业务的前提下,打破资源边界,根据各集群实际剩余资源来进行调度,最大化您多集群中闲置资源的利用率。
OpenAI故障复盘丨如何保障大规模K8s集群稳定性
OpenAI故障复盘丨如何保障大规模K8s集群稳定性

热门文章

最新文章