如何在阿里云ACK上使用Arena提交ECI训练任务

本文涉及的产品
容器服务 Serverless 版 ACK Serverless,317元额度 多规格
容器服务 Serverless 版 ACK Serverless,952元额度 多规格
简介: 使用ECI运行AI训练任务,利用比较强力的Serverless能力。本文介绍使用Arena提交在ECI上运行的分布式训练任务的流程。

该文档主要验证了使用Arena在ACK上提交训练分布式训练任务的可行性,以及其训练性能验证。这里选用两个训练模式的任务进行实验的测算与比较,分别为基于TFJob的PS训练模式与基于MPIJob的Allreduce训练模式。

与AutoScaler弹出的ECS比起来,ECI的Pod所占用的底层资源只能是单GPU实例,无法使用hostNetwork、hostIPC、hostPID。所以自然也就无法使用NCCL之类的通信,只能依赖于容器网络的通信。

对于需要在ECI上运行的AI训练任务,需要指定selector到ECI上,然后tolerate ECI上的taints,然后需要禁用hostNetwork、hostIPC、hostPID,最后使用GPU实例的时候还需要指定Host实例规格。如果镜像过于大,则需要提前申请预留足够的临时空间,使用k8s.aliyun.com/eci-extra-ephemeral-storage的annotation进行设置临时存储空间的上限。

PS模式训练

提交命令

arena submit tf \
--name=tf-ps-sync-eci \
--gpus=1 \
--workers=3 \
--worker-image=registry-vpc.cn-beijing.aliyuncs.com/acs/gpushare-sample:tensorflow-1.5 \
--ps=1 \
--ps-image=registry-vpc.cn-beijing.aliyuncs.com/huozx/gpushare-sample:tensorflow-1.5-no-gpu \
--toleration all \
--useHostIPCfalse \
--useHostPIDfalse \
--useHostNetworkfalse \
--annotation=k8s.aliyun.com/eci-use-specs=ecs.gn6i-c4g1.xlarge \
"python tensorflow-sample-code/tfjob/docker/v1alpha2/distributed-mnist/main.py --max_steps 1000"

这是一个基于TFJob的PS训练模式的分布式训练任务,一共会拉起来4个Pod,1个Ps和3个Worker,同时在ECS上拉起同一个任务,比较其运行时间,ECS上其运行时间为4m22s,在ECI上运行其时间为5m3s,会有少量的时间增加。

AllReduce模式训练

提交命令

arena submit mpijob \
--name=mpi-allreduce-sync-eci \
--gpus=1 \
--memory=16Gi \
--cpu=4 \
--workers=8 \
--image=registry-vpc.cn-beijing.aliyuncs.com/huozx/bert-elastic-demo:v1.5-test \
--toleration all \
--annotation=k8s.aliyun.com/eci-use-specs=ecs.gn6i-c4g1.xlarge \
--useHostIPCfalse \
--useHostPIDfalse \
--useHostNetworkfalse \
--annotation=k8s.aliyun.com/eci-extra-ephemeral-storage=50Gi \
"horovodrun --log-level DEBUG --verbose   -np 8   --min-np 1   --max-np 128   --host-discovery-script /etc/edl/discover_hosts.sh   python /examples/elastic/pytorch/train_bert.py --epochs=5 --model=bert --batch-size 32"

这是一个基于MPIJob的AllReduce训练模式的分布式训练任务,一共会拉起来9个Pod,1个Launcher和8个Worker,同时在ECS上拉起同一个任务,比较其运行时间,在ECS上其运行时间为21m35s,在ECI上运行其时间为23m8s,会有少量的时间增加。

相关实践学习
通过Ingress进行灰度发布
本场景您将运行一个简单的应用,部署一个新的应用用于新的发布,并通过Ingress能力实现灰度发布。
容器应用与集群管理
欢迎来到《容器应用与集群管理》课程,本课程是“云原生容器Clouder认证“系列中的第二阶段。课程将向您介绍与容器集群相关的概念和技术,这些概念和技术可以帮助您了解阿里云容器服务ACK/ACK Serverless的使用。同时,本课程也会向您介绍可以采取的工具、方法和可操作步骤,以帮助您了解如何基于容器服务ACK Serverless构建和管理企业级应用。 学习完本课程后,您将能够: 掌握容器集群、容器编排的基本概念 掌握Kubernetes的基础概念及核心思想 掌握阿里云容器服务ACK/ACK Serverless概念及使用方法 基于容器服务ACK Serverless搭建和管理企业级网站应用
目录
相关文章
|
5天前
|
弹性计算 Kubernetes Serverless
Kubernetes 的架构问题之ACK/ASK支持ECI的Serverless Container如何解决
Kubernetes 的架构问题之ACK/ASK支持ECI的Serverless Container如何解决
28 7
|
7天前
|
人工智能 Prometheus 监控
使用NVIDIA NIM在阿里云ACK中加速LLM推理
介绍在阿里云ACK集群上结合AI套件能力快速部署NVIDIA NIM模型推理服务,同时提供全面的监控指标和实现弹性伸缩。
|
17天前
|
弹性计算 运维 负载均衡
基于阿里云容器服务Kubernetes版(ACK)| 容器化管理云上应用
【8月更文挑战第3天】基于阿里云容器服务Kubernetes版(ACK)| 容器化管理云上应用
|
18天前
|
弹性计算 运维 监控
通过阿里云OOS“快速设置”快速配置多地域运维任务
阿里云OOS的快速设置功能助力用户简便配置多地域运维任务,如云监控安装、配置收集与补丁扫描,定时开关机,周期性带宽升级,实现自动化管理,确保配置一致性,提升运维效率。
103 3
|
20天前
|
弹性计算 Kubernetes 监控
阿里云 ACK 容器服务评测
在现代企业的数字化转型过程中,容器化技术逐渐成为提高应用部署效率、增强系统弹性和灵活性的关键手段。阿里云的容器服务 Kubernetes 版(ACK)是一个完全托管的 Kubernetes 容器管理服务,旨在帮助企业轻松实现应用的容器化管理和部署。本文将对阿里云 ACK 容器服务的核心功能、性能表现及实际使用体验进行评测,帮助读者更好地理解这一产品。
62 0
|
13天前
|
弹性计算 Kubernetes 监控
阿里云ack学习
【8月更文挑战第6天】
54 0
|
3月前
|
存储 Kubernetes Docker
容器服务ACK常见问题之阿里云控制台进不去了如何解决
容器服务ACK(阿里云容器服务 Kubernetes 版)是阿里云提供的一种托管式Kubernetes服务,帮助用户轻松使用Kubernetes进行应用部署、管理和扩展。本汇总收集了容器服务ACK使用中的常见问题及答案,包括集群管理、应用部署、服务访问、网络配置、存储使用、安全保障等方面,旨在帮助用户快速解决使用过程中遇到的难题,提升容器管理和运维效率。
|
3月前
|
人工智能 运维 Kubernetes
阿里云容器服务ACK AI助手正式上线带来的便利性
作为开发者想必大家都知道,云原生容器技术的优势,尤其是近两年的随着容器技术的迅猛发展,Kubernetes(K8s)已成为广泛应用于容器编排和管理的领先解决方案,但是K8s的运维复杂度一直是挑战之一。为了应对这一问题,就在最近,阿里云容器服务团队正式发布了ACK AI助手,这是一款旨在通过大模型增强智能诊断的产品,旨在帮助企业和开发者降低Kubernetes(K8s)的运维复杂度。那么本文就来详细讲讲关于这款产品,让我们结合实际案例分享一下K8s的运维经验,探讨ACK AI助手能否有效降低K8s的运维复杂度,并展望ACK AI助手正式版上线后的新功能。
319 2
阿里云容器服务ACK AI助手正式上线带来的便利性
|
12月前
|
人工智能 Cloud Native 文件存储
阿里云容器服务ACK云原生AI套件测评
随着人工智能(AI)技术的快速发展,越来越多的企业开始在其业务中引入AI能力,以提高运营效率、优化用户体验,以及创造新的商业价值。像我们这种小型企业也不例外,希望通过集成先进的AI技术来提升业务运营的智能化水平。在这样的背景下,阿里云容器服务ACK推出了云原生AI套件,它能够帮助企业在Kubernetes容器平台上快速构建和运行AI应用,实现全栈优化。本次通过一次实验体验,简单对云原生AI套件进行测评。
96891 47
|
11月前
|
边缘计算 运维 Kubernetes
阿里云原生容器服务产品体系-阿里云边缘容器服务ACK@Edge介绍
阿里云原生容器服务产品体系-阿里云边缘容器服务ACK@Edge介绍
1060 0
阿里云原生容器服务产品体系-阿里云边缘容器服务ACK@Edge介绍

推荐镜像

更多