如何在阿里云ACK上使用Arena提交ECI训练任务

简介: 使用ECI运行AI训练任务,利用比较强力的Serverless能力。本文介绍使用Arena提交在ECI上运行的分布式训练任务的流程。

该文档主要验证了使用Arena在ACK上提交训练分布式训练任务的可行性,以及其训练性能验证。这里选用两个训练模式的任务进行实验的测算与比较,分别为基于TFJob的PS训练模式与基于MPIJob的Allreduce训练模式。

与AutoScaler弹出的ECS比起来,ECI的Pod所占用的底层资源只能是单GPU实例,无法使用hostNetwork、hostIPC、hostPID。所以自然也就无法使用NCCL之类的通信,只能依赖于容器网络的通信。

对于需要在ECI上运行的AI训练任务,需要指定selector到ECI上,然后tolerate ECI上的taints,然后需要禁用hostNetwork、hostIPC、hostPID,最后使用GPU实例的时候还需要指定Host实例规格。如果镜像过于大,则需要提前申请预留足够的临时空间,使用k8s.aliyun.com/eci-extra-ephemeral-storage的annotation进行设置临时存储空间的上限。

PS模式训练

提交命令

arena submit tf \
--name=tf-ps-sync-eci \
--gpus=1 \
--workers=3 \
--worker-image=registry-vpc.cn-beijing.aliyuncs.com/acs/gpushare-sample:tensorflow-1.5 \
--ps=1 \
--ps-image=registry-vpc.cn-beijing.aliyuncs.com/huozx/gpushare-sample:tensorflow-1.5-no-gpu \
--toleration all \
--useHostIPCfalse \
--useHostPIDfalse \
--useHostNetworkfalse \
--annotation=k8s.aliyun.com/eci-use-specs=ecs.gn6i-c4g1.xlarge \
"python tensorflow-sample-code/tfjob/docker/v1alpha2/distributed-mnist/main.py --max_steps 1000"

这是一个基于TFJob的PS训练模式的分布式训练任务,一共会拉起来4个Pod,1个Ps和3个Worker,同时在ECS上拉起同一个任务,比较其运行时间,ECS上其运行时间为4m22s,在ECI上运行其时间为5m3s,会有少量的时间增加。

AllReduce模式训练

提交命令

arena submit mpijob \
--name=mpi-allreduce-sync-eci \
--gpus=1 \
--memory=16Gi \
--cpu=4 \
--workers=8 \
--image=registry-vpc.cn-beijing.aliyuncs.com/huozx/bert-elastic-demo:v1.5-test \
--toleration all \
--annotation=k8s.aliyun.com/eci-use-specs=ecs.gn6i-c4g1.xlarge \
--useHostIPCfalse \
--useHostPIDfalse \
--useHostNetworkfalse \
--annotation=k8s.aliyun.com/eci-extra-ephemeral-storage=50Gi \
"horovodrun --log-level DEBUG --verbose   -np 8   --min-np 1   --max-np 128   --host-discovery-script /etc/edl/discover_hosts.sh   python /examples/elastic/pytorch/train_bert.py --epochs=5 --model=bert --batch-size 32"

这是一个基于MPIJob的AllReduce训练模式的分布式训练任务,一共会拉起来9个Pod,1个Launcher和8个Worker,同时在ECS上拉起同一个任务,比较其运行时间,在ECS上其运行时间为21m35s,在ECI上运行其时间为23m8s,会有少量的时间增加。

相关实践学习
深入解析Docker容器化技术
Docker是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的Linux机器上,也可以实现虚拟化,容器是完全使用沙箱机制,相互之间不会有任何接口。Docker是世界领先的软件容器平台。开发人员利用Docker可以消除协作编码时“在我的机器上可正常工作”的问题。运维人员利用Docker可以在隔离容器中并行运行和管理应用,获得更好的计算密度。企业利用Docker可以构建敏捷的软件交付管道,以更快的速度、更高的安全性和可靠的信誉为Linux和Windows Server应用发布新功能。 在本套课程中,我们将全面的讲解Docker技术栈,从环境安装到容器、镜像操作以及生产环境如何部署开发的微服务应用。本课程由黑马程序员提供。     相关的阿里云产品:容器服务 ACK 容器服务 Kubernetes 版(简称 ACK)提供高性能可伸缩的容器应用管理能力,支持企业级容器化应用的全生命周期管理。整合阿里云虚拟化、存储、网络和安全能力,打造云端最佳容器化应用运行环境。 了解产品详情: https://www.aliyun.com/product/kubernetes
目录
相关文章
|
5月前
|
存储 Kubernetes 网络安全
关于阿里云 Kubernetes 容器服务(ACK)添加镜像仓库的快速说明
本文介绍了在中国大陆地区因网络限制无法正常拉取 Docker 镜像的解决方案。作者所在的阿里云 Kubernetes 集群使用的是较旧版本的 containerd(1.2x),且无法直接通过 SSH 修改节点配置,因此采用了一种无需更改 Kubernetes 配置文件的方法。通过为 `docker.io` 添加 containerd 的镜像源,并使用脚本自动修改 containerd 配置文件中的路径错误(将错误的 `cert.d` 改为 `certs.d`),最终实现了通过多个镜像站点拉取镜像。作者还提供了一个可重复运行的脚本,用于动态配置镜像源。虽然该方案能缓解镜像拉取问题,
627 2
|
12月前
|
Cloud Native Serverless 数据中心
阿里云ACK One:注册集群支持ACS算力——云原生时代的计算新引擎
阿里云ACK One:注册集群支持ACS算力——云原生时代的计算新引擎
367 10
|
11月前
|
安全 持续交付 云计算
课时5:阿里云容器服务:最原生的集成Docker和云服务
阿里云容器服务以服务化形式构建容器基础设施,大幅提升开发效率,简化应用部署流程。通过Docker容器和DevOps工具(如Jenkins),实现自动化部署与迭代,优化企业内部复杂部署问题。该服务支持GPU调度、混合云架构无缝迁移,并与阿里云产品体系无缝集成,提供安全防护、网络负载均衡等多重功能支持。凭借微服务架构,帮助企业突破业务瓶颈,提高资源利用率,轻松应对海量流量。
392 0
课时5:阿里云容器服务:最原生的集成Docker和云服务
|
12月前
|
Kubernetes 持续交付 开发工具
阿里云协同万兴科技落地ACK One GitOps方案,全球多机房应用自动化发布,效率提升50%
阿里云协同万兴科技落地ACK One GitOps方案,全球多机房应用自动化发布,效率提升50%
536 2
|
12月前
|
弹性计算 监控 持续交付
面对热点事件,阿里云如何通过云上弹性与容器服务帮助客户应对流量洪峰
面对热点事件,阿里云如何通过云上弹性与容器服务帮助客户应对流量洪峰
309 0
|
容器
阿里云最新产品手册——云基础产品与基础设施——计算——弹性容器实例——通用部署ACK虚拟节点组件创建ECI Pot——虚拟节点和弹性容器ECI——专有版操作步骤
阿里云最新产品手册——云基础产品与基础设施——计算——弹性容器实例——通用部署ACK虚拟节点组件创建ECI Pot——虚拟节点和弹性容器ECI——专有版操作步骤自制脑图
256 1
阿里云最新产品手册——云基础产品与基础设施——计算——弹性容器实例——通用部署ACK虚拟节点组件创建ECI Pot——虚拟节点和弹性容器ECI——专有版操作步骤
|
容器
阿里云最新产品手册——云基础产品与基础设施——计算——弹性容器实例——通用部署ACK虚拟节点组件创建ECI Pot——ECI Pot——特殊实例
阿里云最新产品手册——云基础产品与基础设施——计算——弹性容器实例——通用部署ACK虚拟节点组件创建ECI Pot——ECI Pot——特殊实例自制脑图
584 4
|
容器
阿里云最新产品手册——云基础产品与基础设施——计算——弹性容器实例——通用部署ACK虚拟节点组件创建ECI Pot——ECI Pot——创建ECI Pot
阿里云最新产品手册——云基础产品与基础设施——计算——弹性容器实例——通用部署ACK虚拟节点组件创建ECI Pot——ECI Pot——创建ECI Pot自制脑图
525 1
|
容器
阿里云最新产品手册——云基础产品与基础设施——计算——弹性容器实例——通用部署ACK虚拟节点组件创建ECI Pot——ECI Pot
阿里云最新产品手册——云基础产品与基础设施——计算——弹性容器实例——通用部署ACK虚拟节点组件创建ECI Pot——ECI Pot自制脑图
386 1
|
容器
阿里云最新产品手册——云基础产品与基础设施——计算——弹性容器实例——通用部署ACK虚拟节点组件创建ECI Pot——虚拟节点和弹性容器ECI——运行场景
阿里云最新产品手册——云基础产品与基础设施——计算——弹性容器实例——通用部署ACK虚拟节点组件创建ECI Pot——虚拟节点和弹性容器ECI——运行场景自制脑图
368 1

推荐镜像

更多