如何在阿里云ACK上使用Arena提交ECI训练任务

本文涉及的产品
容器服务 Serverless 版 ACK Serverless,952元额度 多规格
容器服务 Serverless 版 ACK Serverless,317元额度 多规格
简介: 使用ECI运行AI训练任务,利用比较强力的Serverless能力。本文介绍使用Arena提交在ECI上运行的分布式训练任务的流程。

该文档主要验证了使用Arena在ACK上提交训练分布式训练任务的可行性,以及其训练性能验证。这里选用两个训练模式的任务进行实验的测算与比较,分别为基于TFJob的PS训练模式与基于MPIJob的Allreduce训练模式。

与AutoScaler弹出的ECS比起来,ECI的Pod所占用的底层资源只能是单GPU实例,无法使用hostNetwork、hostIPC、hostPID。所以自然也就无法使用NCCL之类的通信,只能依赖于容器网络的通信。

对于需要在ECI上运行的AI训练任务,需要指定selector到ECI上,然后tolerate ECI上的taints,然后需要禁用hostNetwork、hostIPC、hostPID,最后使用GPU实例的时候还需要指定Host实例规格。如果镜像过于大,则需要提前申请预留足够的临时空间,使用k8s.aliyun.com/eci-extra-ephemeral-storage的annotation进行设置临时存储空间的上限。

PS模式训练

提交命令

arena submit tf \
--name=tf-ps-sync-eci \
--gpus=1 \
--workers=3 \
--worker-image=registry-vpc.cn-beijing.aliyuncs.com/acs/gpushare-sample:tensorflow-1.5 \
--ps=1 \
--ps-image=registry-vpc.cn-beijing.aliyuncs.com/huozx/gpushare-sample:tensorflow-1.5-no-gpu \
--toleration all \
--useHostIPCfalse \
--useHostPIDfalse \
--useHostNetworkfalse \
--annotation=k8s.aliyun.com/eci-use-specs=ecs.gn6i-c4g1.xlarge \
"python tensorflow-sample-code/tfjob/docker/v1alpha2/distributed-mnist/main.py --max_steps 1000"

这是一个基于TFJob的PS训练模式的分布式训练任务,一共会拉起来4个Pod,1个Ps和3个Worker,同时在ECS上拉起同一个任务,比较其运行时间,ECS上其运行时间为4m22s,在ECI上运行其时间为5m3s,会有少量的时间增加。

AllReduce模式训练

提交命令

arena submit mpijob \
--name=mpi-allreduce-sync-eci \
--gpus=1 \
--memory=16Gi \
--cpu=4 \
--workers=8 \
--image=registry-vpc.cn-beijing.aliyuncs.com/huozx/bert-elastic-demo:v1.5-test \
--toleration all \
--annotation=k8s.aliyun.com/eci-use-specs=ecs.gn6i-c4g1.xlarge \
--useHostIPCfalse \
--useHostPIDfalse \
--useHostNetworkfalse \
--annotation=k8s.aliyun.com/eci-extra-ephemeral-storage=50Gi \
"horovodrun --log-level DEBUG --verbose   -np 8   --min-np 1   --max-np 128   --host-discovery-script /etc/edl/discover_hosts.sh   python /examples/elastic/pytorch/train_bert.py --epochs=5 --model=bert --batch-size 32"

这是一个基于MPIJob的AllReduce训练模式的分布式训练任务,一共会拉起来9个Pod,1个Launcher和8个Worker,同时在ECS上拉起同一个任务,比较其运行时间,在ECS上其运行时间为21m35s,在ECI上运行其时间为23m8s,会有少量的时间增加。

相关实践学习
通过Ingress进行灰度发布
本场景您将运行一个简单的应用,部署一个新的应用用于新的发布,并通过Ingress能力实现灰度发布。
容器应用与集群管理
欢迎来到《容器应用与集群管理》课程,本课程是“云原生容器Clouder认证“系列中的第二阶段。课程将向您介绍与容器集群相关的概念和技术,这些概念和技术可以帮助您了解阿里云容器服务ACK/ACK Serverless的使用。同时,本课程也会向您介绍可以采取的工具、方法和可操作步骤,以帮助您了解如何基于容器服务ACK Serverless构建和管理企业级应用。 学习完本课程后,您将能够: 掌握容器集群、容器编排的基本概念 掌握Kubernetes的基础概念及核心思想 掌握阿里云容器服务ACK/ACK Serverless概念及使用方法 基于容器服务ACK Serverless搭建和管理企业级网站应用
目录
相关文章
|
6月前
|
存储 Kubernetes Docker
容器服务ACK常见问题之阿里云控制台进不去了如何解决
容器服务ACK(阿里云容器服务 Kubernetes 版)是阿里云提供的一种托管式Kubernetes服务,帮助用户轻松使用Kubernetes进行应用部署、管理和扩展。本汇总收集了容器服务ACK使用中的常见问题及答案,包括集群管理、应用部署、服务访问、网络配置、存储使用、安全保障等方面,旨在帮助用户快速解决使用过程中遇到的难题,提升容器管理和运维效率。
|
2月前
|
运维 Kubernetes 调度
阿里云容器服务 ACK One 分布式云容器企业落地实践
3年前的云栖大会,我们发布分布式云容器平台ACK One,随着3年的发展,很高兴看到ACK One在混合云,分布式云领域帮助到越来越多的客户,今天给大家汇报下ACK One 3年来的发展演进,以及如何帮助客户解决分布式领域多云多集群管理的挑战。
阿里云容器服务 ACK One 分布式云容器企业落地实践
|
2月前
|
人工智能 Prometheus 监控
使用 NVIDIA NIM 在阿里云容器服务(ACK)中加速 LLM 推理
本文介绍了在阿里云容器服务 ACK 上部署 NVIDIA NIM,结合云原生 AI 套件和 KServe 快速构建高性能模型推理服务的方法。通过阿里云 Prometheus 和 Grafana 实现实时监控,并基于排队请求数配置弹性扩缩容策略,提升服务稳定性和效率。文章提供了详细的部署步骤和示例,帮助读者快速搭建和优化模型推理服务。
165 7
使用 NVIDIA NIM 在阿里云容器服务(ACK)中加速 LLM 推理
|
3月前
|
弹性计算 Kubernetes Serverless
Kubernetes 的架构问题之ACK/ASK支持ECI的Serverless Container如何解决
Kubernetes 的架构问题之ACK/ASK支持ECI的Serverless Container如何解决
98 7
|
3月前
|
弹性计算 运维 负载均衡
基于阿里云容器服务Kubernetes版(ACK)| 容器化管理云上应用
【8月更文挑战第3天】基于阿里云容器服务Kubernetes版(ACK)| 容器化管理云上应用
|
4月前
|
人工智能 运维 安全
阿里云容器服务ACK:高效管理云上应用的容器化解决方案
阿里云容器服务ACK(Alibaba Cloud Container Service for Kubernetes)为开发者提供了一套全面的容器化管理解决方案,旨在简化云上应用的部署、运维和管理。本文将深入探讨ACK的功能、优势及应用场景,为开发者展现容器化技术在云环境下的强大能力。
309 0
|
4月前
|
存储 弹性计算 运维
阿里云容器服务Kubernetes版(ACK)部署与管理体验评测
阿里云容器服务Kubernetes版(ACK)是一个功能全面的托管Kubernetes服务,它为企业提供了快速、灵活的云上应用管理能力。
177 2
|
4月前
|
运维 Kubernetes 安全
评测文章:阿里云容器服务ACK
阿里云容器服务(Alibaba Cloud Container Service for Kubernetes,简称 ACK)是一个全托管的 Kubernetes 容器管理服务。它可以帮助企业在云上高效地部署、管理和扩展容器化应用。本文将详细评测 ACK 的功能、优势及其应用场景,帮助读者更好地理解和使用这一服务。
|
6月前
|
弹性计算 缓存 Kubernetes
什么是阿里云弹性容器实例?弹性容器实例优势及应用场景介绍
弹性容器实例是阿里云的云服务器产品,使用弹性容器实例之后,用户无需管理底层 ECS 服务器,只需要提供打包好的镜像,即可运行容器,与阿里云容器服务无缝对接并仅为容器实际运行消耗的资源付费。本文介绍了阿里云弹性容器实例的、功能特性、产品优势及应用场景。
什么是阿里云弹性容器实例?弹性容器实例优势及应用场景介绍
|
6月前
|
Kubernetes 网络安全 调度
容器服务ACK常见问题之容器服务ACK的eci调度卡住如何解决
容器服务ACK(阿里云容器服务 Kubernetes 版)是阿里云提供的一种托管式Kubernetes服务,帮助用户轻松使用Kubernetes进行应用部署、管理和扩展。本汇总收集了容器服务ACK使用中的常见问题及答案,包括集群管理、应用部署、服务访问、网络配置、存储使用、安全保障等方面,旨在帮助用户快速解决使用过程中遇到的难题,提升容器管理和运维效率。

热门文章

最新文章