阿里云弹性AI服务 -- 基于Docker和EGS一键创建高性能Tensorflow分布式训练

简介: Tensorflow是目前使用最为广泛的深度学习框架之一,但是目前搭建分布式多机多卡训练比较困难,而且Tensorflow原生的分布式的性能很差。为了解决这个问题,我们创建了一个容器镜像:registry.

一. 概述

Tensorflow是目前使用最为广泛的深度学习框架之一,但是目前搭建分布式多机多卡训练比较困难,而且Tensorflow原生的分布式的性能很差,特别在云计算虚拟化环境下并行的挑战更大。

为了解决这个问题,我们创建了一个容器镜像:registry.cn-beijing.aliyuncs.com/ai_beijing/deep_learning:vx.x.x,目前包含了Tensorflow很新版本v1.6.0-rc0以及NVidia工具系列很新的版本:CUDA v9.0, cuDNN v7.0.5, NCCL v2.1;分布式训练上引入了horovod v0.11.2 + NCCL v2.1作为高性能Tensorflow分布式运行的框架,Horovod是基于MPI的Tensorflow分布式框架,因此也加入了Tensorflow对OpenMPI v3.0.0的支持,Horovod通过调用NCCL做了多机多卡的环形All-Reduce性能优化,分布式训练性能比原生的Tensorflow提高很多;另外通过Docker容器的host网络、不同的ssh登陆端口和免密登陆,为MPI和NCCL提供了高性能的通信通道;该镜像还打入了支持Horovod的性能优化的ResNet-50分布式训练的Demo程序。

本文通过容器服务一键创建EGS训练集群,并通过容器服务的资源编排一键搭建分布式训练环境,并运行性能优化的ResNet-50分布式训练程序获得基于EGS的高性能分布式训练性能。

二. 创建步骤

2.1. 创建集群

进入阿里云首页:https://www.aliyun.com/
在“弹性计算”里打开“容器服务”,点击“管理控制台”,点击侧边栏的"集群"->"创建Swarm集群":
1.png
2.png

“集群名称”填写:tensorflow-cluster,“地域”选择“华北5”(华北5的EGS特惠),网络类型选择“专有网络”,其他的默认:
3.png

2.2. 创建节点

点击“创建节点”,“操作系统”选择“Ubuntu 16.04 64位”,“实例系列”选择“系列III”,“实例类型”选择“GPU计算型gn5”,“实例规格”选择“ecs.gn5-c8g1.4xlarge”(这是双卡实例:2xP100 GPU、vCPU 16核心、Memory 120GB、网络带宽为Ethernet 8Gbps以太网,也可以选择别的实例),“实例数量”自选,至少需要2台,当前创建了4台:
4.png

点击“创建集群”,等待集群创建成功:
5.png
6.png

2.3. 创建应用

点击侧边栏的“应用”,选择刚才创建的集群,点击“创建应用”:
7.png

“应用名称”填“horovod-test”,“部署集群”选刚才创建的集群,点“使用编排模板创建”:
8.png

要创建的支持MPI的Service有2种类型,一种是mpihead作为MPI的头节点,设置网络类型为host:network_mode: host,设置ssh通信端口SSH_PORT为33端口(因为使用host网络,需要不同于默认的22端口),image镜像名填:registry.cn-beijing.aliyuncs.com/ai_beijing/deep_learning:vx.x.x,每个容器使用2块GPU:aliyun.gpu=2,mpihead容器数量为1个:aliyun.scale=1;
另一种是mpinode作为MPI的计算节点,设置网络类型为host:network_mode: host,设置ssh通信端口SSH_PORT为33端口,image镜像名填:registry.cn-beijing.aliyuncs.com/ai_beijing/deep_learning:vx.x.x,每个容器使用2块GPU:aliyun.gpu=2,mpinode容器数量为3个:aliyun.scale=3(根据创建的节点数:1个mpihead+3个mpinode=当前创建的4个EGS节点),点击右下角“创建并部署”:
9.png

点击“查看应用列表”:
10.png
11.png

点击刚创建的应用“horovod-test”进去可以看到“服务列表”里的2个服务mpihead, mpinode都运行正常:
12.png

2.4. 执行单机多卡训练

点击“mpihead”,再点击“远程终端”,进入mpihead容器的控制台,执行ls,在当前目录下,benchmark里有ResNet-50的Horovod分布式代码;start.sh是每次容器拉起来都会执行的脚本,会修改ssh的端口号和启动sshd;hvd-local.sh会执行单机多卡的训练程序;hvd-distribute.sh会执行多机多卡训练程序。先执行./hvd-local.sh 1/2,会执行单机1卡和2卡的训练程序:
14.png

经过100步的训练,双卡训练性能为442.37 images/second:
15.png

2.5. 执行多机多卡训练

点击左侧栏的“节点”,获取当前集群tensorflow-cluster的所有节点的IP地址,填入到hosts文件中:
16.0.png
16.png

编辑当前“远程终端”下的hvd-distribute.sh文件,-np后面填所有的GPU卡数(这里填4台*2卡=8),-npernode后面填每台节点的GPU卡数(这里每台是2卡),执行./hvd-distribute.sh就会运行4机一共8卡的分布式训练:
17.0.png
17.png

经过100步的训练,4机一共8卡训练性能为1701.23 images/second:
18.png

三. 本文Tensorflow多机多卡性能加速比

我们把相关的性能优化都打到docker容器镜像里了,用户可以基于Docker和EGS一键创建高性能Tensorflow分布式训练。本文跑的ResNet-50分布训练,4机一共8块P100比单卡的加速比可以达到7.3倍,多机多卡的并行效率可以达到91.2%。
19.2.png

四. 性能优化的ImageNet真实数据Tensorflow的加速比

上面是基于拟合数据的性能,我们在持续优化基于EGS的Tensorflow分布式训练性能,目前ImageNet真实数据的性能加速比如下,4机一共32块P100 GPU比单卡的加速比可以达到28.9倍,多机多卡的并行效率可以达到90.3%。
20.png

相关实践学习
在云上部署ChatGLM2-6B大模型(GPU版)
ChatGLM2-6B是由智谱AI及清华KEG实验室于2023年6月发布的中英双语对话开源大模型。通过本实验,可以学习如何配置AIGC开发环境,如何部署ChatGLM2-6B大模型。
目录
相关文章
|
8月前
|
人工智能 Java Nacos
基于 Spring AI Alibaba + Nacos 的分布式 Multi-Agent 构建指南
本文将针对 Spring AI Alibaba + Nacos 的分布式多智能体构建方案展开介绍,同时结合 Demo 说明快速开发方法与实际效果。
5310 104
|
机器学习/深度学习 人工智能 数据可视化
AI开源框架:让分布式系统调试不再"黑盒"
Ray是一个开源分布式计算框架,专为支持可扩展的人工智能(AI)和Python应用程序而设计。它通过提供简单直观的API简化分布式计算,使得开发者能够高效编写并行和分布式应用程序 。Ray广泛应用于深度学习训练、大规模推理服务、强化学习以及AI数据处理等场景,并构建了丰富而成熟的技术生态。
1992 102
AI开源框架:让分布式系统调试不再"黑盒"
|
9月前
|
人工智能 前端开发 Docker
从本地到云端:用 Docker Compose 与 Offload 构建可扩展 AI 智能体
在 AI 智能体开发中,开发者常面临本地调试与云端部署的矛盾。本文介绍如何通过 Docker Compose 与 Docker Offload 解决这一难题,实现从本地快速迭代到云端高效扩容的全流程。内容涵盖多服务协同、容器化配置、GPU 支持及实战案例,助你构建高效、一致的 AI 智能体开发环境。
867 2
从本地到云端:用 Docker Compose 与 Offload 构建可扩展 AI 智能体
|
11月前
|
存储 关系型数据库 分布式数据库
喜报|阿里云PolarDB数据库(分布式版)荣获国内首台(套)产品奖项
阿里云PolarDB数据库管理软件(分布式版)荣获「2024年度国内首版次软件」称号,并跻身《2024年度浙江省首台(套)推广应用典型案例》。
|
9月前
|
消息中间件 缓存 监控
中间件架构设计与实践:构建高性能分布式系统的核心基石
摘要 本文系统探讨了中间件技术及其在分布式系统中的核心价值。作者首先定义了中间件作为连接系统组件的"神经网络",强调其在数据传输、系统稳定性和扩展性中的关键作用。随后详细分类了中间件体系,包括通信中间件(如RabbitMQ/Kafka)、数据中间件(如Redis/MyCAT)等类型。文章重点剖析了消息中间件的实现机制,通过Spring Boot代码示例展示了消息生产者的完整实现,涵盖消息ID生成、持久化、批量发送及重试机制等关键技术点。最后,作者指出中间件架构设计对系统性能的决定性影响,
|
11月前
|
机器学习/深度学习 人工智能 API
AI-Compass LLM训练框架生态:整合ms-swift、Unsloth、Megatron-LM等核心框架,涵盖全参数/PEFT训练与分布式优化
AI-Compass LLM训练框架生态:整合ms-swift、Unsloth、Megatron-LM等核心框架,涵盖全参数/PEFT训练与分布式优化
|
人工智能 负载均衡 Java
Spring AI Alibaba 发布企业级 MCP 分布式部署方案
本文介绍了Spring AI Alibaba MCP的开发与应用,旨在解决企业级AI Agent在分布式环境下的部署和动态更新问题。通过集成Nacos,Spring AI Alibaba实现了流量负载均衡及节点变更动态感知等功能。开发者可方便地将企业内部业务系统发布为MCP服务或开发自己的AI Agent。文章详细描述了如何通过代理应用接入存量业务系统,以及全新MCP服务的开发流程,并提供了完整的配置示例和源码链接。未来,Spring AI Alibaba计划结合Nacos3的mcp-registry与mcp-router能力,进一步优化Agent开发体验。
4209 14
|
消息中间件 缓存 算法
分布式开发:数字时代的高性能架构革命-为什么要用分布式?优雅草卓伊凡
分布式开发:数字时代的高性能架构革命-为什么要用分布式?优雅草卓伊凡
1472 0
分布式开发:数字时代的高性能架构革命-为什么要用分布式?优雅草卓伊凡
|
存储 人工智能 固态存储
DeepSeek开源周第五弹之一!3FS:支撑V3/R1模型数据访问的高性能分布式文件系统
3FS是DeepSeek开源的高性能分布式文件系统,专为AI训练和推理任务设计,提供高达6.6 TiB/s的读取吞吐量,支持强一致性保障和通用文件接口,优化AI工作负载。
2095 2
DeepSeek开源周第五弹之一!3FS:支撑V3/R1模型数据访问的高性能分布式文件系统

热门文章

最新文章