PAI深度学习Tensorflow框架多机多卡多PS Server使用说明

本文涉及的产品
交互式建模 PAI-DSW,5000CU*H 3个月
简介:

简介

PAI目前已经上线了支持多机、多卡、多PS Server的TensorFlow服务,目前只支持华北2 Region。华北2 Region因为支持多机多卡功能,适用于大规模数据的训练,相关服务需要收费,有需要的相关机构可以联系我们。

原理说明

  • Parameter Server节点:用来存储TensorFlow计算过程中的参数。配置多个PS节点,计算参数将会被自动切片并存储在不同的PS节点中,从而减小Worker和PS节点通信过程中的带宽限制的影响。
  • Worker节点:“多机多卡”中的“机”,GPU卡的载体。
  • Task节点:“多机多卡”中的“卡”,在PAI中指的是GPU卡,在TensorFlow训练过程中,通过数据切片将数据分布在不同的Task节点进行模型参数的训练。

使用说明

多机、多卡、多PS功能会以服务化的方式提供,用户无需关心底层计算资源的调度和运维,只需要通过PAI前端的简单配置即可快速搭建起整个分布式计算网络。下面介绍下具体的使用方式:

1.前端配置

  • 将mnist_cluster.tar.gz文件下载并上传到OSS(本文下部提供下载地址),配置深度学习的OSS读取权限,拖拽任意版本TensorFlow组件按照下图连接,设置对应的代码数据源(Python代码文件设置mnist_cluster.tar.gz路径,Python主文件填入mnist_cluster.py):
  • 点击“执行调优”进行参数配置:
  • 通过以上配置可以快速建立起如下图所示的多机多卡多PS计算网络结构,其中PS为Parameter Server服务,WORKER为计算节点机器,TASK表示具体执行计算的GPU卡:

2.代码端设置

传统的TensorFlow多机多卡作业需要在代码端输入每一个计算节点的对应端口信息,如下图所示:

当计算节点数量增多时,这种端口信息的配置会非常复杂。PAI优化了计算节点配置信息的功能,只需要以下两行代码即可自动在代码端获取计算节点信息。

 ps_hosts = FLAGS.ps_hosts.split(",")#框架层提供ps_hosts的端口
 worker_hosts = FLAGS.worker_hosts.split(",")#框架层提供worker_hosts的端口

3.运行日志查看

  • 右键TensorFlow,产看日志,可以看到资源的分配情况。分配两个PS,两个WORKER。
  • 点击蓝色链接,可以在logview中查看对应每个worker的运行状态:

代码下载

https://help.aliyun.com/document_detail/64146.html

相关实践学习
使用PAI-EAS一键部署ChatGLM及LangChain应用
本场景中主要介绍如何使用模型在线服务(PAI-EAS)部署ChatGLM的AI-Web应用以及启动WebUI进行模型推理,并通过LangChain集成自己的业务数据。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
目录
相关文章
|
25天前
|
机器学习/深度学习 API 语音技术
|
4月前
|
机器学习/深度学习 人工智能 API
TensorFlow Lite,ML Kit 和 Flutter 移动深度学习:1~5
TensorFlow Lite,ML Kit 和 Flutter 移动深度学习:1~5
74 0
|
4月前
|
机器学习/深度学习 存储 人工智能
TensorFlow Lite,ML Kit 和 Flutter 移动深度学习:6~11(3)
TensorFlow Lite,ML Kit 和 Flutter 移动深度学习:6~11(3)
81 0
|
4月前
|
机器学习/深度学习 Dart TensorFlow
TensorFlow Lite,ML Kit 和 Flutter 移动深度学习:6~11(5)
TensorFlow Lite,ML Kit 和 Flutter 移动深度学习:6~11(5)
74 0
|
6天前
|
机器学习/深度学习 人工智能 算法
深度学习在图像识别中的应用与挑战移动应用开发的未来:跨平台框架与原生操作系统的融合
【4月更文挑战第30天】 随着人工智能的迅猛发展,深度学习技术已成为图像识别领域的核心竞争力。本文章将探讨深度学习在图像识别中的应用,并分析其面临的主要挑战。我们将从卷积神经网络(CNN)的基础架构出发,讨论其在图像分类、目标检测和语义分割等方面的应用案例,同时指出数据偏差、模型泛化能力以及对抗性攻击等问题对图像识别准确性的影响。通过实例分析和最新研究成果,本文旨在为读者提供一个关于深度学习在图像处理领域内应用的全面视角。
|
7天前
|
机器学习/深度学习 算法 TensorFlow
TensorFlow 2keras开发深度学习模型实例:多层感知器(MLP),卷积神经网络(CNN)和递归神经网络(RNN)
TensorFlow 2keras开发深度学习模型实例:多层感知器(MLP),卷积神经网络(CNN)和递归神经网络(RNN)
|
18天前
|
机器学习/深度学习 运维 监控
TensorFlow分布式训练:加速深度学习模型训练
【4月更文挑战第17天】TensorFlow分布式训练加速深度学习模型训练,通过数据并行和模型并行利用多机器资源,减少训练时间。优化策略包括配置计算资源、优化数据划分和减少通信开销。实际应用需关注调试监控、系统稳定性和容错性,以应对分布式训练挑战。
|
25天前
|
机器学习/深度学习 PyTorch API
|
2月前
|
机器学习/深度学习 API Apache
机器学习PAI常见问题之本地运行深度学习训练和预测的测试代码时报错如何解决
PAI(平台为智能,Platform for Artificial Intelligence)是阿里云提供的一个全面的人工智能开发平台,旨在为开发者提供机器学习、深度学习等人工智能技术的模型训练、优化和部署服务。以下是PAI平台使用中的一些常见问题及其答案汇总,帮助用户解决在使用过程中遇到的问题。
|
3月前
|
机器学习/深度学习 人工智能 资源调度
人工智能平台PAI问题之多机多卡如何解决
人工智能平台PAI是指阿里云提供的机器学习平台服务,支持建模、训练和部署机器学习模型;本合集将介绍机器学习PAI的功能和操作流程,以及在使用过程中遇到的问题和解决方案。
65 0

热门文章

最新文章

相关产品

  • 人工智能平台 PAI