备案控制台

开发者社区大数据与机器学习人工智能平台PAI 正文

我在使用机器学习PAI EPL的多卡数据并行模型，batch=256吃满了单张显卡的16G显存。我？

我在使用机器学习PAI EPL的多卡数据并行模型，batch=256吃满了单张显卡的16G显存。我想继续加大batch size，请问是要改成auto_parallel吗？

展开

收起

真的很搞笑 2023-07-16 18:52:52 216 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

2 条回答

写回答

取消提交回答

Star时光
如果你的单张显卡的显存已经被一个 batch size 为 256 的模型所完全使用，并且想要进一步增加 batch size，以利用多卡数据并行来训练模型，那么可以考虑使用自动并行（auto_parallel）来实现。

在机器学习 PAI 中，auto_parallel 是一种自动并行策略，它能够自动将计算图划分为多个设备（例如多个 GPU），并在这些设备之间进行数据并行。通过 auto_parallel，你可以有效地利用多个显卡来加速训练过程，并可以增加 batch size。

要使用 auto_parallel，你可以按照以下步骤进行操作：
1. 导入必要的 TensorFlow 模块：
  
  import tensorflow as tf
2. 设置自动并行策略：
  
  # 设置自动并行策略 strategy = tf.distribute.experimental.MultiWorkerMirroredStrategy( tf.distribute.experimental.CollectiveCommunication.NCCL )
  
  这里使用了 MultiWorkerMirroredStrategy 来实现数据并行。NCCL 是一种高效的分布式通信库，可加速多 GPU 之间的数据传输。
3. 在模型构建之前设置分布式策略：
  
  # 设置分布式策略 with strategy.scope(): # 构建模型
  
  在这个 with 上下文管理器中，你可以构建和定义你的模型。
通过以上步骤，你将设置好了自动并行策略，并确保在构建模型之前设置了合适的分布式策略。这样 TensorFlow 就能够自动进行数据并行，并将计算图划分到多个设备上以支持更大的 batch size。

请注意，使用自动并行时，需要确保你的机器有足够的显卡和显存来容纳增加后的 batch size。此外，在 auto_parallel 中进行训练时，可能需要根据实际情况微调一些超参数，如学习率、梯度累积等，以获得最佳的训练性能和效果。

最后，值得一提的是，auto_parallel 可能并不是适用于所有情况的最佳解决方案，具体的选择还需要结合你的硬件资源、模型复杂度和训练目标等因素进行考虑。
2023-07-31 17:36:00

赞同展开评论
芯在这

加大batch可以使用GA，或者增加机器（增加DP并行度），此回答整理自钉群“EPL用户交流群”

2023-07-16 19:01:38

赞同展开评论

问答分类：

机器学习/深度学习人工智能平台 PAI

问答标签：

人工智能平台 PAI模型人工智能平台 PAI数据人工智能平台 PAI数据模型机器学习人工智能平台 PAI 人工智能平台 PAI pai

问答地址：

开发者社区 > 大数据与机器学习 > 人工智能平台PAI > 问答

相关问答

人工智能平台PAI

在机器学习PAI中，低版本和高版本相同的数据跑出来收敛曲线不一样且稳定复现，这是什么问题呢？

157

0

0

在机器学习PAI我们每天写前一天的数据到pt里，然后全量数据同步前30天，是怎么同步的？

144

2

0

机器学习PAI同样的数据训练，在同一批测试数据上进行hitrate 的对比，这个正常吗？

68

1

0

机器学习PAI训练完的容器已经关闭了，模型文件已经保存到oss，这里不指定模型文件路径加载啥呢？

138

1

0

机器学习PAI的这个查不出数据，实时表里是有数据的，跟userid没有设置成user_id有关吗？

103

1

0

机器学习PAI把writeflush注释掉之后，发现100条数据只写入了3条，怎么回事？

97

1

0

使用PAI-EAS一键部署ChatGLM，并应用LangChain集成外部数据

1886

40

0

在NLP自学习平台中，需要对一万条裁判文书数据进行文本关系抽取的模型训练，如何收费？

134

1

0

机器学习PAI有没有python版本的，从odps读取数据？

141

1

0

机器学习PAI召回配置中的这两个表的数据，怎么生成的？

93

0

0

大数据与机器学习

人工智能平台PAI

人工智能平台 PAI（Platform for AI，原机器学习平台PAI）是面向开发者和企业的机器学习/深度学习工程平台，提供包含数据标注、模型构建、模型训练、模型部署、推理优化在内的AI开发全链路服务，内置140+种优化算法，具备丰富的行业场景插件，为用户提供低门槛、高性能的云原生AI工程化能力。

我要提问

相关文章

告别漫长等待：3D生成进入“秒时代”！Apple 重新定义实时视图合成

金属外表多种生锈检测数据集（1200张图片已划分）｜面向工业巡检的目标检测数据集

金融行业用好大模型，只有“垂直”一个解

小模型驱动大智能：NVIDIA新研究实现2.5倍效率提升，成本直降70%

MaaS市场全球领导者！阿里云5项能力获评最高评级

热门讨论

热门文章

P人出游，你是否需要一个懂你更懂规划的AI导游呢？来搭建专属文旅问答机器人吧

PAI做了线性回归的模型，预测结果后，回归模型评估的节点，结果R2的值是负的，我理解R2的取值范围?

在海量用户中，将如何快速定位到目标人群进行个性化营销？

iTAG阿里的数据标注任务怎么对接呀？

阿里AI克隆人声模型

为什么我的天池notebook中，无法创建notebook文件，也无法显示我的天池文档等内容。

阿里云的镜像上搜不到机器学习PAI的input用的common_io为什么？

使用通义灵码时，对话框字体怎么设置？

机器学习PAI deeprec的docker 在mac M1上面运行报错，有什么解决办法吗？

通义灵码 idea版本的代码提示如何设置？

展开全部

【玩转数据系列十】利用阿里云机器学习在深度学习框架下实现智能图片分类

【玩转数据系列十五】机器学习PAI为你自动写歌词，妈妈再也不用担心我的freestyle了（提供数据、代码）

【玩转数据系列六】文本分析算法实现新闻自动分类

阿里巴巴机器学习系列课程

【玩转数据系列十三】机器学习算法基于信用卡消费记录做信用评分

【玩转数据系列三】利用图算法实现金融行业风控

【玩转数据系列四】听说啤酒和尿布很配？本期教你用协同过滤做推荐

基于协同过滤算法的推荐

FM算法介绍

【上报纸啦】95后大学生用机器学习PAI大战老年痴呆

展开全部

还有其他疑问?