备案控制台

开发者社区 > 大数据与机器学习 > 人工智能平台PAI > 正文

机器学习PAI用的还是deepfm模型, 多机多卡, mpi在多机上可以跑通，帮忙看下这个问题？

/usr/bin/mpirun -np 16
--map-by ppr:4:socket -bind-to socket
--hostfile ./hostfile
--allow-run-as-root
--tag-output
--report-bindings
--mca pml ob1
--mca btl ^openib
--mca btl_tcp_if_exclude lo,docker0,bond0
--wdir /home/deeprec
-x NCCL_IB_DISABLE=0
-x NCCL_IB_GID_INDEX=3
-x NCCL_IB_HCA=mlx5
-x NCCL_DEBUG=INFO
-x NCCL_IB_TIMEOUT=25
-x NCCL_IB_RETRY_CNT=7
-x NCCL_SOCKET_IFNAME=eth0
-x TF_GPU_CUPTI_FORCE_CONCURRENT_KERNEL=1
-x JAVA_HOME=/opt/jdk/jdk1.8
-x START_STATISTIC_STEP=100
-x LIBHDFS_OPTS=-Dhadoop.root.logger=WARN,console
-x STOP_STATISTIC_STEP=110
-x MEM_USAGE_STRATEGY=251
-x JEMALLOC_PATH=/home/deeprec
-x SEC_TOKEN_PATH=/home/deeprec/tokens_sectoken
-x TF_SCRIPT=train.py
-x YARN_APP_ID=application_1681844181995_4023507
-x TF_WORKSPACE=/home/deeprec
-x HADOOP_HDFS_HOME=/opt/yarn/hadoop
-x HADOOP_TOKEN_FILE_LOCATION=/home/deeprec/container_tokens
-x PYTHONPATH=/usr/lib/python3.8/site-packages/merlin_sok-1.1.4-py3.8-linux-x86_64.egg:
-x PATH=/opt/yarn/hadoop/bin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin
-x APPLICATION_ID=application_1681844181995_4023507
-x LD_LIBRARY_PATH=/opt/jdk/jdk1.8/jre/lib/amd64/server:/opt/yarn/hadoop/lib/native:/opt/yarn/hadoop/lib/native python train.py
--output_dir=hdfs:///user/xxx/deeprec
--data_location=hdfs:///user/xxx/criteo_1tb
--protocol=grpc
--smartstaged=false
--batch_size=2048
--steps=30000
--ev=true
--ev_elimination=l2
--ev_filter=counter
--op_fusion=true
--input_layer_partitioner=0
--dense_layer_partitioner=16
--group_embedding=collective
--workqueue=true
--parquet_dataset=false
机器学习PAI用的还是deepfm模型, 上次跑通了单机多卡, 这次想试试, 多机多卡, 在上yarn调度. ssh都配好了, mpi在多机上可以跑通，帮忙看下这个问题？是在yarn上先拉起两个大容器, 每个容器基本占一台物理机(8卡A100), 然后在容器内打通ssh, 然后在容器内用mpi拉起deeprec进程

展开

收起

冰激凌甜筒 2023-05-02 20:29:11 352 0

1 条回答

写回答

取消提交回答

微笑向日葵

所以目前你们是MPI本地提交作业，物理机跑多机多卡能跑起来，用集群调度容器跑不起来，你试试在机器上看看get_physical_devices看看tf有没有正常识别GPU设备 SOK的相关Op目前都只实现了GPU的版本，但是我看Log显示进程只检测到CPU device；所以你要不进容器检查一下tf 的visible_devices ，此回答整理自钉群“DeepRec用户群”

2023-05-02 20:36:24

赞同展开评论打赏

问答分类：

机器学习/深度学习资源调度分布式计算并行计算 Hadoop Java 网络安全调度 Python 容器人工智能平台 PAI GPU云服务器

问答标签：

人工智能平台 PAI模型机器学习人工智能平台 PAI 人工智能平台 PAI pai 人工智能平台 PAI机器学习人工智能平台 PAI看下

问答地址：

开发者社区 > 大数据与机器学习 > 人工智能平台PAI > 问答

相关产品：

人工智能平台 PAI

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

相关问答

人工智能平台PAI

机器学习PAI做AI应用，让模型同时支持英文、中文、阿拉伯语等小语种，有什么好的方案？

50

0

0

DLC支持的机器学习模型有哪些？

17

1

0

机器学习PAI给的dssm 负采样的demo中模型结构是双塔，输出N个候选item的概率吗？

47

1

0

咨询下机器学习PAI，双塔模型，采用negative sampler 负采样+ log loss，

51

1

0

大模型服务平台和人工智能平台PAI区别是什么？

64

1

0

大模型服务平台与PAI与模型服务灵积这三个的区别在哪？应用场景有什么区别？

62

0

0

大模型服务平台百炼、DashScope灵积模型服务与PAI平台的主要应用场景有什么区别？

177

0

0

机器学习PAI这个如果保存结果模型，可以在另外一个流程中直接导入使用吗？

47

1

0

什么是模型并行技术?它在大模型训练中起什么作用？

43

3

0

想基于机器学习PAI和maxcompute,hologres 构建实时推荐模型两个产品到底什么关系？

53

1

0

大数据与机器学习

人工智能平台PAI

人工智能平台 PAI（Platform for AI，原机器学习平台PAI）是面向开发者和企业的机器学习/深度学习工程平台，提供包含数据标注、模型构建、模型训练、模型部署、推理优化在内的AI开发全链路服务，内置140+种优化算法，具备丰富的行业场景插件，为用户提供低门槛、高性能的云原生AI工程化能力。

我要提问

相关产品

人工智能平台 PAI

文档详情产品详情

热门讨论

热门文章

AI生成海报or人工手绘，哪个更戳你？

为什么我的天池notebook中，无法创建notebook文件，也无法显示我的天池文档等内容。

在api调用夸克搜索时，遇到权限不足问题

机器学习PAI英伟达这个v100和4090哪个强？做comfyui生视频用

P人出游，你是否需要一个懂你更懂规划的AI导游呢？来搭建专属文旅问答机器人吧

训练的模型可以离线使用吗？没看到这方面的文档

PAI做了线性回归的模型，预测结果后，回归模型评估的节点，结果R2的值是负的，我理解R2的取值范围?

为什么我的DSW，文件区没有显示我的notebook内容，也没有显示我的天池文档等部分

无法从浏览器的剪贴板中读取。请确保你已授予此网站从剪贴板中读取的访问权限。

机器学习PAI有没有类似colab这种免费的在线Notebook代码编辑运行环境啊？

展开全部

【玩转数据系列十】利用阿里云机器学习在深度学习框架下实现智能图片分类

【玩转数据系列六】文本分析算法实现新闻自动分类

【玩转数据系列十三】机器学习算法基于信用卡消费记录做信用评分

机器学习PAI全新功效——实时新闻热点Online Learning实践

【玩转数据系列四】听说啤酒和尿布很配？本期教你用协同过滤做推荐

【上报纸啦】95后大学生用机器学习PAI大战老年痴呆

云端深度学习框架TensorFlow读取数据IO的高效方式

大规模深度学习优化技术在PAI平台中的应用及实践

5块钱低成本阿里云大数据生态协同过滤推荐系统实战

展开全部

相关课程

更多

PAI平台学习路线：机器学习入门到应用

2545

52

去学习

场景实践 - 机器学习PAI实现精细化营销

216

7

去学习

场景实践 - 基于阿里云PAI机器学习平台使用时间序列分解模型预测商品销量

176

8

去学习

场景实践 - 基于机器学习进行收入预测分析

106

6

去学习

机器学习概览及常见算法

32522

13

去学习

机器学习入门-概念原理及常用算法

13555

8

去学习

相关电子书

更多

大规模机器学习在蚂蚁+阿里的应用 立即下载

阿里巴巴机器学习平台AI 立即下载

微博机器学习平台架构和实践 立即下载

相关实验场景

更多