/usr/bin/mpirun -np 16
--map-by ppr:4:socket -bind-to socket
--hostfile ./hostfile
--allow-run-as-root
--tag-output
--report-bindings
--mca pml ob1
--mca btl ^openib
--mca btl_tcp_if_exclude lo,docker0,bond0
--wdir /home/deeprec
-x NCCL_IB_DISABLE=0
-x NCCL_IB_GID_INDEX=3
-x NCCL_IB_HCA=mlx5
-x NCCL_DEBUG=INFO
-x NCCL_IB_TIMEOUT=25
-x NCCL_IB_RETRY_CNT=7
-x NCCL_SOCKET_IFNAME=eth0
-x TF_GPU_CUPTI_FORCE_CONCURRENT_KERNEL=1
-x JAVA_HOME=/opt/jdk/jdk1.8
-x START_STATISTIC_STEP=100
-x LIBHDFS_OPTS=-Dhadoop.root.logger=WARN,console
-x STOP_STATISTIC_STEP=110
-x MEM_USAGE_STRATEGY=251
-x JEMALLOC_PATH=/home/deeprec
-x SEC_TOKEN_PATH=/home/deeprec/tokens_sectoken
-x TF_SCRIPT=train.py
-x YARN_APP_ID=application_1681844181995_4023507
-x TF_WORKSPACE=/home/deeprec
-x HADOOP_HDFS_HOME=/opt/yarn/hadoop
-x HADOOP_TOKEN_FILE_LOCATION=/home/deeprec/container_tokens
-x PYTHONPATH=/usr/lib/python3.8/site-packages/merlin_sok-1.1.4-py3.8-linux-x86_64.egg:
-x PATH=/opt/yarn/hadoop/bin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin
-x APPLICATION_ID=application_1681844181995_4023507
-x LD_LIBRARY_PATH=/opt/jdk/jdk1.8/jre/lib/amd64/server:/opt/yarn/hadoop/lib/native:/opt/yarn/hadoop/lib/native python train.py
--output_dir=hdfs:///user/xxx/deeprec
--data_location=hdfs:///user/xxx/criteo_1tb
--protocol=grpc
--smartstaged=false
--batch_size=2048
--steps=30000
--ev=true
--ev_elimination=l2
--ev_filter=counter
--op_fusion=true
--input_layer_partitioner=0
--dense_layer_partitioner=16
--group_embedding=collective
--workqueue=true
--parquet_dataset=false
机器学习PAI用的还是deepfm模型, 上次跑通了单机多卡, 这次想试试, 多机多卡, 在上yarn调度. ssh都配好了, mpi在多机上可以跑通,帮忙看下这个问题?是在yarn上先拉起两个大容器, 每个容器基本占一台物理机(8卡A100), 然后在容器内打通ssh, 然后在容器内用mpi拉起deeprec进程
所以目前你们是MPI本地提交作业,物理机跑多机多卡能跑起来,用集群调度容器跑不起来,你试试在机器上看看get_physical_devices看看tf有没有正常识别GPU设备 SOK的相关Op目前都只实现了GPU的版本,但是我看Log显示进程只检测到CPU device;所以你要不进容器检查一下tf 的visible_devices ,此回答整理自钉群“DeepRec用户群”
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
人工智能平台 PAI(Platform for AI,原机器学习平台PAI)是面向开发者和企业的机器学习/深度学习工程平台,提供包含数据标注、模型构建、模型训练、模型部署、推理优化在内的AI开发全链路服务,内置140+种优化算法,具备丰富的行业场景插件,为用户提供低门槛、高性能的云原生AI工程化能力。