问题一:机器学习PAI为啥这个多worker多卡会报错?
机器学习PAI为啥这个多worker多卡会报错?
参考答案:
从你提供的图片中,我看到了一些关于PAI(阿里云的机器学习平台)的错误信息。为了更准确地诊断问题,我需要更详细的错误信息或上下文。不过,基于你提供的信息,以下是一些建议和可能的原因:
- 资源限制:PAI可能会对用户分配的资源有限制,如CPU、内存、GPU等。如果一个任务请求的资源超过了这些限制,那么它可能会失败。
- 网络问题:确保你的机器可以访问PAI服务并且网络连接稳定。
- 权限问题:确保你的账户有足够的权限来运行这个任务。
- 代码问题:虽然我不能直接查看你的代码,但请确保你的代码是正确配置的,并且与PAI的API和要求相匹配。
- 其他服务冲突:确保没有其他服务或进程正在使用相同的资源,导致冲突。
关于本问题的更多回答可点击进行查看:
https://developer.aliyun.com/ask/591132
问题二:机器学习PAI跑训练报了这个错,可以帮忙看下原因嘛?
参考答案:
"看起来训练没拉起来,资源也别用GPU
pipleline.config去掉这个train_distribute: MultiWorkerMirroredStrategy
maxcompute上目前不支持MultiWorkerMirroredStrategy, 建议到DLC上跑,另外不需要设置ps
关于本问题的更多回答可点击进行查看:
https://developer.aliyun.com/ask/591131
问题三:想请教一下机器学习PAI我跑predict时报这个错是什么原因?
这是我跑的命令:pai -name easy_rec_ext -project algo_public
-Dversion='oppo_release'
-Dcmd=predict
-Dinput_table=odps://ump_ads_dev/tables/autoencoder_train_feature_dense_val_middle_did
-Doutput_table=odps://ump_ads_dev/tables/autoencoder_v1_all_0116_val_middle_predict
-Dcluster="{\"worker\":{\"count\": 40,\"gpu\":0,\"cpu\":1500,\"memory\":100000}}"
-Dbuckets="oss://rta-bucket/?role_arn=acs:ram::1078614756289401:role/rta-role&host=oss-cn-hangzhou-zmf-internal.aliyuncs.com"
-Dsaved_model_dir='oss://rta-bucket/autoencoder/v1_all_0116/export/best/'
-Doutput_cols='middle_embed string, output_feature string'
-Dreserved_cols='did'
-Dmodel_outputs="middle_embed,output_feature"
-Dbatch_size=1024
;
参考答案:
目录写错了 ,
关于本问题的更多回答可点击进行查看:
https://developer.aliyun.com/ask/591127
问题四:我的机器学习PAI的easyrec部署起不来了,这个是啥问题哟?
我的机器学习PAI的easyrec部署起不来了,这个是啥问题哟?
参考答案:
导出有问题,需要把export_config.multi_placeholder设成false
关于本问题的更多回答可点击进行查看:
https://developer.aliyun.com/ask/591123
问题五:想请教下机器学习PAI~编译的时候会报 这块该怎么办呢?
想请教下机器学习PAI~
编译的时候会报
pairec_demo/src imports
github.com/alibaba/pairec: missing go.sum entry for module providing package github.com/alibaba/pairec (imported by pairec_demo/src);
然后go mod tidy
会报i/o 超时
这块该怎么办呢?
参考答案:
export GOPROXY=https://goproxy.cn,direct 设置这个环境变量再试下
关于本问题的更多回答可点击进行查看: