人工智能平台PAI操作报错合集之引用github.com/alibaba/pairec包时报错，该如何解决-阿里云开发者社区

人工智能平台PAI操作报错合集之引用github.com/alibaba/pairec包时报错，该如何解决

2024-07-29 506

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台，旨在降低AI开发门槛，加速创新，助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务，共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述，涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。

问题一：机器学习PAI为啥这个多worker多卡会报错？

机器学习PAI为啥这个多worker多卡会报错？

参考答案：

从你提供的图片中，我看到了一些关于PAI（阿里云的机器学习平台）的错误信息。为了更准确地诊断问题，我需要更详细的错误信息或上下文。不过，基于你提供的信息，以下是一些建议和可能的原因：

资源限制：PAI可能会对用户分配的资源有限制，如CPU、内存、GPU等。如果一个任务请求的资源超过了这些限制，那么它可能会失败。
网络问题：确保你的机器可以访问PAI服务并且网络连接稳定。
权限问题：确保你的账户有足够的权限来运行这个任务。
代码问题：虽然我不能直接查看你的代码，但请确保你的代码是正确配置的，并且与PAI的API和要求相匹配。
其他服务冲突：确保没有其他服务或进程正在使用相同的资源，导致冲突。

关于本问题的更多回答可点击进行查看：

https://developer.aliyun.com/ask/591132

问题二：机器学习PAI跑训练报了这个错，可以帮忙看下原因嘛？

机器学习PAI跑训练报了这个错，可以帮忙看下原因嘛？https://logview.alibaba-inc.com/logview/?h=http://service.odps.aliyun-inc.com/api&p=ump_ads_dev&i=20240119074309788gvjh5k0vyvs3_6942b76f_c617_4d26_8f91_2bcd4919a2af&token=Ym13NTFpMzR6WFlkZHMvODRiY3NGNytmQ3EwPSxPRFBTX09CTzoxODY2OTY1OTcxODQ2OTU4LDE3MDgyNDIxOTEseyJTdGF0ZW1lbnQiOlt7IkFjdGlvbiI6WyJvZHBzOlJlYWQiXSwiRWZmZWN0IjoiQWxsb3ciLCJSZXNvdXJjZSI6WyJhY3M6b2RwczoqOnByb2plY3RzL3VtcF9hZHNfZGV2L2luc3RhbmNlcy8yMDI0MDExOTA3NDMwOTc4OGd2amg1azB2eXZzM182OTQyYjc2Zl9jNjE3XzRkMjZfOGY5MV8yYmNkNDkxOWEyYWYiXX1dLCJWZXJzaW9uIjoiMSJ9

参考答案：

"看起来训练没拉起来，资源也别用GPU

pipleline.config去掉这个train_distribute: MultiWorkerMirroredStrategy

maxcompute上目前不支持MultiWorkerMirroredStrategy, 建议到DLC上跑，另外不需要设置ps

关于本问题的更多回答可点击进行查看：

https://developer.aliyun.com/ask/591131

问题三：想请教一下机器学习PAI我跑predict时报这个错是什么原因？

想请教一下机器学习PAI我跑predict时报这个错是什么原因？：https://logview.alibaba-inc.com/logview/?h=http://service.odps.aliyun-inc.com/api&p=ump_ads_dev&i=20240117084247174gtsqd48vyvs3_d111f14b_6486_4429_836a_90c214b03a4e&token=bDlhNytNUWJoM0hCWUl0MjJpUGNTUW5ZOU9ZPSxPRFBTX09CTzoxODY2OTY1OTcxODQ2OTU4LDE3MDgwNzI5NzIseyJTdGF0ZW1lbnQiOlt7IkFjdGlvbiI6WyJvZHBzOlJlYWQiXSwiRWZmZWN0IjoiQWxsb3ciLCJSZXNvdXJjZSI6WyJhY3M6b2RwczoqOnByb2plY3RzL3VtcF9hZHNfZGV2L2luc3RhbmNlcy8yMDI0MDExNzA4NDI0NzE3NGd0c3FkNDh2eXZzM19kMTExZjE0Yl82NDg2XzQ0MjlfODM2YV85MGMyMTRiMDNhNGUiXX1dLCJWZXJzaW9uIjoiMSJ9

这是我跑的命令：pai -name easy_rec_ext -project algo_public

-Dversion='oppo_release'

-Dcmd=predict

-Dinput_table=odps://ump_ads_dev/tables/autoencoder_train_feature_dense_val_middle_did

-Doutput_table=odps://ump_ads_dev/tables/autoencoder_v1_all_0116_val_middle_predict

-Dcluster="{\"worker\":{\"count\": 40,\"gpu\":0,\"cpu\":1500,\"memory\":100000}}"

-Dbuckets="oss://rta-bucket/?role_arn=acs:ram::1078614756289401:role/rta-role&host=oss-cn-hangzhou-zmf-internal.aliyuncs.com"

-Dsaved_model_dir='oss://rta-bucket/autoencoder/v1_all_0116/export/best/'

-Doutput_cols='middle_embed string, output_feature string'

-Dreserved_cols='did'

-Dmodel_outputs="middle_embed,output_feature"

-Dbatch_size=1024

;

参考答案：

目录写错了，

关于本问题的更多回答可点击进行查看：

https://developer.aliyun.com/ask/591127

问题四：我的机器学习PAI的easyrec部署起不来了，这个是啥问题哟？

我的机器学习PAI的easyrec部署起不来了，这个是啥问题哟？

参考答案：

导出有问题，需要把export_config.multi_placeholder设成false

关于本问题的更多回答可点击进行查看：

https://developer.aliyun.com/ask/591123

问题五：想请教下机器学习PAI～编译的时候会报这块该怎么办呢？

想请教下机器学习PAI～

编译的时候会报

pairec_demo/src imports

github.com/alibaba/pairec: missing go.sum entry for module providing package github.com/alibaba/pairec (imported by pairec_demo/src);

然后go mod tidy

会报i/o 超时

这块该怎么办呢？

参考答案：

export GOPROXY=https://goproxy.cn,direct 设置这个环境变量再试下

关于本问题的更多回答可点击进行查看：

https://developer.aliyun.com/ask/589101

人工智能平台PAI操作报错合集之引用github.com/alibaba/pairec包时报错，该如何解决

问题一：机器学习PAI为啥这个多worker多卡会报错？

问题二：机器学习PAI跑训练报了这个错，可以帮忙看下原因嘛？

问题三：想请教一下机器学习PAI我跑predict时报这个错是什么原因？

问题四：我的机器学习PAI的easyrec部署起不来了，这个是啥问题哟？

问题五：想请教下机器学习PAI～编译的时候会报这块该怎么办呢？