人工智能平台PAI操作报错合集之带有all reduce 的算子是trace不出来的，结果会错，怎么才可以绕过去-阿里云开发者社区

人工智能平台PAI操作报错合集之带有all reduce 的算子是trace不出来的，结果会错，怎么才可以绕过去

2024-06-11 98

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

交互式建模 PAI-DSW，每月250计算时 3个月

模型训练 PAI-DLC，100CU*H 3个月

模型在线服务 PAI-EAS，A10/V100等 500元 1个月

简介： 阿里云人工智能平台PAI (Platform for Artificial Intelligence) 是阿里云推出的一套全面、易用的机器学习和深度学习平台，旨在帮助企业、开发者和数据科学家快速构建、训练、部署和管理人工智能模型。在使用阿里云人工智能平台PAI进行操作时，可能会遇到各种类型的错误。以下列举了一些常见的报错情况及其可能的原因和解决方法。

问题一：机器学习PAI这个错误有空能帮忙看下吗?

机器学习PAI这个错误有空能帮忙看下吗?INFO: Found 7 targets...

ERROR: /root/.cache/bazel/_bazel_root/2f9436f914163304d24e844a3ddc3a23/external/tensorrt/BUILD:18:11: Middleman _middlemen/@tensorrt_S_S_Cnvinfer_Uheaders-cc_library-compile failed: missing input file '@tensorrt//:include/NvUtils.h'

ERROR: /root/.cache/bazel/_bazel_root/2f9436f914163304d24e844a3ddc3a23/external/tensorrt/BUILD:18:11 Middleman _middlemen/@tensorrt_S_S_Cnvinfer_Uheaders-cc_library-compile failed: 1 input file(s) do not exist

INFO: Elapsed time: 2.172s, Critical Path: 0.00s

INFO: 2 processes: 2 internal.

FAILED: Build did NOT complete successfully

参考回答：

看起来环境里没有 tensorrt,建议还是用disc 的开发镜像，那个环境是经过 CI 验证的

关于本问题的更多回答可点击原文查看：

https://developer.aliyun.com/ask/582112

问题二：机器学习PAI一条数据也会报错，什么原因?

机器学习PAI一条数据也会报错?

这个是odps表建表语句

CREATE TABLE IF NOT EXISTS label_knowl_user_training_table_dev_2(

label STRING,

user_sex STRING,

user_organization_group STRING,

user_organization_job_group STRING,

user_knowl_count STRING,

user_points STRING,

user_contribute STRING,

knowl_author_group STRING,

knowl_defind_tag_group STRING,

knowl_feaktm_tags STRING,

knowl_pro_tags STRING,

knowl_organization_group STRING,

knowl_hot STRING,

knowl_view_count STRING,

knowl_reply_count STRING,

knowl_like_count STRING,

knowl_favorite_count STRING,

user_register_at STRING,

user_pr_birthday STRING,

knowl_first_publish_time STRING,

knowl_publish_time STRING,

knowl_vec STRING)

STORED AS ALIORC ;

参考回答：

你的第 10 个特征的特征值，和你在 EasyRec config 里面的定义,你的第 10 个特征里面没有 kv_separator 吧

关于本问题的更多回答可点击原文查看：

https://developer.aliyun.com/ask/582125

问题三：机器学习PAI现在带有all reduce 的算子是trace不出来的？结果会错？有办法绕过去吗？

机器学习PAI现在带有all reduce 的算子是trace不出来的，结果会错，有办法绕过去吗？如果只想融合下算子，除了aot autograd，还有其他方式吗？

参考回答：

如果是只是想测下 fusion，直接用就可以了，dynamo 在 trace 的时候会 break 掉 collective ops。但社区已经在解决这个问题了，比如这个 RFC：https://github.com/pytorch/pytorch/issues/93173 ，以及这个 unit test：https://github.com/pytorch/pytorch/blob/main/test/distributed/test_inductor_collectives.py 。

关于本问题的更多回答可点击原文查看：

https://developer.aliyun.com/ask/582108

问题四：机器学习PAI我可以直接用类似这种格式的数据训练带FG功能的模型吗？

机器学习PAI我可以直接用类似这种格式的数据训练带FG功能的模型吗？

因为我之前训练的模型，部署的时候，当设置"fg_mode": "bypass" 的时候，是可以部署成功的，但是设置成"fg_mode": "tf"以后，部署时就会报 Failed to load optimized model 的错误所以我想知道，训练模型的时候，训练数据就必须是你们表格中的那种格式吗?

参考回答：

"fg_mode": "bypass" 这个模式就相当于直接部署EAS 的 tensorflow processor；并不能利用用 EasyRecProcessor的额外优势。如果就只是想使用TF的推理服务的话，建议还是直接部署 TF Processor；如果想使用 EasyRecProcessor，一般的流程是要使用FG的，这种情况下目前训练数据是必须要处理成第一个图中的 big string的格式后面我们也可能会支持直接从原始table训练支持FG功能的模型；目前还不支持。

关于本问题的更多回答可点击原文查看：

https://developer.aliyun.com/ask/580116

问题五：机器学习PAI日志中明明上面已经显示savemodelload成功，后面又loadmodel失败呢？

机器学习PAI日志中明明上面已经显示savemodel load成功，后面又load model失败呢？

参考回答：

你没有配item特征表 INVALID_ARGUMENT: Parse fg json config failed .fg.json 要放在 saved_model的目录 asserts 下面

你的json格式有问题 Parse FgConfig from file failed: /larec/build/3rdparty/include/autil/legacy/any.h(112): BadAnyCast: autil::legacy::AnyCast: can't cast from N5autil 6legacy4json10JsonNumberE to Ss, content is 0

关于本问题的更多回答可点击原文查看：

https://developer.aliyun.com/ask/580776

人工智能平台PAI操作报错合集之带有all reduce 的算子是trace不出来的，结果会错，怎么才可以绕过去

问题一：机器学习PAI这个错误有空能帮忙看下吗?

问题二：机器学习PAI一条数据也会报错，什么原因?

问题三：机器学习PAI现在带有all reduce 的算子是trace不出来的？结果会错？有办法绕过去吗？

问题四：机器学习PAI我可以直接用类似这种格式的数据训练带FG功能的模型吗？

问题五：机器学习PAI日志中明明上面已经显示savemodelload成功，后面又loadmodel失败呢？

人工智能平台PAI

热门文章

最新文章

相关产品

相关课程

相关电子书

相关实验场景