问题一:机器学习PAI这个错误有空能帮忙看下吗?
机器学习PAI这个错误有空能帮忙看下吗?INFO: Found 7 targets...
ERROR: /root/.cache/bazel/_bazel_root/2f9436f914163304d24e844a3ddc3a23/external/tensorrt/BUILD:18:11: Middleman _middlemen/@tensorrt_S_S_Cnvinfer_Uheaders-cc_library-compile failed: missing input file '@tensorrt//:include/NvUtils.h'
ERROR: /root/.cache/bazel/_bazel_root/2f9436f914163304d24e844a3ddc3a23/external/tensorrt/BUILD:18:11: Middleman _middlemen/@tensorrt_S_S_Cnvinfer_Uheaders-cc_library-compile failed: 1 input file(s) do not exist
ERROR: /root/.cache/bazel/_bazel_root/2f9436f914163304d24e844a3ddc3a23/external/tensorrt/BUILD:18:11 Middleman _middlemen/@tensorrt_S_S_Cnvinfer_Uheaders-cc_library-compile failed: 1 input file(s) do not exist
INFO: Elapsed time: 2.172s, Critical Path: 0.00s
INFO: 2 processes: 2 internal.
FAILED: Build did NOT complete successfully
参考回答:
看起来环境里没有 tensorrt,建议还是用disc 的开发镜像, 那个环境是经过 CI 验证的
关于本问题的更多回答可点击原文查看:
https://developer.aliyun.com/ask/582112
问题二:机器学习PAI一条数据也会报错,什么原因?
机器学习PAI一条数据也会报错?
这个是odps表建表语句
CREATE TABLE IF NOT EXISTS label_knowl_user_training_table_dev_2(
label
STRING,
user_sex STRING,
user_organization_group STRING,
user_organization_job_group STRING,
user_knowl_count STRING,
user_points STRING,
user_contribute STRING,
knowl_author_group STRING,
knowl_defind_tag_group STRING,
knowl_feaktm_tags STRING,
knowl_pro_tags STRING,
knowl_organization_group STRING,
knowl_hot STRING,
knowl_view_count STRING,
knowl_reply_count STRING,
knowl_like_count STRING,
knowl_favorite_count STRING,
user_register_at STRING,
user_pr_birthday STRING,
knowl_first_publish_time STRING,
knowl_publish_time STRING,
knowl_vec STRING)
STORED AS ALIORC ;
参考回答:
你的 第 10 个特征的特征值,和你在 EasyRec config 里面的定义,你的第 10 个特征里面没有 kv_separator 吧
关于本问题的更多回答可点击原文查看:
https://developer.aliyun.com/ask/582125
问题三:机器学习PAI现在带有all reduce 的算子是trace不出来的?结果会错?有办法绕过去吗?
机器学习PAI现在带有all reduce 的算子是trace不出来的,结果会错,有办法绕过去吗? 如果只想融合下算子 ,除了aot autograd,还有其他方式吗?
参考回答:
如果是只是想测下 fusion,直接用就可以了,dynamo 在 trace 的时候会 break 掉 collective ops。 但社区已经在解决这个问题了,比如这个 RFC:https://github.com/pytorch/pytorch/issues/93173 ,以及这个 unit test:https://github.com/pytorch/pytorch/blob/main/test/distributed/test_inductor_collectives.py 。
关于本问题的更多回答可点击原文查看:
https://developer.aliyun.com/ask/582108
问题四:机器学习PAI我可以直接用类似这种格式的数据训练带FG功能的模型吗?
机器学习PAI我可以直接用类似这种格式的数据训练带FG功能的模型吗?
因为我之前训练的模型,部署的时候,当设置"fg_mode": "bypass" 的时候,是可以部署成功的,但是设置成"fg_mode": "tf"以后,部署时就会报 Failed to load optimized model 的错误 所以我想知道,训练模型的时候,训练数据就必须是你们表格中的那种格式吗?
参考回答:
"fg_mode": "bypass" 这个模式就相当于直接部署EAS 的 tensorflow processor; 并不能利用用 EasyRecProcessor的额外优势。如果就只是想使用TF的推理服务的话,建议还是直接部署 TF Processor; 如果想使用 EasyRecProcessor, 一般的流程是要使用FG的,这种情况下目前训练数据是必须要处理成 第一个图中的 big string的格式 后面我们也可能会支持直接从原始table训练支持FG功能的模型;目前还不支持 。
关于本问题的更多回答可点击原文查看:
https://developer.aliyun.com/ask/580116
问题五:机器学习PAI日志中明明上面已经显示savemodelload成功,后面又loadmodel失败呢?
机器学习PAI日志中明明上面已经显示savemodel load成功,后面又load model失败呢?
参考回答:
你没有配item特征表 INVALID_ARGUMENT: Parse fg json config failed .fg.json 要放在 saved_model的目录 asserts 下面
你的json格式有问题 Parse FgConfig from file failed: /larec/build/3rdparty/include/autil/legacy/any.h(112): BadAnyCast: autil::legacy::AnyCast: can't cast from N5autil 6legacy4json10JsonNumberE to Ss, content is 0
关于本问题的更多回答可点击原文查看: