人工智能平台PAI问题之编译deeprec错误如何解决-阿里云开发者社区

人工智能平台PAI问题之编译deeprec错误如何解决

2024-02-24 365

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 人工智能平台PAI是指阿里云提供的机器学习平台服务，支持建模、训练和部署机器学习模型；本合集将介绍机器学习PAI的功能和操作流程，以及在使用过程中遇到的问题和解决方案。

问题一：机器学习PAI中baldeDISC编译出来的文件如何查看？

问题1：请教一下，机器学习PAI中baldeDISC编译出来的文件如何查看

想看看编译出来子图是什么样的。用netron打开.pb文件会报错，bladedisc在运行过程中可以dump graph吗？

问题2：dump编译过程是把编译日志打开，把日志存到文件里吗？

参考回答：

针对问题1的回答：disc编译完成后就是可执行代码，没有图了，运行的时候不是用图来解释执行的。编译的子图可以通过dump编译过程中的各个层级的IR来看。

针对问题2的回答：是的。

关于本问题的更多回答可点击原文查看：https://developer.aliyun.com/ask/507511?spm=5176.8068049.0.0.77566d1989YhJO

问题二：请教一下机器学习PAI问题，图片是什么原因导致的？

请教一下机器学习PAI问题，图片是什么原因导致的？

参考回答：

你的easyrec版本没有这个参数。

关于本问题的更多回答可点击原文查看：https://developer.aliyun.com/ask/507510?spm=5176.8068049.0.0.77566d1989YhJO

问题三：训练的时候是没问题的，所以为什么机器学习PAI会报错？

export的时候报错AttributeError: 'module' object has no attribute 'CounterFilterOptions'https://logview.aliyun.com/logview/?h=http://service.eu-central-1.maxcompute.aliyun-inc.com/api&p=ads_fenfa_dev&i=20230506011425127gzgsfqbs1_b1aa2659_e762_4800_b218_5a6bbc6f8020&token=MGd0b0RNR3l0UWVaVEh5L3pjRUNId2s4QTZVPSxPRFBTX09CTzpwNF8yOTkwNzA2MzYzNTYyMDA2MzcsMTY4NTkyNzY3Myx7IlN0YXRlbWVudCI6W3siQWN0aW9uIjpbIm9kcHM6UmVhZCJdLCJFZmZlY3QiOiJBbGxvdyIsIlJlc291cmNlIjpbImFjczpvZHBzOio6cHJvamVjdHMvYWRzX2ZlbmZhX2Rldi9pbnN0YW5jZXMvMjAyMzA1MDYwMTE0MjUxMjdnemdzZnFiczFfYjFhYTI2NTlfZTc2Ml80ODAwX2IyMThfNWE2YmJjNmY4MDIwIl19XSwiVmVyc2lvbiI6IjEifQ== 我的config文件加了一个参数： ev_params { filter_freq: 4 } 训练的时候是没问题的，所以为什么机器学习PAI会报错？

参考回答：

这个是参数是EmbeddingVariable 的。 File "/worker/tensorflow_jobs/easy_rec/python/compat/feature_column/feature_column_v2.py", line 3646, in _get_dense_tensor weight_collections, trainable) File "/worker/tensorflow_jobs/easy_rec/python/compat/feature_column/feature_column_v2.py", line 3557, in _old_get_dense_tensor_internal extra_args['filter_options'] = variables.CounterFilterOptions( AttributeError: 'module' object has no attribute 'CounterFilterOptions' 这段有问题。所以训练用的是tensorflow1150_cpu_ext，导出也得用tensorflow1150_cpu_ext ，如果1150也还是会有同样的错，那就是EasyRec版本不一致: ads_fenfa_dev/resources/easy_rec_ext_0.6.1_res.tar.gz"

关于本问题的更多回答可点击原文查看：https://developer.aliyun.com/ask/507509?spm=5176.8068049.0.0.77566d1989YhJO

问题四：在机器学习PAI过程中用编译GPU版本编译deeprec提示这个错误，编译GPU版本，怎么解决？？

2 errors detected in the compilation of "tensorflow/core/framework/embedding/gpu_hash_table.cu.cc". ERROR: /DeepRec/tensorflow/core/BUILD:6040:1: output 'tensorflow/core/_objs/embedding_gpu/gpu_hash_table.cu.pic.o' was not created ERROR: /DeepRec/tensorflow/core/BUILD:6040:1: not all outputs were created or valid 在机器学习PAI过程中用编译GPU版本编译deeprec提示这个错误，编译GPU版本，怎么解决？？

参考回答：

这个错误提示可能是GPU版本编译DeepRec时缺少依赖导致的。你可以尝试按照以下步骤解决该问题：

检查是否安装了CUDA和cuDNN。在使用GPU进行深度学习训练时，需要安装CUDA和cuDNN并正确配置相关环境变量。你可以检查是否已经正确地安装和配置了这些组件。

检查TensorFlow版本和DeepRec代码是否兼容。确保你正在使用与DeepRec代码兼容的TensorFlow版本。有时候，DeepRec的某些版本可能只支持特定版本的TensorFlow库，因此建议检查一下DeepRec的文档或者代码中是否有关于TensorFlow版本的说明。

更新TensorFlow和DeepRec代码。如果当前使用的TensorFlow和DeepRec版本过旧，则可能会出现编译错误。你可以尝试更新TensorFlow和DeepRec的代码以最新版本来解决问题。

确认PAI训练环境是否支持GPU。确认PAI训练环境是否支持GPU。如果不支持GPU，那么你需要将代码修改为CPU版本。否则，如果确实支持GPU，请检查你的运行脚本是否正确设置了--gpu参数。

如果以上方法无法解决问题，建议检查你所使用的深度学习框架的官方文档、日志或者向社区提问以获得更具体的解答。

关于本问题的更多回答可点击原文查看：https://developer.aliyun.com/ask/507507?spm=5176.8068049.0.0.77566d1989YhJO

人工智能平台PAI问题之编译deeprec错误如何解决

问题一：机器学习PAI中baldeDISC编译出来的文件如何查看？

问题二：请教一下机器学习PAI问题，图片是什么原因导致的？

问题三：训练的时候是没问题的，所以为什么机器学习PAI会报错？

问题四：在机器学习PAI过程中用编译GPU版本编译deeprec提示这个错误，编译GPU版本，怎么解决？？

人工智能平台PAI

热门文章

最新文章

相关产品

相关课程

相关电子书

相关实验场景