问题一:机器学习PAI中baldeDISC编译出来的文件如何查看?
问题1:请教一下,机器学习PAI中baldeDISC编译出来的文件如何查看
想看看编译出来子图是什么样的。用netron打开.pb文件会报错,bladedisc在运行过程中可以dump graph吗?
问题2:dump编译过程是把编译日志打开,把日志存到文件里吗?
参考回答:
针对问题1的回答:disc编译完成后就是可执行代码,没有图了,运行的时候不是用图来解释执行的。编译的子图可以通过dump编译过程中的各个层级的IR来看。
针对问题2的回答:是的。
关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/507511?spm=5176.8068049.0.0.77566d1989YhJO
问题二:请教一下机器学习PAI问题,图片是什么原因导致的?
请教一下机器学习PAI问题,图片是什么原因导致的?
参考回答:
你的easyrec版本没有这个参数。
关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/507510?spm=5176.8068049.0.0.77566d1989YhJO
问题三:训练的时候是没问题的,所以为什么机器学习PAI会报错?
export的时候报错AttributeError: 'module' object has no attribute 'CounterFilterOptions'https://logview.aliyun.com/logview/?h=http://service.eu-central-1.maxcompute.aliyun-inc.com/api&p=ads_fenfa_dev&i=20230506011425127gzgsfqbs1_b1aa2659_e762_4800_b218_5a6bbc6f8020&token=MGd0b0RNR3l0UWVaVEh5L3pjRUNId2s4QTZVPSxPRFBTX09CTzpwNF8yOTkwNzA2MzYzNTYyMDA2MzcsMTY4NTkyNzY3Myx7IlN0YXRlbWVudCI6W3siQWN0aW9uIjpbIm9kcHM6UmVhZCJdLCJFZmZlY3QiOiJBbGxvdyIsIlJlc291cmNlIjpbImFjczpvZHBzOio6cHJvamVjdHMvYWRzX2ZlbmZhX2Rldi9pbnN0YW5jZXMvMjAyMzA1MDYwMTE0MjUxMjdnemdzZnFiczFfYjFhYTI2NTlfZTc2Ml80ODAwX2IyMThfNWE2YmJjNmY4MDIwIl19XSwiVmVyc2lvbiI6IjEifQ== 我的config文件加了一个参数: ev_params { filter_freq: 4 } 训练的时候是没问题的,所以为什么机器学习PAI会报错?
参考回答:
这个是参数是EmbeddingVariable 的。 File "/worker/tensorflow_jobs/easy_rec/python/compat/feature_column/feature_column_v2.py", line 3646, in _get_dense_tensor weight_collections, trainable) File "/worker/tensorflow_jobs/easy_rec/python/compat/feature_column/feature_column_v2.py", line 3557, in _old_get_dense_tensor_internal extra_args['filter_options'] = variables.CounterFilterOptions( AttributeError: 'module' object has no attribute 'CounterFilterOptions' 这段有问题。所以训练用的是tensorflow1150_cpu_ext,导出也得用tensorflow1150_cpu_ext ,如果1150也还是会有同样的错,那就是EasyRec版本不一致: ads_fenfa_dev/resources/easy_rec_ext_0.6.1_res.tar.gz"
关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/507509?spm=5176.8068049.0.0.77566d1989YhJO
问题四:在机器学习PAI过程中用编译GPU版本编译deeprec提示这个错误,编译GPU版本,怎么解决??
2 errors detected in the compilation of "tensorflow/core/framework/embedding/gpu_hash_table.cu.cc". ERROR: /DeepRec/tensorflow/core/BUILD:6040:1: output 'tensorflow/core/_objs/embedding_gpu/gpu_hash_table.cu.pic.o' was not created ERROR: /DeepRec/tensorflow/core/BUILD:6040:1: not all outputs were created or valid 在机器学习PAI过程中用编译GPU版本编译deeprec提示这个错误,编译GPU版本,怎么解决??
参考回答:
这个错误提示可能是GPU版本编译DeepRec时缺少依赖导致的。你可以尝试按照以下步骤解决该问题:
检查是否安装了CUDA和cuDNN。在使用GPU进行深度学习训练时,需要安装CUDA和cuDNN并正确配置相关环境变量。你可以检查是否已经正确地安装和配置了这些组件。
检查TensorFlow版本和DeepRec代码是否兼容。确保你正在使用与DeepRec代码兼容的TensorFlow版本。有时候,DeepRec的某些版本可能只支持特定版本的TensorFlow库,因此建议检查一下DeepRec的文档或者代码中是否有关于TensorFlow版本的说明。
更新TensorFlow和DeepRec代码。如果当前使用的TensorFlow和DeepRec版本过旧,则可能会出现编译错误。你可以尝试更新TensorFlow和DeepRec的代码以最新版本来解决问题。
确认PAI训练环境是否支持GPU。确认PAI训练环境是否支持GPU。如果不支持GPU,那么你需要将代码修改为CPU版本。否则,如果确实支持GPU,请检查你的运行脚本是否正确设置了--gpu参数。
如果以上方法无法解决问题,建议检查你所使用的深度学习框架的官方文档、日志或者向社区提问以获得更具体的解答。
关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/507507?spm=5176.8068049.0.0.77566d1989YhJO