人工智能平台PAI问题之编译deeprec错误如何解决

本文涉及的产品
模型训练 PAI-DLC,100CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: 人工智能平台PAI是指阿里云提供的机器学习平台服务,支持建模、训练和部署机器学习模型;本合集将介绍机器学习PAI的功能和操作流程,以及在使用过程中遇到的问题和解决方案。

问题一:机器学习PAI中baldeDISC编译出来的文件如何查看?


问题1:请教一下,机器学习PAI中baldeDISC编译出来的文件如何查看



想看看编译出来子图是什么样的。用netron打开.pb文件会报错,bladedisc在运行过程中可以dump graph吗?

问题2:dump编译过程是把编译日志打开,把日志存到文件里吗?


参考回答:

针对问题1的回答:disc编译完成后就是可执行代码,没有图了,运行的时候不是用图来解释执行的。编译的子图可以通过dump编译过程中的各个层级的IR来看。

针对问题2的回答:是的。


关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/507511?spm=5176.8068049.0.0.77566d1989YhJO


问题二:请教一下机器学习PAI问题,图片是什么原因导致的?



请教一下机器学习PAI问题,图片是什么原因导致的?


参考回答:

你的easyrec版本没有这个参数。


关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/507510?spm=5176.8068049.0.0.77566d1989YhJO


问题三:训练的时候是没问题的,所以为什么机器学习PAI会报错?


export的时候报错AttributeError: 'module' object has no attribute 'CounterFilterOptions'https://logview.aliyun.com/logview/?h=http://service.eu-central-1.maxcompute.aliyun-inc.com/api&p=ads_fenfa_dev&i=20230506011425127gzgsfqbs1_b1aa2659_e762_4800_b218_5a6bbc6f8020&token=MGd0b0RNR3l0UWVaVEh5L3pjRUNId2s4QTZVPSxPRFBTX09CTzpwNF8yOTkwNzA2MzYzNTYyMDA2MzcsMTY4NTkyNzY3Myx7IlN0YXRlbWVudCI6W3siQWN0aW9uIjpbIm9kcHM6UmVhZCJdLCJFZmZlY3QiOiJBbGxvdyIsIlJlc291cmNlIjpbImFjczpvZHBzOio6cHJvamVjdHMvYWRzX2ZlbmZhX2Rldi9pbnN0YW5jZXMvMjAyMzA1MDYwMTE0MjUxMjdnemdzZnFiczFfYjFhYTI2NTlfZTc2Ml80ODAwX2IyMThfNWE2YmJjNmY4MDIwIl19XSwiVmVyc2lvbiI6IjEifQ== 我的config文件加了一个参数: ev_params { filter_freq: 4 } 训练的时候是没问题的,所以为什么机器学习PAI会报错?


参考回答:

这个是参数是EmbeddingVariable 的。 File "/worker/tensorflow_jobs/easy_rec/python/compat/feature_column/feature_column_v2.py", line 3646, in _get_dense_tensor weight_collections, trainable) File "/worker/tensorflow_jobs/easy_rec/python/compat/feature_column/feature_column_v2.py", line 3557, in _old_get_dense_tensor_internal extra_args['filter_options'] = variables.CounterFilterOptions( AttributeError: 'module' object has no attribute 'CounterFilterOptions' 这段有问题。所以训练用的是tensorflow1150_cpu_ext,导出也得用tensorflow1150_cpu_ext ,如果1150也还是会有同样的错,那就是EasyRec版本不一致: ads_fenfa_dev/resources/easy_rec_ext_0.6.1_res.tar.gz"


关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/507509?spm=5176.8068049.0.0.77566d1989YhJO


问题四:在机器学习PAI过程中用编译GPU版本编译deeprec提示这个错误,编译GPU版本,怎么解决??


2 errors detected in the compilation of "tensorflow/core/framework/embedding/gpu_hash_table.cu.cc". ERROR: /DeepRec/tensorflow/core/BUILD:6040:1: output 'tensorflow/core/_objs/embedding_gpu/gpu_hash_table.cu.pic.o' was not created ERROR: /DeepRec/tensorflow/core/BUILD:6040:1: not all outputs were created or valid 在机器学习PAI过程中用编译GPU版本编译deeprec提示这个错误,编译GPU版本,怎么解决??


参考回答:

这个错误提示可能是GPU版本编译DeepRec时缺少依赖导致的。你可以尝试按照以下步骤解决该问题:

检查是否安装了CUDA和cuDNN。在使用GPU进行深度学习训练时,需要安装CUDA和cuDNN并正确配置相关环境变量。你可以检查是否已经正确地安装和配置了这些组件。

检查TensorFlow版本和DeepRec代码是否兼容。确保你正在使用与DeepRec代码兼容的TensorFlow版本。有时候,DeepRec的某些版本可能只支持特定版本的TensorFlow库,因此建议检查一下DeepRec的文档或者代码中是否有关于TensorFlow版本的说明。

更新TensorFlow和DeepRec代码。如果当前使用的TensorFlow和DeepRec版本过旧,则可能会出现编译错误。你可以尝试更新TensorFlow和DeepRec的代码以最新版本来解决问题。

确认PAI训练环境是否支持GPU。确认PAI训练环境是否支持GPU。如果不支持GPU,那么你需要将代码修改为CPU版本。否则,如果确实支持GPU,请检查你的运行脚本是否正确设置了--gpu参数。

如果以上方法无法解决问题,建议检查你所使用的深度学习框架的官方文档、日志或者向社区提问以获得更具体的解答。


关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/507507?spm=5176.8068049.0.0.77566d1989YhJO

相关实践学习
使用PAI-EAS一键部署ChatGLM及LangChain应用
本场景中主要介绍如何使用模型在线服务(PAI-EAS)部署ChatGLM的AI-Web应用以及启动WebUI进行模型推理,并通过LangChain集成自己的业务数据。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
1月前
|
机器学习/深度学习 人工智能 物联网
通义灵码在人工智能与机器学习领域的应用
通义灵码不仅在物联网领域表现出色,还在人工智能、机器学习、金融、医疗和教育等领域展现出广泛应用前景。本文探讨了其在这些领域的具体应用,如模型训练、风险评估、医疗影像诊断等,并总结了其提高开发效率、降低门槛、促进合作和推动创新的优势。
通义灵码在人工智能与机器学习领域的应用
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
人工智能与机器学习:探索未来的技术边界
【10月更文挑战第18天】 在这篇文章中,我们将深入探讨人工智能(AI)和机器学习(ML)的基础知识、应用领域以及未来趋势。通过对比分析,我们将揭示这些技术如何改变我们的生活和工作方式,并预测它们在未来可能带来的影响。文章旨在为读者提供一个全面而深入的理解,帮助他们更好地把握这一领域的发展趋势。
|
9天前
|
机器学习/深度学习 传感器 人工智能
人工智能与机器学习:改变未来的力量####
【10月更文挑战第21天】 在本文中,我们将深入探讨人工智能(AI)和机器学习(ML)的基本概念、发展历程及其在未来可能带来的革命性变化。通过分析当前最前沿的技术和应用案例,揭示AI和ML如何正在重塑各行各业,并展望它们在未来十年的潜在影响。 ####
68 27
|
27天前
|
机器学习/深度学习 人工智能 监控
AutoTrain:Hugging Face 开源的无代码模型训练平台
AutoTrain 是 Hugging Face 推出的开源无代码模型训练平台,旨在简化最先进模型的训练过程。用户无需编写代码,只需上传数据即可创建、微调和部署自己的 AI 模型。AutoTrain 支持多种机器学习任务,并提供自动化最佳实践,包括超参数调整、模型验证和分布式训练。
112 4
AutoTrain:Hugging Face 开源的无代码模型训练平台
|
22天前
|
机器学习/深度学习 人工智能 算法
人工智能浪潮下的编程实践:构建你的第一个机器学习模型
在人工智能的巨浪中,每个人都有机会成为弄潮儿。本文将带你一探究竟,从零基础开始,用最易懂的语言和步骤,教你如何构建属于自己的第一个机器学习模型。不需要复杂的数学公式,也不必担心编程难题,只需跟随我们的步伐,一起探索这个充满魔力的AI世界。
39 12
|
1月前
|
机器学习/深度学习 人工智能 算法
人工智能与机器学习的融合之旅
【10月更文挑战第37天】本文将探讨AI和机器学习如何相互交织,共同推动技术发展的边界。我们将深入分析这两个概念,了解它们是如何互相影响,以及这种融合如何塑造我们的未来。文章不仅会揭示AI和机器学习之间的联系,还会通过实际案例展示它们如何协同工作,以解决现实世界的问题。
|
1月前
|
机器学习/深度学习 人工智能 算法
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
手写数字识别系统,使用Python作为主要开发语言,基于深度学习TensorFlow框架,搭建卷积神经网络算法。并通过对数据集进行训练,最后得到一个识别精度较高的模型。并基于Flask框架,开发网页端操作平台,实现用户上传一张图片识别其名称。
90 0
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
|
23天前
|
机器学习/深度学习 人工智能 算法
探索人工智能与机器学习的融合之路
在本文中,我们将探讨人工智能(AI)与机器学习(ML)之间的紧密联系以及它们如何共同推动技术革新。我们将深入分析这两种技术的基本概念、发展历程和当前的应用趋势,同时讨论它们面临的挑战和未来的发展方向。通过具体案例研究,我们旨在揭示AI与ML结合的强大潜力,以及这种结合如何为各行各业带来革命性的变化。
37 0
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
探索人工智能与机器学习的边界####
本文深入探讨了人工智能(AI)与机器学习(ML)领域的最新进展,重点分析了深度学习技术如何推动AI的边界不断扩展。通过具体案例研究,揭示了这些技术在图像识别、自然语言处理和自动驾驶等领域的应用现状及未来趋势。同时,文章还讨论了当前面临的挑战,如数据隐私、算法偏见和可解释性问题,并提出了相应的解决策略。 ####
|
1月前
|
机器学习/深度学习 数据采集 人工智能
人工智能与机器学习:解锁数据洞察力的钥匙
人工智能与机器学习:解锁数据洞察力的钥匙

热门文章

最新文章

相关产品

  • 人工智能平台 PAI