机器学习PAI报错问题之配了tf_config开启训练报错如何解决-阿里云开发者社区

机器学习PAI报错问题之配了tf_config开启训练报错如何解决

2024-02-25 85 发布于安徽

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

模型训练 PAI-DLC，100CU*H 3个月

交互式建模 PAI-DSW，每月250计算时 3个月

模型在线服务 PAI-EAS，A10/V100等 500元 1个月

简介： 人工智能平台PAI是是面向开发者和企业的机器学习/深度学习工程平台，提供包含数据标注、模型构建、模型训练、模型部署、推理优化在内的AI开发全链路服务；本合集将收录PAI常见的报错信息和解决策略，帮助用户迅速定位问题并采取相应措施，确保机器学习项目的顺利推进。

问题一：机器学习PAI有大佬知道这个报错怎么解决吗？评估的时候报错!

问题1：机器学习PAI有大佬知道这个报错怎么解决吗？评估的时候报错

问题2：这种问题怎么进一步定位是哪个数据有问题

参考答案：

回答1：一般是tfrecord数据有问题

回答2：一般不是格式问题，就是tfrecord文件写的时候程序不正常，写一半异常终止了，或者文件系统的错误，导致无法解析

关于本问题的更多回答可点击进行查看：

https://developer.aliyun.com/ask/537514?spm=a2c6h.13066369.question.28.4d7868a2FQH6OT&scm=20140722.S_community@@%E9%97%AE%E7%AD%94@@537514._.ID_537514-RL_%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0PAI%E6%8A%A5%E9%94%99-LOC_m~UND~search~UND~community~UND~i-OR_ser-V_3-P0_9

问题二：机器学习PAI中model scope 部署到PAI上，Python sdk 报错？

机器学习PAI中model scope 部署到PAI上，Python sdk 报错？https://help.aliyun.com/zh/pai/use-cases/deploy-huggingface-and-modelscope-service-applications-with-one-click-of?spm=a2c4g.11186623.0.i0#790dec242a083![image.png](https://ucc.alicdn.com/pic/developer-ecology/wyvq5mjsckydw_f764e7f303144545b148b2e3c0a067ec.png)在线调试可以跑通![image.png](https://ucc.alicdn.com/pic/developer-ecology/wyvq5mjsckydw_e8e8ece2919641369288773c72bbd54e.png)

参考答案：

这个如果部署时选了ai-web应用的话，我们的sdk暂时还不支持这种链接的形式，有两个方法解决：1. 使用普通的客户端调用，比如：

import requests

import json

service_url = 'YOUR_SERVICE_URL'

token = 'TOKEN'

data = {"input": {"source_sentence": "你好"}}

result = requests.post(service_url, headers={"Authorization": token}, data=json.dumps(data))

print(json.loads(result.text))

部署的时候可以不选ai-web应用，选择镜像部署；

我们的sdk会尽快支持这个情况

关于本问题的更多回答可点击进行查看：

https://developer.aliyun.com/ask/558209?spm=a2c6h.13066369.question.29.4d7868a2BGZxGF&scm=20140722.S_community@@%E9%97%AE%E7%AD%94@@558209._.ID_558209-RL_%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0PAI%E6%8A%A5%E9%94%99-LOC_m~UND~search~UND~community~UND~i-OR_ser-V_3-P0_10

问题三：麻烦问下机器学习PAI，本地单机训练没问题，配了tf_config开启训练报这个错大概是啥问题？

tensorflow.python.framework.errors_impl.OperatorNotAllowedInGraphError: using a tf.Tensor as a Python bool is not allowed in Graph execution. Use Eager execution or decorate this function with @tf.function.

Exception ignored in: >

Traceback (most recent call last):

File "/venv/lib/python3.6/site-packages/tensorflow_core/python/training/server_lib.py", line 158, in del

AttributeError: 'NoneType' object has no attribute 'UnimplementedError'

麻烦问下机器学习PAI，本地单机训练没问题，配了tf_config开启train_distribute: PSStrategy训练报这个错大概是啥问题？

参考答案：

多机的地址要先自己配置好的，默认值是个示例

关于本问题的更多回答可点击进行查看：

https://developer.aliyun.com/ask/532224?spm=a2c6h.13066369.question.30.4d7868a2zGbQKD&scm=20140722.S_community@@%E9%97%AE%E7%AD%94@@532224._.ID_community@@%E9%97%AE%E7%AD%94@@532224-RL_%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0PAI%E6%8A%A5%E9%94%99-LOC_llm-OR_ser-V_3-P0_30

问题四：机器学习PAI是这样改吗？我把tar包传到oss上了，还是报一样的错

机器学习PAI是这样改吗？我把tar包传到oss上了，还是报一样的错

关于本问题的更多回答可点击进行查看：

https://developer.aliyun.com/ask/552511?spm=a2c6h.13066369.question.29.4d7868a2vllB73&scm=20140722.S_community@@%E9%97%AE%E7%AD%94@@552511._.ID_community@@%E9%97%AE%E7%AD%94@@552511-RL_%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0PAI%E6%8A%A5%E9%94%99-LOC_llm-OR_ser-V_3-P0_31

问题五：机器学习PAI-EAS部署的服务报CrashLoopBackOff错误如何处理

机器学习PAI-EAS部署的服务报CrashLoopBackOff错误如何处理

参考答案：

CrashLoopBackOff错误的原因是EAS框架的library与使用的library有符号冲突

注：2022-8-5 杭州地域已全量上线新版本，其他区域暂未发布全量。常见问题请参考PAI-EAS常见问题

关于本问题的更多回答可点击进行查看：

https://developer.aliyun.com/ask/475897?spm=a2c6h.13066369.question.30.4d7868a2a73VQG&scm=20140722.S_community@@%E9%97%AE%E7%AD%94@@475897._.ID_community@@%E9%97%AE%E7%AD%94@@475897-RL_%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0PAI%E6%8A%A5%E9%94%99-LOC_llm-OR_ser-V_3-P0_32

问题六：机器学习PAI使用序列特征是要保证等长吗？我这里报tensor shape的错误

机器学习PAI使用序列特征是要保证等长吗？我这里报tensor shape的错误

参考答案：

是的，要确保序列长度相同，大多数深度学习模型要求输入数据具有相同的维度和形状。可以使用一些方法来确保所有的序列具有相同的长度，比如填充序列，截断序列。

关于本问题的更多回答可点击进行查看：

https://developer.aliyun.com/ask/506099?spm=a2c6h.13066369.question.31.4d7868a2Qd9NHt&scm=20140722.S_community@@%E9%97%AE%E7%AD%94@@506099._.ID_community@@%E9%97%AE%E7%AD%94@@506099-RL_%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0PAI%E6%8A%A5%E9%94%99-LOC_llm-OR_ser-V_3-P0_36

机器学习PAI报错问题之配了tf_config开启训练报错如何解决

问题一：机器学习PAI有大佬知道这个报错怎么解决吗？评估的时候报错!

问题二：机器学习PAI中model scope 部署到PAI上，Python sdk 报错？

问题三：麻烦问下机器学习PAI，本地单机训练没问题，配了tf_config开启训练报这个错大概是啥问题？

问题四：机器学习PAI是这样改吗？我把tar包传到oss上了，还是报一样的错

问题五：机器学习PAI-EAS部署的服务报CrashLoopBackOff错误如何处理

问题六：机器学习PAI使用序列特征是要保证等长吗？我这里报tensor shape的错误

人工智能平台PAI

热门文章

最新文章

相关产品

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

机器学习PAI报错问题之配了tf_config开启训练报错如何解决

问题一：机器学习PAI有大佬知道这个报错怎么解决吗？评估的时候报错!

问题二：机器学习PAI中model scope 部署到PAI上，Python sdk 报错？

问题三：麻烦问下机器学习PAI，本地单机训练没问题，配了tf_config开启训练报这个错大概是啥问题？

问题四：机器学习PAI是这样改吗？我把tar包传到oss上了，还是报一样的错

问题五：机器学习PAI-EAS部署的服务报CrashLoopBackOff错误如何处理

问题六：机器学习PAI使用序列特征是要保证等长吗？我这里报tensor shape的错误

人工智能平台PAI

热门文章

最新文章

相关产品

相关课程

相关电子书

相关实验场景