机器学习PAI报错问题之配了tf_config开启训练报错如何解决

本文涉及的产品
模型训练 PAI-DLC,100CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: 人工智能平台PAI是是面向开发者和企业的机器学习/深度学习工程平台,提供包含数据标注、模型构建、模型训练、模型部署、推理优化在内的AI开发全链路服务;本合集将收录PAI常见的报错信息和解决策略,帮助用户迅速定位问题并采取相应措施,确保机器学习项目的顺利推进。

问题一:机器学习PAI有大佬知道这个报错怎么解决吗?评估的时候报错!

问题1:机器学习PAI有大佬知道这个报错怎么解决吗?评估的时候报错

问题2:这种问题怎么进一步定位是哪个数据有问题



参考答案:

回答1:一般是tfrecord数据有问题

回答2:一般不是格式问题,就是tfrecord文件写的时候程序不正常,写一半异常终止了,或者文件系统的错误,导致无法解析



关于本问题的更多回答可点击进行查看:

https://developer.aliyun.com/ask/537514?spm=a2c6h.13066369.question.28.4d7868a2FQH6OT&scm=20140722.S_community@@%E9%97%AE%E7%AD%94@@537514._.ID_537514-RL_%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0PAI%E6%8A%A5%E9%94%99-LOC_m~UND~search~UND~community~UND~i-OR_ser-V_3-P0_9



问题二:机器学习PAI中model scope 部署到PAI上,Python sdk 报错?

机器学习PAI中model scope 部署到PAI上,Python sdk 报错?https://help.aliyun.com/zh/pai/use-cases/deploy-huggingface-and-modelscope-service-applications-with-one-click-of?spm=a2c4g.11186623.0.i0#790dec242a083![image.png](https://ucc.alicdn.com/pic/developer-ecology/wyvq5mjsckydw_f764e7f303144545b148b2e3c0a067ec.png)在线调试可以跑通![image.png](https://ucc.alicdn.com/pic/developer-ecology/wyvq5mjsckydw_e8e8ece2919641369288773c72bbd54e.png)



参考答案:

这个如果部署时选了ai-web应用的话,我们的sdk暂时还不支持这种链接的形式,有两个方法解决:1. 使用普通的客户端调用,比如:

import requests

import json

service_url = 'YOUR_SERVICE_URL'

token = 'TOKEN'

data = {"input": {"source_sentence": "你好"}}

result = requests.post(service_url, headers={"Authorization": token}, data=json.dumps(data))

print(json.loads(result.text))

  1. 部署的时候可以不选ai-web应用,选择镜像部署;

我们的sdk会尽快支持这个情况



关于本问题的更多回答可点击进行查看:

https://developer.aliyun.com/ask/558209?spm=a2c6h.13066369.question.29.4d7868a2BGZxGF&scm=20140722.S_community@@%E9%97%AE%E7%AD%94@@558209._.ID_558209-RL_%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0PAI%E6%8A%A5%E9%94%99-LOC_m~UND~search~UND~community~UND~i-OR_ser-V_3-P0_10



问题三:麻烦问下机器学习PAI,本地单机训练没问题,配了tf_config开启训练报这个错大概是啥问题?

tensorflow.python.framework.errors_impl.OperatorNotAllowedInGraphError: using a tf.Tensor as a Python bool is not allowed in Graph execution. Use Eager execution or decorate this function with @tf.function.

Exception ignored in: >

Traceback (most recent call last):

File "/venv/lib/python3.6/site-packages/tensorflow_core/python/training/server_lib.py", line 158, in del

AttributeError: 'NoneType' object has no attribute 'UnimplementedError'

麻烦问下机器学习PAI,本地单机训练没问题,配了tf_config开启train_distribute: PSStrategy训练报这个错大概是啥问题?



参考答案:

多机的地址要先自己配置好的,默认值是个示例



关于本问题的更多回答可点击进行查看:

https://developer.aliyun.com/ask/532224?spm=a2c6h.13066369.question.30.4d7868a2zGbQKD&scm=20140722.S_community@@%E9%97%AE%E7%AD%94@@532224._.ID_community@@%E9%97%AE%E7%AD%94@@532224-RL_%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0PAI%E6%8A%A5%E9%94%99-LOC_llm-OR_ser-V_3-P0_30



问题四:机器学习PAI是这样改吗?我把tar包传到oss上了,还是报一样的错

机器学习PAI是这样改吗?我把tar包传到oss上了,还是报一样的错



关于本问题的更多回答可点击进行查看:

https://developer.aliyun.com/ask/552511?spm=a2c6h.13066369.question.29.4d7868a2vllB73&scm=20140722.S_community@@%E9%97%AE%E7%AD%94@@552511._.ID_community@@%E9%97%AE%E7%AD%94@@552511-RL_%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0PAI%E6%8A%A5%E9%94%99-LOC_llm-OR_ser-V_3-P0_31



问题五:机器学习PAI-EAS部署的服务报CrashLoopBackOff错误如何处理

机器学习PAI-EAS部署的服务报CrashLoopBackOff错误如何处理



参考答案:

CrashLoopBackOff错误的原因是EAS框架的library与使用的library有符号冲突

:2022-8-5 杭州地域已全量上线新版本,其他区域暂未发布全量。常见问题请参考PAI-EAS常见问题



关于本问题的更多回答可点击进行查看:

https://developer.aliyun.com/ask/475897?spm=a2c6h.13066369.question.30.4d7868a2a73VQG&scm=20140722.S_community@@%E9%97%AE%E7%AD%94@@475897._.ID_community@@%E9%97%AE%E7%AD%94@@475897-RL_%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0PAI%E6%8A%A5%E9%94%99-LOC_llm-OR_ser-V_3-P0_32



问题六:机器学习PAI使用序列特征是要保证等长吗?我这里报tensor shape的错误

机器学习PAI使用序列特征是要保证等长吗?我这里报tensor shape的错误



参考答案:

是的,要确保序列长度相同,大多数深度学习模型要求输入数据具有相同的维度和形状。 可以使用一些方法来确保所有的序列具有相同的长度,比如填充序列,截断序列。



关于本问题的更多回答可点击进行查看:

https://developer.aliyun.com/ask/506099?spm=a2c6h.13066369.question.31.4d7868a2Qd9NHt&scm=20140722.S_community@@%E9%97%AE%E7%AD%94@@506099._.ID_community@@%E9%97%AE%E7%AD%94@@506099-RL_%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0PAI%E6%8A%A5%E9%94%99-LOC_llm-OR_ser-V_3-P0_36

相关文章
|
2月前
|
机器学习/深度学习 人工智能 JSON
【解决方案】DistilQwen2.5-R1蒸馏小模型在PAI-ModelGallery的训练、评测、压缩及部署实践
阿里云的人工智能平台 PAI,作为一站式的机器学习和深度学习平台,对DistilQwen2.5-R1模型系列提供了全面的技术支持。无论是开发者还是企业客户,都可以通过 PAI-ModelGallery 轻松实现 Qwen2.5 系列模型的训练、评测、压缩和快速部署。本文详细介绍在 PAI 平台使用 DistilQwen2.5-R1 蒸馏模型的全链路最佳实践。
|
1月前
|
人工智能 JSON 算法
【解决方案】DistilQwen2.5-DS3-0324蒸馏小模型在PAI-ModelGallery的训练、评测、压缩及部署实践
DistilQwen 系列是阿里云人工智能平台 PAI 推出的蒸馏语言模型系列,包括 DistilQwen2、DistilQwen2.5、DistilQwen2.5-R1 等。本文详细介绍DistilQwen2.5-DS3-0324蒸馏小模型在PAI-ModelGallery的训练、评测、压缩及部署实践。
|
5月前
|
人工智能 调度 芯片
PAI训练服务:云上大模型训练新篇章
本文介绍了通用AI时代下的新训练方法及PAI平台的优化。随着大模型时代的到来,算力需求激增,硬件和网络通信成为瓶颈。PAI平台通过自动容错、3D健康检测等技术确保训练稳定性;通过资源配额、智能调度等提高性价比;并推出PAI-TorchAcc和PAI-ChatLearn两大引擎,分别实现高效训练加速和灵活的对齐训练,显著提升训练性能与效果。这些改进解决了大规模AI训练中的关键问题,提升了效率和稳定性。
|
3月前
|
人工智能 自然语言处理 算法
MT-MegatronLM:国产训练框架逆袭!三合一并行+FP8黑科技,大模型训练效率暴涨200%
MT-MegatronLM 是摩尔线程推出的面向全功能 GPU 的开源混合并行训练框架,支持多种模型架构和高效混合并行训练,显著提升 GPU 集群的算力利用率。
205 18
|
4月前
|
机器学习/深度学习 数据采集 人工智能
MATLAB在机器学习模型训练与性能优化中的应用探讨
本文介绍了如何使用MATLAB进行机器学习模型的训练与优化。MATLAB作为强大的科学计算工具,提供了丰富的函数库和工具箱,简化了数据预处理、模型选择、训练及评估的过程。文章详细讲解了从数据准备到模型优化的各个步骤,并通过代码实例展示了SVM等模型的应用。此外,还探讨了超参数调优、特征选择、模型集成等优化方法,以及深度学习与传统机器学习的结合。最后,介绍了模型部署和并行计算技巧,帮助用户高效构建和优化机器学习模型。
132 1
MATLAB在机器学习模型训练与性能优化中的应用探讨
|
3月前
|
机器学习/深度学习 人工智能 边缘计算
DistilQwen2.5蒸馏小模型在PAI-ModelGallery的训练、评测、压缩及部署实践
DistilQwen2.5 是阿里云人工智能平台 PAI 推出的全新蒸馏大语言模型系列。通过黑盒化和白盒化蒸馏结合的自研蒸馏链路,DistilQwen2.5各个尺寸的模型在多个基准测试数据集上比原始 Qwen2.5 模型有明显效果提升。这一系列模型在移动设备、边缘计算等资源受限的环境中具有更高的性能,在较小参数规模下,显著降低了所需的计算资源和推理时长。阿里云的人工智能平台 PAI,作为一站式的机器学习和深度学习平台,对 DistilQwen2.5 模型系列提供了全面的技术支持。本文详细介绍在 PAI 平台使用 DistilQwen2.5 蒸馏小模型的全链路最佳实践。
|
5月前
|
机器学习/深度学习 人工智能
Diff-Instruct:指导任意生成模型训练的通用框架,无需额外训练数据即可提升生成质量
Diff-Instruct 是一种从预训练扩散模型中迁移知识的通用框架,通过最小化积分Kullback-Leibler散度,指导其他生成模型的训练,提升生成性能。
167 11
Diff-Instruct:指导任意生成模型训练的通用框架,无需额外训练数据即可提升生成质量
|
4月前
|
人工智能 监控 开发者
阿里云PAI发布DeepRec Extension,打造稳定高效的分布式训练,并宣布开源!
阿里云PAI发布DeepRec Extension,打造稳定高效的分布式训练,并宣布开源!
|
6月前
|
人工智能 JSON 算法
魔搭支持在阿里云人工智能平台PAI上进行模型训练、部署了!
现在,魔搭上的众多模型支持在阿里云人工智能平台PAI-Model Gallery上使用阿里云算力资源进行模型训练和部署啦!
416 22
|
5月前
如何看PAI产品下训练(train)模型任务的费用细节
PAI产品下训练(train)模型任务的费用细节
136 6

相关产品

  • 人工智能平台 PAI