人工智能平台PAI 操作报错合集之机器学习PAI deeprec中的sok该怎么使用

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,100CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: 阿里云人工智能平台PAI (Platform for Artificial Intelligence) 是阿里云推出的一套全面、易用的机器学习和深度学习平台,旨在帮助企业、开发者和数据科学家快速构建、训练、部署和管理人工智能模型。在使用阿里云人工智能平台PAI进行操作时,可能会遇到各种类型的错误。以下列举了一些常见的报错情况及其可能的原因和解决方法。

问题一:请教下机器学习PAI deeprec中的sok使用问题,请问有可提供的思路吗?

请教下机器学习PAI deeprec中的sok使用问题,我用2304分支和这个镜像alideeprec/deeprec-release:deeprec2304-gpu-py38-cu116-ubuntu20.04按照官方文档走sok编译,最后跑demo遇到这个报错,请问有可提供的思路吗?



参考答案:

这个原因是SOK调度的kernel和实际的Variable的类型不一致。



关于本问题的更多回答可点击进行查看:

https://developer.aliyun.com/ask/570932



问题二:机器学习PAI我在dsw中使用的时候会报这个错,我的环境是2.3的?

机器学习PAI我在dsw中使用的时候会报这个错,我的环境是2.3的

执行的命令是python -m easy_rec.python.train_eval --pipeline_config_path /mnt/easyrec_config.config --train_input_path odps://kms_rec_dev/tables/label_knowl_user_training_table --eval_input_path odps://kms_rec_dev/tables/label_knowl_user_training_table --model_dir /mnt/model



参考答案:

数据如果在MC table里,就必须要用pai tensorflow的官方镜像,不能用社区版的tf镜像



关于本问题的更多回答可点击进行查看:

https://developer.aliyun.com/ask/570930



问题三:机器学习PAI 我确保没有空值后,报的错误 FAILED: 为什么?

机器学习PAI 我确保没有空值后,报的错误

FAILED: Failed 20231115073834570gt8kpa11w_db136f28_fa93_4d1d_9ad5_d5d6dd4f780e:ODPS-1202005:Algo Job Failed-User Error-Tensorflow script runs failed with exit code: 123, please see the details in logview.

The tail contents of the stderr file:

teratorGetNext[output_shapes=[[?,1], , , , , [?], [?], [?], [?], [?,1], , , [?]], output_types=DT_FLOAT, DT_VARIANT, DT_VARIANT, DT_VARIANT, DT_VARIANT, DT_STRING, DT_STRING, DT_STRING, DT_STRING, DT_FLOAT, DT_VARIANT, DT_VARIANT, DT_INT32], _device="/job:worker/replica:0/task:0/device:CPU:0"]]

[[{{node pc_log_times_diff_ss_raw_proj_id_weighted_by_pc_log_times_diff_ss_raw_proj_val_embedding/pc_log_times_diff_ss_raw_proj_id_weighted_by_pc_log_times_diff_ss_raw_proj_val_embedding_weights/embedding_lookup_sparse/Unique_S563}} = _Recvclient_terminated=false, recv_device="/job:ps/replica:0/task:0/device:CPU:0", send_device="/job:worker/replica:0/task:0/device:CPU:0", send_device_incarnation=-41487250130682641, tensor_name="edge_857_p...rse/Unique", tensor_type=DT_INT64, _device="/job:ps/replica:0/task:0/device:CPU:0"]]

日志:

http://logview.alibaba-inc.com/logview/?h=http://service.odps.aliyun-inc.com/api&p=b_risk_dev&i=20231115073834570gt8kpa11w_db136f28_fa93_4d1d_9ad5_d5d6dd4f780e&token=NWwrUnVPcjNRTUhaK0FCQlpaakpXVDFUMks0PSxPRFBTX09CTzoxNDk2MzI3NTcyMDcyNzY0LDE3MDI2MjU5MTUseyJTdGF0ZW1lbnQiOlt7IkFjdGlvbiI6WyJvZHBzOlJlYWQiXSwiRWZmZWN0IjoiQWxsb3ciLCJSZXNvdXJjZSI6WyJhY3M6b2RwczoqOnByb2plY3RzL2Jfcmlza19kZXYvaW5zdGFuY2VzLzIwMjMxMTE1MDczODM0NTcwZ3Q4a3BhMTF3X2RiMTM2ZjI4X2ZhOTNfNGQxZF85YWQ1X2Q1ZDZkZDRmNzgwZSJdfV0sIlZlcnNpb24iOiIxIn0=



参考答案:

https://easyrec.readthedocs.io/en/latest/feature/feature.html#sequencefeature同一个 group 内的序列特征需等长:



关于本问题的更多回答可点击进行查看:

https://developer.aliyun.com/ask/570924



问题四:请教一下机器学习PAI,我的时间差序列改成以下这个配置,请问报错怎么解决?

请教一下机器学习PAI,我的时间差序列改成以下这个配置,请问报错怎么解决?

features: {

input_names: 'pc_log_times_diff_ss'

feature_type: SequenceFeature

sub_feature_type: RawFeature

separator: '!'

embedding_dim: 8

sequence_combiner{

attention{}

}

}

报错logview:

http://logview.alibaba-inc.com/logview/?h=http://service.odps.aliyun-inc.com/api&p=b_risk_dev&i=20231115021909796glars1gvyg2_cac0bd82_aa46_4546_b683_8a364101a786&token=RC9zTjk0eWQzdUlINHNIU3J6VFlaUWdoVHBNPSxPRFBTX09CTzoxNDk2MzI3NTcyMDcyNzY0LDE3MDI2MDY3NTQseyJTdGF0ZW1lbnQiOlt7IkFjdGlvbiI6WyJvZHBzOlJlYWQiXSwiRWZmZWN0IjoiQWxsb3ciLCJSZXNvdXJjZSI6WyJhY3M6b2RwczoqOnByb2plY3RzL2Jfcmlza19kZXYvaW5zdGFuY2VzLzIwMjMxMTE1MDIxOTA5Nzk2Z2xhcnMxZ3Z5ZzJfY2FjMGJkODJfYWE0Nl80NTQ2X2I2ODNfOGEzNjQxMDFhNzg2Il19XSwiVmVyc2lvbiI6IjEifQ==



参考答案:

看 stderr 的报错:

raise type(e)(node_def, op, message)

tensorflow.python.framework.errors_impl.InvalidArgumentError: StringToNumberOp could not correctly convert string:

[[{{node sequence_str_2_float_pc_log_times_diff_ss}} = StringToNumberout_type=DT_FLOAT, _device="/device:CPU:0"]]

里面说你定义的是 float, 但是其实是 string, 没法转成 float

排查方法:

  1. 查看这个特征:sequence_str_2_float_pc_log_times_diff_ss ,看是不是分隔符有错误
  2. 如果确认分隔符没问题,再排查是不是有脏数据。可以先取两条正常的数据跑一下看看是不是能正常跑,确认一下是不是脏数据的问题。可以先按给出的排查方法逐条排查一下。不能有空值,空值好像没法转换成 float 吧



关于本问题的更多回答可点击进行查看:

https://developer.aliyun.com/ask/570921



问题五:机器学习PAI 这个参数指定不了啊,ODPS都报错,有什么办法调用python3的version吗?

机器学习PAI easyrec的--python_version=3和-Dpython_version=3这个参数指定不了啊,ODPS都报错,有什么办法调用python3的version吗?



参考答案:

这个暂时还指定不了



关于本问题的更多回答可点击进行查看:

https://developer.aliyun.com/ask/570920

相关实践学习
使用PAI+LLaMA Factory微调Qwen2-VL模型,搭建文旅领域知识问答机器人
使用PAI和LLaMA Factory框架,基于全参方法微调 Qwen2-VL模型,使其能够进行文旅领域知识问答,同时通过人工测试验证了微调的效果。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
9月前
|
人工智能 调度 芯片
PAI训练服务:云上大模型训练新篇章
本文介绍了通用AI时代下的新训练方法及PAI平台的优化。随着大模型时代的到来,算力需求激增,硬件和网络通信成为瓶颈。PAI平台通过自动容错、3D健康检测等技术确保训练稳定性;通过资源配额、智能调度等提高性价比;并推出PAI-TorchAcc和PAI-ChatLearn两大引擎,分别实现高效训练加速和灵活的对齐训练,显著提升训练性能与效果。这些改进解决了大规模AI训练中的关键问题,提升了效率和稳定性。
|
机器学习/深度学习 人工智能 Shell
人工智能平台PAI操作报错合集之在分布式训练过程中遇到报错,是什么原因
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
10月前
|
人工智能 JSON 算法
魔搭支持在阿里云人工智能平台PAI上进行模型训练、部署了!
现在,魔搭上的众多模型支持在阿里云人工智能平台PAI-Model Gallery上使用阿里云算力资源进行模型训练和部署啦!
563 22
|
8月前
|
人工智能 监控 开发者
阿里云PAI发布DeepRec Extension,打造稳定高效的分布式训练,并宣布开源!
阿里云PAI发布DeepRec Extension,打造稳定高效的分布式训练,并宣布开源!
154 0
|
机器学习/深度学习 人工智能 数据处理
人工智能平台PAI操作报错合集之任务重启后出现模型拆分报错,该怎么办
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
9月前
|
人工智能 容灾 Serverless
AI推理新纪元,PAI全球化模型推理服务的创新与实践
本次分享主题为“AI推理新纪元,PAI全球化模型推理服务的创新与实践”,由阿里云高级产品经理李林杨主讲。内容涵盖生成式AI时代推理服务的变化与挑战、play IM核心引擎的优势及ES专属网关的应用。通过LM智能路由、多模态异步生成等技术,PAI平台实现了30%以上的成本降低和显著性能提升,确保全球客户的业务稳定运行并支持异地容灾,目前已覆盖16个地域,拥有10万张显卡的推理集群。
|
机器学习/深度学习 人工智能 自然语言处理
基于PAI-QuickStart搭建一站式模型训练服务体验
【8月更文挑战第5天】基于PAI-QuickStart搭建一站式模型训练服务体验
359 0
|
5月前
|
机器学习/深度学习 数据采集 人工智能
20分钟掌握机器学习算法指南
在短短20分钟内,从零开始理解主流机器学习算法的工作原理,掌握算法选择策略,并建立对神经网络的直观认识。本文用通俗易懂的语言和生动的比喻,帮助你告别算法选择的困惑,轻松踏入AI的大门。
|
11月前
|
机器学习/深度学习 算法 数据挖掘
K-means聚类算法是机器学习中常用的一种聚类方法,通过将数据集划分为K个簇来简化数据结构
K-means聚类算法是机器学习中常用的一种聚类方法,通过将数据集划分为K个簇来简化数据结构。本文介绍了K-means算法的基本原理,包括初始化、数据点分配与簇中心更新等步骤,以及如何在Python中实现该算法,最后讨论了其优缺点及应用场景。
1064 6
|
6月前
|
机器学习/深度学习 存储 Kubernetes
【重磅发布】AllData数据中台核心功能:机器学习算法平台
杭州奥零数据科技有限公司成立于2023年,专注于数据中台业务,维护开源项目AllData并提供商业版解决方案。AllData提供数据集成、存储、开发、治理及BI展示等一站式服务,支持AI大模型应用,助力企业高效利用数据价值。

热门文章

最新文章

相关产品

  • 人工智能平台 PAI