人工智能平台PAI操作报错合集之引用github.com/alibaba/pairec包时报错,该如何解决

本文涉及的产品
交互式建模 PAI-DSW,5000CU*H 3个月
模型训练 PAI-DLC,5000CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: 阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。

问题一:机器学习PAI为啥这个多worker多卡会报错?

机器学习PAI为啥这个多worker多卡会报错?



参考答案:

从你提供的图片中,我看到了一些关于PAI(阿里云的机器学习平台)的错误信息。为了更准确地诊断问题,我需要更详细的错误信息或上下文。不过,基于你提供的信息,以下是一些建议和可能的原因:

  1. 资源限制:PAI可能会对用户分配的资源有限制,如CPU、内存、GPU等。如果一个任务请求的资源超过了这些限制,那么它可能会失败。
  2. 网络问题:确保你的机器可以访问PAI服务并且网络连接稳定。
  3. 权限问题:确保你的账户有足够的权限来运行这个任务。
  4. 代码问题:虽然我不能直接查看你的代码,但请确保你的代码是正确配置的,并且与PAI的API和要求相匹配。
  5. 其他服务冲突:确保没有其他服务或进程正在使用相同的资源,导致冲突。



关于本问题的更多回答可点击进行查看:

https://developer.aliyun.com/ask/591132



问题二:机器学习PAI跑训练报了这个错,可以帮忙看下原因嘛?

机器学习PAI跑训练报了这个错,可以帮忙看下原因嘛?https://logview.alibaba-inc.com/logview/?h=http://service.odps.aliyun-inc.com/api&p=ump_ads_dev&i=20240119074309788gvjh5k0vyvs3_6942b76f_c617_4d26_8f91_2bcd4919a2af&token=Ym13NTFpMzR6WFlkZHMvODRiY3NGNytmQ3EwPSxPRFBTX09CTzoxODY2OTY1OTcxODQ2OTU4LDE3MDgyNDIxOTEseyJTdGF0ZW1lbnQiOlt7IkFjdGlvbiI6WyJvZHBzOlJlYWQiXSwiRWZmZWN0IjoiQWxsb3ciLCJSZXNvdXJjZSI6WyJhY3M6b2RwczoqOnByb2plY3RzL3VtcF9hZHNfZGV2L2luc3RhbmNlcy8yMDI0MDExOTA3NDMwOTc4OGd2amg1azB2eXZzM182OTQyYjc2Zl9jNjE3XzRkMjZfOGY5MV8yYmNkNDkxOWEyYWYiXX1dLCJWZXJzaW9uIjoiMSJ9



参考答案:

"看起来训练没拉起来,资源也别用GPU

pipleline.config去掉这个train_distribute: MultiWorkerMirroredStrategy

maxcompute上目前不支持MultiWorkerMirroredStrategy, 建议到DLC上跑,另外不需要设置ps



关于本问题的更多回答可点击进行查看:

https://developer.aliyun.com/ask/591131



问题三:想请教一下机器学习PAI我跑predict时报这个错是什么原因?

想请教一下机器学习PAI我跑predict时报这个错是什么原因?:https://logview.alibaba-inc.com/logview/?h=http://service.odps.aliyun-inc.com/api&p=ump_ads_dev&i=20240117084247174gtsqd48vyvs3_d111f14b_6486_4429_836a_90c214b03a4e&token=bDlhNytNUWJoM0hCWUl0MjJpUGNTUW5ZOU9ZPSxPRFBTX09CTzoxODY2OTY1OTcxODQ2OTU4LDE3MDgwNzI5NzIseyJTdGF0ZW1lbnQiOlt7IkFjdGlvbiI6WyJvZHBzOlJlYWQiXSwiRWZmZWN0IjoiQWxsb3ciLCJSZXNvdXJjZSI6WyJhY3M6b2RwczoqOnByb2plY3RzL3VtcF9hZHNfZGV2L2luc3RhbmNlcy8yMDI0MDExNzA4NDI0NzE3NGd0c3FkNDh2eXZzM19kMTExZjE0Yl82NDg2XzQ0MjlfODM2YV85MGMyMTRiMDNhNGUiXX1dLCJWZXJzaW9uIjoiMSJ9

这是我跑的命令:pai -name easy_rec_ext -project algo_public

-Dversion='oppo_release'

-Dcmd=predict

-Dinput_table=odps://ump_ads_dev/tables/autoencoder_train_feature_dense_val_middle_did

-Doutput_table=odps://ump_ads_dev/tables/autoencoder_v1_all_0116_val_middle_predict

-Dcluster="{\"worker\":{\"count\": 40,\"gpu\":0,\"cpu\":1500,\"memory\":100000}}"

-Dbuckets="oss://rta-bucket/?role_arn=acs:ram::1078614756289401:role/rta-role&host=oss-cn-hangzhou-zmf-internal.aliyuncs.com"

-Dsaved_model_dir='oss://rta-bucket/autoencoder/v1_all_0116/export/best/'

-Doutput_cols='middle_embed string, output_feature string'

-Dreserved_cols='did'

-Dmodel_outputs="middle_embed,output_feature"

-Dbatch_size=1024

;



参考答案:

目录写错了 ,



关于本问题的更多回答可点击进行查看:

https://developer.aliyun.com/ask/591127



问题四:我的机器学习PAI的easyrec部署起不来了,这个是啥问题哟?

我的机器学习PAI的easyrec部署起不来了,这个是啥问题哟?



参考答案:

导出有问题,需要把export_config.multi_placeholder设成false



关于本问题的更多回答可点击进行查看:

https://developer.aliyun.com/ask/591123



问题五:想请教下机器学习PAI~编译的时候会报 这块该怎么办呢?

想请教下机器学习PAI~

编译的时候会报

pairec_demo/src imports

github.com/alibaba/pairec: missing go.sum entry for module providing package github.com/alibaba/pairec (imported by pairec_demo/src);

然后go mod tidy

会报i/o 超时

这块该怎么办呢?



参考答案:

export GOPROXY=https://goproxy.cn,direct 设置这个环境变量再试下



关于本问题的更多回答可点击进行查看:

https://developer.aliyun.com/ask/589101

相关实践学习
跟阿里云技术专家学习智能推荐系统
阿里云机器学习PAI团队推出,面向的是企业级的推荐业务应用——《企业级智能推荐系统介绍》,意在结合PAI团队服务各个推荐场景互联网客户的经验,给大家带来更多推荐业务相关的知识普及。PAI是阿里云的算法平台,面向各类客户提供高性能算法和计算框架,在阿里云上有上万企业和开发者客户,其中很大比例为营销推荐场景客户。本次课程分为5个小节:课程1:推荐系统基本概念及架构说明课程2:推荐系统召回算法级架构说明课程3:推荐系统排序算法级架构说明课程4:推荐系统线上服务编排课程5:实操10分钟实现一个简单的推荐系统     -------------------------------------------------------------------------   相关的阿里云产品:机器学习PAI 阿里云机器学习平台PAI(Platform of Artificial Intelligence),为传统机器学习和深度学习提供了从数据处理、模型训练、服务部署到预测的一站式服务。 了解产品详情: https://www.aliyun.com/product/bigdata/product/learn
相关文章
|
8天前
|
机器学习/深度学习 人工智能 监控
揭秘人工智能:机器学习的魔法
【10月更文挑战第6天】本文将带你走进人工智能的世界,了解机器学习如何改变我们的生活。我们将深入探讨机器学习的原理,以及它在各个领域的应用。同时,我们也会分享一些实用的代码示例,帮助你更好地理解和应用机器学习。无论你是初学者还是专业人士,这篇文章都将为你提供有价值的信息和启示。让我们一起探索这个神奇的领域吧!
|
18天前
|
机器学习/深度学习 人工智能 自然语言处理
探索人工智能的未来:机器学习与深度学习的融合之旅
【9月更文挑战第35天】在这篇文章中,我们将深入探讨人工智能的两大支柱——机器学习和深度学习。我们将通过代码示例和实际应用案例,揭示它们如何相互补充,共同推动AI技术的发展。无论你是初学者还是有经验的开发者,这篇文章都将为你提供宝贵的见解和启示。
48 0
|
1月前
|
机器学习/深度学习 人工智能 算法
人工智能浪潮下,如何利用机器学习进行数据分类
【8月更文挑战第33天】本文将介绍一种使用Python编程语言和scikit-learn库实现的简单机器学习算法。我们将使用KNN(k-近邻)算法对鸢尾花数据集进行分类。通过这篇文章,你将学会如何使用机器学习技术解决实际问题。
|
21天前
|
机器学习/深度学习 人工智能 自然语言处理
人工智能与机器学习在医疗诊断中的应用
【9月更文挑战第32天】随着科技的不断发展,人工智能和机器学习已经在许多领域得到了广泛应用。在医疗领域,它们正在改变着医生和患者的生活。通过分析大量的医疗数据,AI可以帮助医生更准确地诊断疾病,预测患者的病情发展,并提供个性化的治疗方案。本文将探讨人工智能和机器学习在医疗诊断中的具体应用,包括图像识别、自然语言处理和预测分析等方面。我们还将讨论AI技术面临的挑战和未来的发展趋势。
|
1月前
|
人工智能 JSON 数据格式
RAG+Agent人工智能平台:RAGflow实现GraphRA知识库问答,打造极致多模态问答与AI编排流体验
【9月更文挑战第6天】RAG+Agent人工智能平台:RAGflow实现GraphRA知识库问答,打造极致多模态问答与AI编排流体验
RAG+Agent人工智能平台:RAGflow实现GraphRA知识库问答,打造极致多模态问答与AI编排流体验
|
10天前
|
机器学习/深度学习 人工智能 算法
人工智能与机器学习在医疗诊断中的应用
【10月更文挑战第3天】人工智能与机器学习在医疗诊断中的应用
22 3
|
1月前
|
机器学习/深度学习 人工智能 算法
【新闻文本分类识别系统】Python+卷积神经网络算法+人工智能+深度学习+计算机毕设项目+Django网页界面平台
文本分类识别系统。本系统使用Python作为主要开发语言,首先收集了10种中文文本数据集("体育类", "财经类", "房产类", "家居类", "教育类", "科技类", "时尚类", "时政类", "游戏类", "娱乐类"),然后基于TensorFlow搭建CNN卷积神经网络算法模型。通过对数据集进行多轮迭代训练,最后得到一个识别精度较高的模型,并保存为本地的h5格式。然后使用Django开发Web网页端操作界面,实现用户上传一段文本识别其所属的类别。
68 1
【新闻文本分类识别系统】Python+卷积神经网络算法+人工智能+深度学习+计算机毕设项目+Django网页界面平台
|
1月前
|
云栖大会 对象存储
PAI-EAS 和 OSS 免费资源包
【9月更文挑战第23天】
35 8
|
6天前
|
数据安全/隐私保护
github报错(完美解决):获取token。remote: Support for password authentication was removed on August 13, 2021.
这篇文章介绍了如何在GitHub上解决因密码认证被移除而导致的推送错误,通过创建和使用个人访问令牌(token)来代替密码进行身份验证。
33 0
|
6天前
|
机器学习/深度学习 人工智能 自然语言处理
人工智能的未来:从机器学习到深度学习的演进
【10月更文挑战第8天】人工智能的未来:从机器学习到深度学习的演进
21 0

相关产品

  • 人工智能平台 PAI