人工智能平台PAI操作报错合集之引用github.com/alibaba/pairec包时报错,该如何解决

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型训练 PAI-DLC,5000CU*H 3个月
简介: 阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。

问题一:机器学习PAI为啥这个多worker多卡会报错?

机器学习PAI为啥这个多worker多卡会报错?



参考答案:

从你提供的图片中,我看到了一些关于PAI(阿里云的机器学习平台)的错误信息。为了更准确地诊断问题,我需要更详细的错误信息或上下文。不过,基于你提供的信息,以下是一些建议和可能的原因:

  1. 资源限制:PAI可能会对用户分配的资源有限制,如CPU、内存、GPU等。如果一个任务请求的资源超过了这些限制,那么它可能会失败。
  2. 网络问题:确保你的机器可以访问PAI服务并且网络连接稳定。
  3. 权限问题:确保你的账户有足够的权限来运行这个任务。
  4. 代码问题:虽然我不能直接查看你的代码,但请确保你的代码是正确配置的,并且与PAI的API和要求相匹配。
  5. 其他服务冲突:确保没有其他服务或进程正在使用相同的资源,导致冲突。



关于本问题的更多回答可点击进行查看:

https://developer.aliyun.com/ask/591132



问题二:机器学习PAI跑训练报了这个错,可以帮忙看下原因嘛?

机器学习PAI跑训练报了这个错,可以帮忙看下原因嘛?https://logview.alibaba-inc.com/logview/?h=http://service.odps.aliyun-inc.com/api&p=ump_ads_dev&i=20240119074309788gvjh5k0vyvs3_6942b76f_c617_4d26_8f91_2bcd4919a2af&token=Ym13NTFpMzR6WFlkZHMvODRiY3NGNytmQ3EwPSxPRFBTX09CTzoxODY2OTY1OTcxODQ2OTU4LDE3MDgyNDIxOTEseyJTdGF0ZW1lbnQiOlt7IkFjdGlvbiI6WyJvZHBzOlJlYWQiXSwiRWZmZWN0IjoiQWxsb3ciLCJSZXNvdXJjZSI6WyJhY3M6b2RwczoqOnByb2plY3RzL3VtcF9hZHNfZGV2L2luc3RhbmNlcy8yMDI0MDExOTA3NDMwOTc4OGd2amg1azB2eXZzM182OTQyYjc2Zl9jNjE3XzRkMjZfOGY5MV8yYmNkNDkxOWEyYWYiXX1dLCJWZXJzaW9uIjoiMSJ9



参考答案:

"看起来训练没拉起来,资源也别用GPU

pipleline.config去掉这个train_distribute: MultiWorkerMirroredStrategy

maxcompute上目前不支持MultiWorkerMirroredStrategy, 建议到DLC上跑,另外不需要设置ps



关于本问题的更多回答可点击进行查看:

https://developer.aliyun.com/ask/591131



问题三:想请教一下机器学习PAI我跑predict时报这个错是什么原因?

想请教一下机器学习PAI我跑predict时报这个错是什么原因?:https://logview.alibaba-inc.com/logview/?h=http://service.odps.aliyun-inc.com/api&p=ump_ads_dev&i=20240117084247174gtsqd48vyvs3_d111f14b_6486_4429_836a_90c214b03a4e&token=bDlhNytNUWJoM0hCWUl0MjJpUGNTUW5ZOU9ZPSxPRFBTX09CTzoxODY2OTY1OTcxODQ2OTU4LDE3MDgwNzI5NzIseyJTdGF0ZW1lbnQiOlt7IkFjdGlvbiI6WyJvZHBzOlJlYWQiXSwiRWZmZWN0IjoiQWxsb3ciLCJSZXNvdXJjZSI6WyJhY3M6b2RwczoqOnByb2plY3RzL3VtcF9hZHNfZGV2L2luc3RhbmNlcy8yMDI0MDExNzA4NDI0NzE3NGd0c3FkNDh2eXZzM19kMTExZjE0Yl82NDg2XzQ0MjlfODM2YV85MGMyMTRiMDNhNGUiXX1dLCJWZXJzaW9uIjoiMSJ9

这是我跑的命令:pai -name easy_rec_ext -project algo_public

-Dversion='oppo_release'

-Dcmd=predict

-Dinput_table=odps://ump_ads_dev/tables/autoencoder_train_feature_dense_val_middle_did

-Doutput_table=odps://ump_ads_dev/tables/autoencoder_v1_all_0116_val_middle_predict

-Dcluster="{\"worker\":{\"count\": 40,\"gpu\":0,\"cpu\":1500,\"memory\":100000}}"

-Dbuckets="oss://rta-bucket/?role_arn=acs:ram::1078614756289401:role/rta-role&host=oss-cn-hangzhou-zmf-internal.aliyuncs.com"

-Dsaved_model_dir='oss://rta-bucket/autoencoder/v1_all_0116/export/best/'

-Doutput_cols='middle_embed string, output_feature string'

-Dreserved_cols='did'

-Dmodel_outputs="middle_embed,output_feature"

-Dbatch_size=1024

;



参考答案:

目录写错了 ,



关于本问题的更多回答可点击进行查看:

https://developer.aliyun.com/ask/591127



问题四:我的机器学习PAI的easyrec部署起不来了,这个是啥问题哟?

我的机器学习PAI的easyrec部署起不来了,这个是啥问题哟?



参考答案:

导出有问题,需要把export_config.multi_placeholder设成false



关于本问题的更多回答可点击进行查看:

https://developer.aliyun.com/ask/591123



问题五:想请教下机器学习PAI~编译的时候会报 这块该怎么办呢?

想请教下机器学习PAI~

编译的时候会报

pairec_demo/src imports

github.com/alibaba/pairec: missing go.sum entry for module providing package github.com/alibaba/pairec (imported by pairec_demo/src);

然后go mod tidy

会报i/o 超时

这块该怎么办呢?



参考答案:

export GOPROXY=https://goproxy.cn,direct 设置这个环境变量再试下



关于本问题的更多回答可点击进行查看:

https://developer.aliyun.com/ask/589101

相关实践学习
跟阿里云技术专家学习智能推荐系统
阿里云机器学习PAI团队推出,面向的是企业级的推荐业务应用——《企业级智能推荐系统介绍》,意在结合PAI团队服务各个推荐场景互联网客户的经验,给大家带来更多推荐业务相关的知识普及。PAI是阿里云的算法平台,面向各类客户提供高性能算法和计算框架,在阿里云上有上万企业和开发者客户,其中很大比例为营销推荐场景客户。本次课程分为5个小节:课程1:推荐系统基本概念及架构说明课程2:推荐系统召回算法级架构说明课程3:推荐系统排序算法级架构说明课程4:推荐系统线上服务编排课程5:实操10分钟实现一个简单的推荐系统     -------------------------------------------------------------------------   相关的阿里云产品:机器学习PAI 阿里云机器学习平台PAI(Platform of Artificial Intelligence),为传统机器学习和深度学习提供了从数据处理、模型训练、服务部署到预测的一站式服务。 了解产品详情: https://www.aliyun.com/product/bigdata/product/learn
相关文章
|
4月前
|
机器学习/深度学习 人工智能 Shell
人工智能平台PAI操作报错合集之在分布式训练过程中遇到报错,是什么原因
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
4月前
|
机器学习/深度学习 人工智能 数据处理
人工智能平台PAI操作报错合集之任务重启后出现模型拆分报错,该怎么办
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
2月前
|
人工智能 JSON 数据格式
RAG+Agent人工智能平台:RAGflow实现GraphRA知识库问答,打造极致多模态问答与AI编排流体验
【9月更文挑战第6天】RAG+Agent人工智能平台:RAGflow实现GraphRA知识库问答,打造极致多模态问答与AI编排流体验
RAG+Agent人工智能平台:RAGflow实现GraphRA知识库问答,打造极致多模态问答与AI编排流体验
|
2月前
|
机器学习/深度学习 人工智能 算法
【新闻文本分类识别系统】Python+卷积神经网络算法+人工智能+深度学习+计算机毕设项目+Django网页界面平台
文本分类识别系统。本系统使用Python作为主要开发语言,首先收集了10种中文文本数据集("体育类", "财经类", "房产类", "家居类", "教育类", "科技类", "时尚类", "时政类", "游戏类", "娱乐类"),然后基于TensorFlow搭建CNN卷积神经网络算法模型。通过对数据集进行多轮迭代训练,最后得到一个识别精度较高的模型,并保存为本地的h5格式。然后使用Django开发Web网页端操作界面,实现用户上传一段文本识别其所属的类别。
90 1
【新闻文本分类识别系统】Python+卷积神经网络算法+人工智能+深度学习+计算机毕设项目+Django网页界面平台
|
2月前
|
云栖大会 对象存储
PAI-EAS 和 OSS 免费资源包
【9月更文挑战第23天】
43 8
|
1月前
|
数据安全/隐私保护
github报错(完美解决):获取token。remote: Support for password authentication was removed on August 13, 2021.
这篇文章介绍了如何在GitHub上解决因密码认证被移除而导致的推送错误,通过创建和使用个人访问令牌(token)来代替密码进行身份验证。
195 0
|
2月前
|
机器学习/深度学习 人工智能 算法
【果蔬识别系统】Python+卷积神经网络算法+人工智能+深度学习+计算机毕设项目+Django网页界面平台
【果蔬识别系统】Python+卷积神经网络算法+人工智能+深度学习+计算机毕设项目+Django网页界面平台。果蔬识别系统,本系统使用Python作为主要开发语言,通过收集了12种常见的水果和蔬菜('土豆', '圣女果', '大白菜', '大葱', '梨', '胡萝卜', '芒果', '苹果', '西红柿', '韭菜', '香蕉', '黄瓜'),然后基于TensorFlow库搭建CNN卷积神经网络算法模型,然后对数据集进行训练,最后得到一个识别精度较高的算法模型,然后将其保存为h5格式的本地文件方便后期调用。再使用Django框架搭建Web网页平台操作界面,实现用户上传一张果蔬图片识别其名称。
54 0
【果蔬识别系统】Python+卷积神经网络算法+人工智能+深度学习+计算机毕设项目+Django网页界面平台
|
2月前
|
人工智能 自然语言处理 前端开发
基于ChatGPT开发人工智能服务平台
### 简介 ChatGPT 初期作为问答机器人,现已拓展出多种功能,如模拟面试及智能客服等。模拟面试功能涵盖个性化问题生成、实时反馈等;智能客服则提供全天候支持、多渠道服务等功能。借助人工智能技术,这些应用能显著提升面试准备效果及客户服务效率。 ### 智能平台的使用价值 通过自动化流程,帮助用户提升面试准备效果及提高客户服务效率。 ### 实现思路 1. **需求功能设计**:提问与接收回复。 2. **技术架构设计**:搭建整体框架。 3. **技术选型**:示例采用 `Flask + Template + HTML/CSS`。 4. **技术实现**:前端界面与后端服务实现。
|
3月前
|
人工智能 自然语言处理 搜索推荐
谷歌 ai人工智能平台叫什么?请记住答案是:Gemini
Gemini 是 Google 开发的一个大型AI语言模型 ,代表着人工智能领域的一项重大进步。它是一个强大的工具,旨在理解和生成人类语言,并具备广泛的功能,可以帮助人们完成各种任务,从创作不同类型的文本到回答复杂的问题,再到翻译语言等等。
|
3月前
github下载的.ipynb文件报错unreadable Notebook NotJSONError
【8月更文挑战第2天】文章提供了解决GitHub下载的Jupyter Notebook文件打开时报错的方法,包括端口冲突和文件加载错误。
81 0
github下载的.ipynb文件报错unreadable Notebook NotJSONError

热门文章

最新文章

相关产品

  • 人工智能平台 PAI