人工智能平台PAI操作报错合集之引用github.com/alibaba/pairec包时报错,该如何解决

本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,100CU*H 3个月
简介: 阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。

问题一:机器学习PAI为啥这个多worker多卡会报错?

机器学习PAI为啥这个多worker多卡会报错?



参考答案:

从你提供的图片中,我看到了一些关于PAI(阿里云的机器学习平台)的错误信息。为了更准确地诊断问题,我需要更详细的错误信息或上下文。不过,基于你提供的信息,以下是一些建议和可能的原因:

  1. 资源限制:PAI可能会对用户分配的资源有限制,如CPU、内存、GPU等。如果一个任务请求的资源超过了这些限制,那么它可能会失败。
  2. 网络问题:确保你的机器可以访问PAI服务并且网络连接稳定。
  3. 权限问题:确保你的账户有足够的权限来运行这个任务。
  4. 代码问题:虽然我不能直接查看你的代码,但请确保你的代码是正确配置的,并且与PAI的API和要求相匹配。
  5. 其他服务冲突:确保没有其他服务或进程正在使用相同的资源,导致冲突。



关于本问题的更多回答可点击进行查看:

https://developer.aliyun.com/ask/591132



问题二:机器学习PAI跑训练报了这个错,可以帮忙看下原因嘛?

机器学习PAI跑训练报了这个错,可以帮忙看下原因嘛?https://logview.alibaba-inc.com/logview/?h=http://service.odps.aliyun-inc.com/api&p=ump_ads_dev&i=20240119074309788gvjh5k0vyvs3_6942b76f_c617_4d26_8f91_2bcd4919a2af&token=Ym13NTFpMzR6WFlkZHMvODRiY3NGNytmQ3EwPSxPRFBTX09CTzoxODY2OTY1OTcxODQ2OTU4LDE3MDgyNDIxOTEseyJTdGF0ZW1lbnQiOlt7IkFjdGlvbiI6WyJvZHBzOlJlYWQiXSwiRWZmZWN0IjoiQWxsb3ciLCJSZXNvdXJjZSI6WyJhY3M6b2RwczoqOnByb2plY3RzL3VtcF9hZHNfZGV2L2luc3RhbmNlcy8yMDI0MDExOTA3NDMwOTc4OGd2amg1azB2eXZzM182OTQyYjc2Zl9jNjE3XzRkMjZfOGY5MV8yYmNkNDkxOWEyYWYiXX1dLCJWZXJzaW9uIjoiMSJ9



参考答案:

"看起来训练没拉起来,资源也别用GPU

pipleline.config去掉这个train_distribute: MultiWorkerMirroredStrategy

maxcompute上目前不支持MultiWorkerMirroredStrategy, 建议到DLC上跑,另外不需要设置ps



关于本问题的更多回答可点击进行查看:

https://developer.aliyun.com/ask/591131



问题三:想请教一下机器学习PAI我跑predict时报这个错是什么原因?

想请教一下机器学习PAI我跑predict时报这个错是什么原因?:https://logview.alibaba-inc.com/logview/?h=http://service.odps.aliyun-inc.com/api&p=ump_ads_dev&i=20240117084247174gtsqd48vyvs3_d111f14b_6486_4429_836a_90c214b03a4e&token=bDlhNytNUWJoM0hCWUl0MjJpUGNTUW5ZOU9ZPSxPRFBTX09CTzoxODY2OTY1OTcxODQ2OTU4LDE3MDgwNzI5NzIseyJTdGF0ZW1lbnQiOlt7IkFjdGlvbiI6WyJvZHBzOlJlYWQiXSwiRWZmZWN0IjoiQWxsb3ciLCJSZXNvdXJjZSI6WyJhY3M6b2RwczoqOnByb2plY3RzL3VtcF9hZHNfZGV2L2luc3RhbmNlcy8yMDI0MDExNzA4NDI0NzE3NGd0c3FkNDh2eXZzM19kMTExZjE0Yl82NDg2XzQ0MjlfODM2YV85MGMyMTRiMDNhNGUiXX1dLCJWZXJzaW9uIjoiMSJ9

这是我跑的命令:pai -name easy_rec_ext -project algo_public

-Dversion='oppo_release'

-Dcmd=predict

-Dinput_table=odps://ump_ads_dev/tables/autoencoder_train_feature_dense_val_middle_did

-Doutput_table=odps://ump_ads_dev/tables/autoencoder_v1_all_0116_val_middle_predict

-Dcluster="{\"worker\":{\"count\": 40,\"gpu\":0,\"cpu\":1500,\"memory\":100000}}"

-Dbuckets="oss://rta-bucket/?role_arn=acs:ram::1078614756289401:role/rta-role&host=oss-cn-hangzhou-zmf-internal.aliyuncs.com"

-Dsaved_model_dir='oss://rta-bucket/autoencoder/v1_all_0116/export/best/'

-Doutput_cols='middle_embed string, output_feature string'

-Dreserved_cols='did'

-Dmodel_outputs="middle_embed,output_feature"

-Dbatch_size=1024

;



参考答案:

目录写错了 ,



关于本问题的更多回答可点击进行查看:

https://developer.aliyun.com/ask/591127



问题四:我的机器学习PAI的easyrec部署起不来了,这个是啥问题哟?

我的机器学习PAI的easyrec部署起不来了,这个是啥问题哟?



参考答案:

导出有问题,需要把export_config.multi_placeholder设成false



关于本问题的更多回答可点击进行查看:

https://developer.aliyun.com/ask/591123



问题五:想请教下机器学习PAI~编译的时候会报 这块该怎么办呢?

想请教下机器学习PAI~

编译的时候会报

pairec_demo/src imports

github.com/alibaba/pairec: missing go.sum entry for module providing package github.com/alibaba/pairec (imported by pairec_demo/src);

然后go mod tidy

会报i/o 超时

这块该怎么办呢?



参考答案:

export GOPROXY=https://goproxy.cn,direct 设置这个环境变量再试下



关于本问题的更多回答可点击进行查看:

https://developer.aliyun.com/ask/589101

相关实践学习
跟阿里云技术专家学习智能推荐系统
阿里云机器学习PAI团队推出,面向的是企业级的推荐业务应用——《企业级智能推荐系统介绍》,意在结合PAI团队服务各个推荐场景互联网客户的经验,给大家带来更多推荐业务相关的知识普及。PAI是阿里云的算法平台,面向各类客户提供高性能算法和计算框架,在阿里云上有上万企业和开发者客户,其中很大比例为营销推荐场景客户。本次课程分为5个小节:课程1:推荐系统基本概念及架构说明课程2:推荐系统召回算法级架构说明课程3:推荐系统排序算法级架构说明课程4:推荐系统线上服务编排课程5:实操10分钟实现一个简单的推荐系统     -------------------------------------------------------------------------   相关的阿里云产品:机器学习PAI 阿里云机器学习平台PAI(Platform of Artificial Intelligence),为传统机器学习和深度学习提供了从数据处理、模型训练、服务部署到预测的一站式服务。 了解产品详情: https://www.aliyun.com/product/bigdata/product/learn
目录
打赏
0
0
0
0
1160
分享
相关文章
阿里云PAI人工智能平台介绍、优势及收费标准,手动整理
阿里云人工智能平台PAI是面向开发者和企业的机器学习与深度学习工程平台,提供数据标注、模型构建、训练、部署及推理优化等全链路服务。内置140+优化算法,支持PyTorch、TensorFlow等多种框架,具备高性能训练与推理能力,适用于自动驾驶、金融风控、智能推荐、智慧医疗等多个行业场景。PAI提供零代码开发、可视化建模、大模型一键部署等功能,助力企业快速构建AI应用。支持多种购买方式,如按量付费、预付费等,满足不同业务需求。
生成式人工智能认证(GAI认证)官网 - 全国统一认证中文服务平台上线
生成式人工智能(AI)正深刻改变职场规则,但系统化学习相关技术成为难题。近日,由全球知名教育公司培生推出的生成式人工智能认证(GAI认证)中文官网正式上线,为专业人士和学习者提供了权威解决方案。该认证涵盖核心技能、提示工程、伦理合规等内容,助力持证者紧跟技术前沿,在职场中脱颖而出。全国统一认证平台提供便捷报名与在线考试服务,考后快速出成绩并颁发证书。行动起来,开启AI职业新篇章!
基于阿里云人工智能平台的智能客服系统开发与部署
随着人工智能技术的发展,智能客服系统成为企业提升服务效率和用户体验的重要工具。阿里云提供包括自然语言处理(NLP)、语音识别(ASR)、机器学习(PAI)等在内的完整AI平台,助力企业快速构建智能客服系统。本文将通过电商平台案例,展示如何基于阿里云AI平台从零开始开发、部署智能客服系统,并介绍其核心优势与最佳实践,涵盖文本和语音客服、知识库管理及数据分析等功能,显著提升客户服务效率和用户满意度。
人工智能平台PAI操作报错合集之在分布式训练过程中遇到报错,是什么原因
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
人工智能平台PAI操作报错合集之任务重启后出现模型拆分报错,该怎么办
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
阿里云人工智能平台图像视频特征提取
本文介绍了图像与视频特征提取技术在人工智能和计算机视觉中的应用,涵盖图像质量评分、人脸属性分析、年龄分析、图像多标签打标、图文视频动态分类打标、视频质量评分及视频分类打标。通过深度学习模型如CNN和RNN,这些技术能从海量数据中挖掘有价值信息,为图像分类、目标检测、视频推荐等场景提供支持,提升分析精度与效率。
389 9
人工智能平台年度技术趋势
阿里云智能集团研究员林伟在年度技术趋势演讲中,分享了AI平台的五大方面进展。首先,他介绍了大规模语言模型(LLM)训练中的挑战与解决方案,包括高效故障诊断和快速恢复机制。其次,探讨了AI应用和服务的普及化,强调通过优化调度降低成本,使AI真正惠及大众。第三,提出了GreenAI理念,旨在提高AI工程效率,减少能源消耗。第四,讨论了企业级能力,确保数据和模型的安全性,并推出硬件到软件的全面安全方案。最后,介绍了整合多项核心技术的Pai Prime框架,展示了阿里云在自主可控AI核心框架下的整体布局和发展方向。
首个!阿里云人工智能平台率先通过国际标准认证
首个!阿里云人工智能平台率先通过国际标准认证
269 7
【新闻文本分类识别系统】Python+卷积神经网络算法+人工智能+深度学习+计算机毕设项目+Django网页界面平台
文本分类识别系统。本系统使用Python作为主要开发语言,首先收集了10种中文文本数据集("体育类", "财经类", "房产类", "家居类", "教育类", "科技类", "时尚类", "时政类", "游戏类", "娱乐类"),然后基于TensorFlow搭建CNN卷积神经网络算法模型。通过对数据集进行多轮迭代训练,最后得到一个识别精度较高的模型,并保存为本地的h5格式。然后使用Django开发Web网页端操作界面,实现用户上传一段文本识别其所属的类别。
331 1
【新闻文本分类识别系统】Python+卷积神经网络算法+人工智能+深度学习+计算机毕设项目+Django网页界面平台
【果蔬识别系统】Python+卷积神经网络算法+人工智能+深度学习+计算机毕设项目+Django网页界面平台
【果蔬识别系统】Python+卷积神经网络算法+人工智能+深度学习+计算机毕设项目+Django网页界面平台。果蔬识别系统,本系统使用Python作为主要开发语言,通过收集了12种常见的水果和蔬菜('土豆', '圣女果', '大白菜', '大葱', '梨', '胡萝卜', '芒果', '苹果', '西红柿', '韭菜', '香蕉', '黄瓜'),然后基于TensorFlow库搭建CNN卷积神经网络算法模型,然后对数据集进行训练,最后得到一个识别精度较高的算法模型,然后将其保存为h5格式的本地文件方便后期调用。再使用Django框架搭建Web网页平台操作界面,实现用户上传一张果蔬图片识别其名称。
280 0
【果蔬识别系统】Python+卷积神经网络算法+人工智能+深度学习+计算机毕设项目+Django网页界面平台

相关产品

  • 人工智能平台 PAI
  • AI助理

    你好,我是AI助理

    可以解答问题、推荐解决方案等

    登录插画

    登录以查看您的控制台资源

    管理云资源
    状态一览
    快捷访问