问题一:请问有人出现过机器学习PAI这种报错吗?
请问有人出现过机器学习PAI这种报错吗?
在用easycv预训练FastConvMAE的时候遇到一个报错,运行的命令是python -m torch.distributed.launch --nproc_per_node=1 --master_port=29930 tools/train.py configs/selfsup/fast_convmae/fast_convmae_vit_base_patch16_8xb64_50e.py --work_dir ./work_dir --launcher pytorch但无论我怎么改fast_convmae_vit_base_patch16_8xb64_50e.py里的data_train_root的地址始终都会报这个错误,请问有什么办法可以解决这个问题吗?
参考答案:
每行文件似乎是有lable 把后面的空格和label去掉试试
关于本问题的更多回答可点击进行查看:
https://developer.aliyun.com/ask/612729
问题二:机器学习PAI这个离线预测报这个错 有遇到过吗?
机器学习PAI这个离线预测报这个错 有遇到过吗?MR 是没问题的
参考答案:
先把输出表 drop 掉,会自动创建的,目前报错是类型不匹配
关于本问题的更多回答可点击进行查看:
https://developer.aliyun.com/ask/607550
问题三:"机器学习PAI遇到一个问题,worker0 完成后,其他几个worker一直报?
"机器学习PAI遇到一个问题,worker0 完成后,其他几个worker一直报 [INFO] [77#215] [tensorflow/core/distributed_runtime/master.cc:172] CreateSession still waiting for response from worker: /job:worker/replica:0/task:0
这种可能有什么问题啊?"
参考答案:
重新跑一下试试,感觉是不是 worker-0 跑的太快了,其他 work 还没启动,这个 work-0 就结束了,然后结束的信号发给别的 work 没有收到。
关于本问题的更多回答可点击进行查看:
https://developer.aliyun.com/ask/607542
问题四:机器学习PAI执行Alink的job时,报错?
机器学习PAI执行Alink的job时,报错Caused by: com.alibaba.alink.common.exceptions.AkUnclassifiedErrorException: Cannot download file from https://alink-release.oss-cn-beijing.aliyuncs.com/deps-files/resources/libtorch_linux-1.8.1/libtorch-shared-with-deps-1.8.1-cpu.zip,已经使用AlinkGlobalConfiguration.setPluginDir()指定了plugins路径,并且路径下有对应的文件怎么办?
参考答案:
针对Alink在PAI上执行时下载依赖库失败的问题,先确认网络是否正常,能否访问指定的OSS地址。检查所设置的AlinkGlobalConfiguration.setPluginDir()
路径下是否包含了正确的libtorch库文件及其完整目录结构。若问题依然存在,可能需要检查是否有权限问题或者尝试重新下载依赖库文件到正确的位置。如果所有操作均无误,建议联系阿里云PAI团队寻求专业技术支持。
关于本问题的更多回答可点击进行查看:
https://developer.aliyun.com/ask/606712
问题五:PAI-DSW下创建Stable Diffusion WebUI,启动候报500错误
参考答案:
看了你的问题,创建Stable Diffusion WebUI时遇到500错误的问题可能有多种原因,首先确保你在创建Stable Diffusion WebUI时正确配置了相关参数,如端口、访问权限等,特别是检查是否有冲突的端口或权限配置。
然后再去查看WebUI的错误日志,确认是否有详细的错误信息,可以帮助定位问题,日志一般位于WebUI的安装目录下的logs文件夹中。
关于本问题的更多回答可点击进行查看: