"从modelscope跳转到阿里云DSW报错训? 

这是错误详情"
根据您提供的问题描述“从ModelScope跳转到阿里云DSW报错”,结合知识库中的相关资料,以下是可能的原因分析及解决方法:
在跳转过程中,如果未正确配置权限,可能会导致报错。以下是需要检查的权限配置: - OSS权限:DSW依赖OSS进行数据存储,确保当前账号已开通OSS服务并授予AliyunOSSFullAccess权限。 - 如果使用RAM账号操作,请确认已为RAM账号授予OSS访问权限。 - 如果未授权,可以通过PAI控制台的“一键授权”功能完成授权。 - NAS权限:如果您的DSW实例需要挂载NAS文件系统,请确保已正确配置NAS权限,并且NAS文件系统已成功挂载到/nas目录。
解决方法: 1. 登录PAI控制台,进入“开通和授权 > 全部云产品依赖”页面,检查OSS和NAS的授权状态。 2. 如果未授权,单击“一键授权”完成操作。
从ModelScope下载模型时,可能会因国内网络限制导致连接失败,例如拉取模型时报“1005”链接错误。
解决方法: 1. 设置代理:在DSW开发环境中配置网络代理,确保能够正常访问外部资源。
export http_proxy=http://your-proxy-server:port
export https_proxy=http://your-proxy-server:port
git clone https://www.modelscope.cn/LLM-Research/Meta-Llama-3-8B.git
跳转到DSW时,如果实例未正确创建或配置,也可能导致报错。以下是需要检查的配置项: - 实例规格:确保DSW实例的GPU规格满足需求。推荐使用V100(16GB)或更高显存的GPU。 - Python环境:建议使用Python 3.9及以上版本。 - 镜像选择:确保选择了正确的镜像。例如,Llama3微调训练推荐使用的镜像为:
dsw-registry-vpc.REGION.cr.aliyuncs.com/pai-training-algorithm/llm_deepspeed_peft:v0.0.3
其中,REGION需要替换为DSW实例所属地域的代号(如cn-hangzhou、cn-shanghai等)。
解决方法: 1. 登录PAI控制台,进入DSW页面,检查实例的配置是否符合要求。 2. 如果实例配置不正确,删除现有实例并重新创建。
DSW登录Session的有效期为3小时,过期后需要重新登录。如果长时间未操作,可能会导致跳转失败。
解决方法: 1. 刷新DSW页面,重新登录。 2. 如果需要长时间运行任务,建议在DSW Terminal中使用nohup命令后台执行任务,避免因Session过期中断。
如果上述方法均无法解决问题,请根据错误详情进一步排查: 1. 在DSW Terminal中查看详细的错误日志,定位具体问题。 2. 如果是模型下载失败,可以尝试手动下载模型文件并上传至DSW实例。例如:
wget https://atp-modelzoo-sh.oss-cn-shanghai.aliyuncs.com/tutorial/llm_instruct/en_poetry_train.json
如果您仍然无法解决问题,请提供具体的错误代码或日志信息,以便进一步分析和处理。您可以复制页面截图提供更多信息,我可以进一步帮您分析问题原因。
ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!欢迎加入技术交流群:微信公众号:魔搭ModelScope社区,钉钉群号:44837352