从modelscope跳转到阿里云DSW报错训?

"从modelscope跳转到阿里云DSW报错训? 1113596f868de35347b9f28e0845fbae.png
233c8378c1e324c83d5f39e1cd174009.png
这是错误详情"

展开
收起
小小爱吃香菜 2024-04-02 17:30:58 72 分享 版权
阿里云 AI 助理回答

根据您提供的问题描述“从ModelScope跳转到阿里云DSW报错”,结合知识库中的相关资料,以下是可能的原因分析及解决方法:


1. 检查权限配置

在跳转过程中,如果未正确配置权限,可能会导致报错。以下是需要检查的权限配置: - OSS权限:DSW依赖OSS进行数据存储,确保当前账号已开通OSS服务并授予AliyunOSSFullAccess权限。 - 如果使用RAM账号操作,请确认已为RAM账号授予OSS访问权限。 - 如果未授权,可以通过PAI控制台的“一键授权”功能完成授权。 - NAS权限:如果您的DSW实例需要挂载NAS文件系统,请确保已正确配置NAS权限,并且NAS文件系统已成功挂载到/nas目录。

解决方法: 1. 登录PAI控制台,进入“开通和授权 > 全部云产品依赖”页面,检查OSS和NAS的授权状态。 2. 如果未授权,单击“一键授权”完成操作。


2. 网络代理问题

从ModelScope下载模型时,可能会因国内网络限制导致连接失败,例如拉取模型时报“1005”链接错误。

解决方法: 1. 设置代理:在DSW开发环境中配置网络代理,确保能够正常访问外部资源。

export http_proxy=http://your-proxy-server:port
export https_proxy=http://your-proxy-server:port
  1. 使用国内镜像源:尝试通过国内镜像源下载模型文件。例如,使用ModelScope社区提供的镜像地址:
    git clone https://www.modelscope.cn/LLM-Research/Meta-Llama-3-8B.git
    

3. DSW实例配置问题

跳转到DSW时,如果实例未正确创建或配置,也可能导致报错。以下是需要检查的配置项: - 实例规格:确保DSW实例的GPU规格满足需求。推荐使用V100(16GB)或更高显存的GPU。 - Python环境:建议使用Python 3.9及以上版本。 - 镜像选择:确保选择了正确的镜像。例如,Llama3微调训练推荐使用的镜像为:

dsw-registry-vpc.REGION.cr.aliyuncs.com/pai-training-algorithm/llm_deepspeed_peft:v0.0.3

其中,REGION需要替换为DSW实例所属地域的代号(如cn-hangzhoucn-shanghai等)。

解决方法: 1. 登录PAI控制台,进入DSW页面,检查实例的配置是否符合要求。 2. 如果实例配置不正确,删除现有实例并重新创建。


4. Session过期问题

DSW登录Session的有效期为3小时,过期后需要重新登录。如果长时间未操作,可能会导致跳转失败。

解决方法: 1. 刷新DSW页面,重新登录。 2. 如果需要长时间运行任务,建议在DSW Terminal中使用nohup命令后台执行任务,避免因Session过期中断。


5. 错误日志排查

如果上述方法均无法解决问题,请根据错误详情进一步排查: 1. 在DSW Terminal中查看详细的错误日志,定位具体问题。 2. 如果是模型下载失败,可以尝试手动下载模型文件并上传至DSW实例。例如:

wget https://atp-modelzoo-sh.oss-cn-shanghai.aliyuncs.com/tutorial/llm_instruct/en_poetry_train.json

重要提醒

  • 计费规则:创建DSW实例后,将按照实例的服务时长计费。停止或删除实例后计费才会停止,请确保及时管理实例以避免不必要的费用。
  • 自定义镜像:如果预置镜像无法满足需求,可以参考文档准备自定义镜像。

如果您仍然无法解决问题,请提供具体的错误代码或日志信息,以便进一步分析和处理。您可以复制页面截图提供更多信息,我可以进一步帮您分析问题原因。

有帮助
无帮助
AI 助理回答生成答案可能存在不准确,仅供参考
0 条回答
写回答
取消 提交回答

ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!欢迎加入技术交流群:微信公众号:魔搭ModelScope社区,钉钉群号:44837352

热门讨论

热门文章

还有其他疑问?
咨询AI助理