加载模型正常了,但是进行ModelScope模型微调训练时报错,找不到文件 ?

"加载模型正常了,但是进行ModelScope模型微调训练时报错,找不到文件 ? ad43709d3f6f15bf9801787279060c84.png
"

展开
收起
小小爱吃香菜 2024-01-31 18:28:01 76 分享 版权
阿里云 AI 助理回答

根据您描述的问题“加载模型正常了,但在进行ModelScope模型微调训练时报错,找不到文件”,以下是可能的原因及解决方法:


1. 检查数据集路径是否正确

在进行模型微调时,通常需要指定训练数据集的路径。如果路径配置错误或文件未正确上传,可能会导致报错。

解决方法:

  • 确保训练数据集已成功上传到指定目录,并且路径与代码中配置的路径一致。
  • 如果使用的是PAI平台,可以通过以下方式上传数据集:

    !wget https://atp-modelzoo-sh.oss-cn-shanghai.aliyuncs.com/tutorial/llm_instruct/en_poetry_train.json
    

    确认该命令执行成功,并检查文件是否存在于当前工作目录。

  • 如果是通过百炼平台上传数据集,请确保使用正确的API命令上传文件:

    dashscope files.upload -f '<替换为训练数据集的本地文件路径>' -p fine_tune -d 'training dataset'
    

    并记录返回的file_id,在后续微调任务中使用。


2. 确认模型文件是否完整下载

在ModelScope中下载模型时,可能会因为网络问题导致部分文件未完全下载,从而引发“找不到文件”的错误。

解决方法:

  • 检查模型文件是否完整下载。例如,在DSW实例中执行以下命令验证模型文件是否存在:

    from modelscope.hub.snapshot_download import snapshot_download
    snapshot_download('LLM-Research/Meta-Llama-3-8B-Instruct', cache_dir='.', revision='master')
    

    确保cache_dir目录下生成了完整的模型文件。

  • 如果从Huggingface或ModelScope社区下载模型,请确保执行以下清理操作以避免Git相关问题:

    rm -rf .git
    

3. 检查NAS存储挂载是否正确

如果您使用了NAS存储来管理模型和数据集,可能是NAS存储未正确挂载或文件未同步到NAS中。

解决方法:

  • 确保NAS存储已正确挂载到DSW实例或ACK集群中。例如,在ACK中挂载NAS存储后,需进入挂载路径验证文件是否存在:

    cd /mnt/nas
    ls
    

    如果文件不存在,请重新上传或同步文件。

  • 如果使用函数计算部署模型,请确认模型文件已成功上传至NAS文件系统,并刷新模型列表。


4. 检查微调任务配置

在创建微调任务时,可能因配置参数错误(如file_id或路径)导致无法找到文件。

解决方法:

  • 在百炼平台创建微调任务时,确保使用正确的file_id

    dashscope fine_tunes.call -m qwen-turbo -t '<替换为训练数据集的file_id1>' '<替换为训练数据集的file_id2>' \
    -mode sft -b 16 -e 1 -l 1.6e-5 \
    -hyper_parameters split=0.9 warmup_ratio=0.0 eval_steps=1
    

    确保file_id与上传文件时返回的ID一致。

  • 如果使用PAI平台,请检查Notebook中的路径配置是否正确。例如,确保以下命令指向正确的文件路径:

    !wget https://atp-modelzoo-sh.oss-cn-shanghai.aliyuncs.com/tutorial/llm_instruct/en_poetry_train.json
    

5. 其他注意事项

  • 代理设置:如果在下载模型或数据集时遇到网络问题,请确保设置了正确的代理。
  • 权限问题:确保运行环境对目标文件夹具有读写权限。例如,避免以root用户运行可能导致权限冲突的命令。
  • 文件大小限制:在百炼平台上传文件时,单个文件大小不得超过300MB,总存储空间不得超过5GB。

总结

请按照上述步骤逐一排查问题,重点关注数据集路径、模型文件完整性、NAS存储挂载以及微调任务配置。如果问题仍未解决,请提供更多报错信息以便进一步分析。

有帮助
无帮助
AI 助理回答生成答案可能存在不准确,仅供参考
0 条回答
写回答
取消 提交回答

ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!欢迎加入技术交流群:微信公众号:魔搭ModelScope社区,钉钉群号:44837352

热门讨论

热门文章

还有其他疑问?
咨询AI助理