snapshot下载模型 Downloading: pytorch_model-00001-of-00002.bin failed, reason: HTTPSConnectionPool(host='http://www.modelscope.cn', port=443): Read timed out. will retry modelscope中有什么好的解决办法吗?
在使用 snapshot_download
方法从 ModelScope 下载模型时,如果遇到类似以下错误:
Downloading: pytorch_model-00001-of-00002.bin failed, reason: HTTPSConnectionPool(host='http://www.modelscope.cn', port=443): Read timed out.
这通常是由于网络连接问题或下载超时导致的。以下是针对该问题的解决办法和优化建议:
export http_proxy=http://your-proxy-server:port
export https_proxy=http://your-proxy-server:port
配置完成后,重新运行下载命令。
snapshot_download
方法支持通过参数调整下载超时时间。您可以通过设置 timeout
参数来延长超时时间,避免因网络延迟导致的下载失败。例如:
from modelscope.hub.snapshot_download import snapshot_download
model_dir = snapshot_download(
'LLM-Research/Meta-Llama-3-8B-Instruct',
cache_dir='.',
revision='master',
timeout=600 # 设置超时时间为600秒(默认为300秒)
)
某些大模型文件可能被分割为多个分块(如 pytorch_model-00001-of-00002.bin
)。如果某个分块下载失败,可以尝试单独下载该分块文件,并将其手动放置到缓存目录中。具体步骤如下: 1. 找到失败的分块文件:根据错误信息确定具体的分块文件名(如 pytorch_model-00001-of-00002.bin
)。 2. 手动下载分块文件:通过浏览器或其他工具直接下载该分块文件。例如:
wget https://www.modelscope.cn/path/to/pytorch_model-00001-of-00002.bin
snapshot_download
的缓存目录中(通常为当前目录下的 .cache/modelscope
文件夹)。snapshot_download
会自动检测已存在的分块文件并跳过重新下载。如果直接访问 ModelScope 官方站点速度较慢,可以尝试使用阿里云提供的镜像站点或其他加速服务。例如,在 DSW 实例中,您可以选择特定地域的镜像 URL 来加速模型下载:
dsw-registry-vpc.REGION.cr.aliyuncs.com/pai-training-algorithm/llm_deepspeed_peft:v0.0.3
将 REGION
替换为实例所属地域的代号(如 cn-hangzhou
、cn-shanghai
等)。
如果下载过程中提示内存不足或磁盘空间不足,您可以通过扩容云盘来解决问题。具体操作请参考云盘扩容指引。
如果上述方法仍无法解决问题,您可以尝试通过其他方式下载模型文件。例如: - Git LFS Clone:使用 git-lfs
工具克隆模型仓库。例如:
sudo apt-get update
sudo apt-get install git-lfs
git lfs clone https://modelscope.cn/qwen/Qwen-7B-Chat.git
如果尝试以上方法后问题仍未解决,建议联系阿里云技术支持团队,提供详细的错误日志和环境信息,以便进一步排查问题。
通过以上方法,您可以有效解决 snapshot_download
下载失败的问题,并顺利完成模型文件的获取。
ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!欢迎加入技术交流群:微信公众号:魔搭ModelScope社区,钉钉群号:44837352