开发专题 | 1 :下载 huggingface 上模型的正确姿势

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
实时数仓Hologres,5000CU*H 100GB 3个月
简介: 本文主要介绍如何以正确的方式下载 huggingface 上的模型

更多、更及时内容欢迎留意微信公众号小窗幽记机器学习

背景

之前下载huggingface上模型的时候,要么是用类似如下脚本的方式下载:

from transformers import AutoTokenizer, AutoModelForMaskedLM

tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")
model = AutoModelForMaskedLM.from_pretrained("bert-base-uncased")

要么是在Files and versions 中点击目标文件逐一下载:

image.png

那么是否有更方便的方式,一行命令直接下载整个模型文件?有的,使用git lfs 即可。

环境安装

LFS是Large File Storage的缩写,用于帮助git管理大文件。不同于git每次保存diff,对于git来说,如果是模型或者一些设计大文件,改变一点,对于仓库来说会增加很大的体积,不一会就能几个G。对于git lfs来说,在使用git lfs track命令后,git push的时候,git lfs会截取要管理的大文件,并将其传至git lfs的服务器中,从而减小仓库的体积。

工具安装:

yum install git-lfs
# Make sure you have git-lfs installed
# (https://git-lfs.github.com/)
git lfs install

模型下载

至此,可以使用git clone https://huggingface.co/username/your-model-name下载目标模型。比如想要下载bert-base-uncased模型:

git clone https://huggingface.co/bert-base-uncased

image.png

下载结果可以和网页结果比对:

image.png

并进行hash校验,可以看出结果相同,即表明正常下载了模型文件。

image.png

image.png

相关文章
|
6月前
|
文字识别 并行计算 语音技术
ModelScope问题之下载模型文件报错如何解决
ModelScope模型报错是指在使用ModelScope平台进行模型训练或部署时遇到的错误和问题;本合集将收集ModelScope模型报错的常见情况和排查方法,帮助用户快速定位问题并采取有效措施。
809 3
|
4月前
|
自然语言处理
Ollama部署本地模型
Ollama 是一个用于本地部署大型语言模型的平台。首先关闭 ollama 服务,在环境变量中设置 `OLLAMA_MODELS` 为目标模型路径,`OLLAMA_ORIGINS` 为 `"*"`,重启服务和 VSCode。启动服务 `ollama serve`,运行 `ollama run codegeex4`。配置插件接口地址为 `http://localhost:11434/v1/chat/completions`,并在模型名称处填入 `codegeex4` 启用高级模式。可能需优化下载速度并解决其他问题。
374 4
|
4月前
|
TensorFlow 算法框架/工具 C++
构建NLP 开发问题之如何将模型导出为 ONNX、TensorRT 或 Tensorflow 格式以便部署
构建NLP 开发问题之如何将模型导出为 ONNX、TensorRT 或 Tensorflow 格式以便部署
|
4月前
|
人工智能 Linux Windows
MoneyPrinterPlus全面支持本地Ollama大模型
现在,MoneyPrinterPlus除了支持大模型厂商的服务之外,还可以接入本地的Ollama大模型了。
|
5月前
|
人工智能 安全 API
用通义Qwen大模型和Streamlit构建 ChatPDF 应用(附代码)
本文介绍了如何利用通义千问Qwen大模型构建一个本地ChatPDF AI助手,该助手允许用户上传PDF并与之对话,确保文档隐私安全。项目通过阿里云百炼平台获取Qwen-Long模型,支持多种文档格式。现实现步骤包括导入库、加载环境变量、初始化客户端、编码器、页面与对话管理、文件上传、选择模型、获取AI回答及计算费用,主函数整合这些功能,提供交互体验。
709 0
用通义Qwen大模型和Streamlit构建 ChatPDF 应用(附代码)
|
6月前
|
并行计算
HuggingFace Tranformers 源码解析(1)
HuggingFace Tranformers 源码解析
108 0
|
6月前
|
开发工具 git
HuggingFace Tranformers 源码解析(2)
HuggingFace Tranformers 源码解析
63 0
|
6月前
HuggingFace Tranformers 源码解析(4)
HuggingFace Tranformers 源码解析
123 0
|
6月前
HuggingFace Tranformers 源码解析(3)
HuggingFace Tranformers 源码解析
161 0
|
PyTorch 算法框架/工具
ModelScope是一个基于PyTorch的模型管理平台
ModelScope是一个基于PyTorch的模型管理平台
315 3