开发专题 | 1 :下载 huggingface 上模型的正确姿势

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
实时数仓Hologres,5000CU*H 100GB 3个月
简介: 本文主要介绍如何以正确的方式下载 huggingface 上的模型

更多、更及时内容欢迎留意微信公众号小窗幽记机器学习

背景

之前下载huggingface上模型的时候,要么是用类似如下脚本的方式下载:

from transformers import AutoTokenizer, AutoModelForMaskedLM

tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")
model = AutoModelForMaskedLM.from_pretrained("bert-base-uncased")

要么是在Files and versions 中点击目标文件逐一下载:

image.png

那么是否有更方便的方式,一行命令直接下载整个模型文件?有的,使用git lfs 即可。

环境安装

LFS是Large File Storage的缩写,用于帮助git管理大文件。不同于git每次保存diff,对于git来说,如果是模型或者一些设计大文件,改变一点,对于仓库来说会增加很大的体积,不一会就能几个G。对于git lfs来说,在使用git lfs track命令后,git push的时候,git lfs会截取要管理的大文件,并将其传至git lfs的服务器中,从而减小仓库的体积。

工具安装:

yum install git-lfs
# Make sure you have git-lfs installed
# (https://git-lfs.github.com/)
git lfs install

模型下载

至此,可以使用git clone https://huggingface.co/username/your-model-name下载目标模型。比如想要下载bert-base-uncased模型:

git clone https://huggingface.co/bert-base-uncased

image.png

下载结果可以和网页结果比对:

image.png

并进行hash校验,可以看出结果相同,即表明正常下载了模型文件。

image.png

image.png

相关文章
|
5月前
|
文字识别 并行计算 语音技术
ModelScope问题之下载模型文件报错如何解决
ModelScope模型报错是指在使用ModelScope平台进行模型训练或部署时遇到的错误和问题;本合集将收集ModelScope模型报错的常见情况和排查方法,帮助用户快速定位问题并采取有效措施。
701 3
|
机器学习/深度学习 编解码 自然语言处理
modelscope模型库列表
modelscope模型库列表
5560 0
|
3月前
|
人工智能 Linux Windows
MoneyPrinterPlus全面支持本地Ollama大模型
现在,MoneyPrinterPlus除了支持大模型厂商的服务之外,还可以接入本地的Ollama大模型了。
|
4月前
|
人工智能 安全 API
用通义Qwen大模型和Streamlit构建 ChatPDF 应用(附代码)
本文介绍了如何利用通义千问Qwen大模型构建一个本地ChatPDF AI助手,该助手允许用户上传PDF并与之对话,确保文档隐私安全。项目通过阿里云百炼平台获取Qwen-Long模型,支持多种文档格式。现实现步骤包括导入库、加载环境变量、初始化客户端、编码器、页面与对话管理、文件上传、选择模型、获取AI回答及计算费用,主函数整合这些功能,提供交互体验。
540 0
用通义Qwen大模型和Streamlit构建 ChatPDF 应用(附代码)
|
5月前
|
Web App开发 开发工具 git
下载HuggingFace大模型上传到Modelscope模型库
下载大模型,都是通过huggingface。以前Llama 2的下载,必须通过Meta才能下载,直接使用Meta的代码去Meta官方下载,国内是很容易中断,导致无法下载。现在你通过了Meta申请通过后,可以直接在huggingface进行下载。
|
11月前
|
PyTorch 算法框架/工具
ModelScope是一个基于PyTorch的模型管理平台
ModelScope是一个基于PyTorch的模型管理平台
278 3
|
11月前
|
机器学习/深度学习 TensorFlow API
ModelScope部署到trt-llm
ModelScope部署到trt-llm
281 3
|
存储 机器学习/深度学习 人工智能
本地部署开源大模型的完整教程:LangChain + Streamlit+ Llama
在过去的几个月里,大型语言模型(llm)获得了极大的关注,这些模型创造了令人兴奋的前景,特别是对于从事聊天机器人、个人助理和内容创作的开发人员。
8500 1
|
机器学习/深度学习 人工智能 JSON
LangChain + ChatGLM2-6B 搭建个人专属知识库
之前教过大家利用 langchain + ChatGLM-6B 实现个人专属知识库,非常简单易上手。最近,智谱 AI 研发团队又推出了 ChatGLM 系列的新模型 ChatGLM2-6B,是开源中英双语对话模型 ChatGLM-6B 的第二代版本,性能更强悍。 树先生之所以现在才更新 ChatGLM2-6B 知识库教程,是想等模型本身再多迭代几个版本,不至于刚出的教程很快不适配,或者项目本身一堆 bug,那样大家使用体验也不好。
2695 3
|
Linux Shell 网络安全
大模型之Huggingface初体验
huggingface相关环境的安装和问题处理本篇暂不涉及,后续补充。这里以一个模型为例,完成从模型介绍到加载、运行的完整过程,作为我们熟悉huggingface的一个示例。
1378 0
下一篇
无影云桌面