【ChatGLM2-6B】我在3090显卡上部署了清华大学开源中英双语对话模型

简介: 【ChatGLM2-6B】我在3090显卡上部署了清华大学开源中英双语对话模型

前言

  盼望已久的国内开源项目终于来了,这次可算是对于现在仍然没有ChatGtp人员的福音。在这里我将着重记录如何部署清华大学开源的ChatGLM2-6B项目。

性能简介

ChatGLM2-6B 是开源中英双语对话模型 ChatGLM-6B 的第二代版本,在保留了初代模型对话流畅、部署门槛较低等众多优秀特性的基础之上,ChatGLM2-6B 引入了如下新特性:

  1. 更强大的性能:在同尺寸开源模型中具有较强的竞争力
  2. 更长的上下文:允许更多轮次的对话
  3. 更高效的推理:INT4 量化下,6G 显存支持的对话长度由 1K 提升到了 8K。
  4. 更开放的协议:ChatGLM2-6B 权重对学术研究完全开放,在获得官方的书面许可后,亦允许商业使用。如果您发现我们的开源模型对您的业务有用,我们欢迎您对下一代模型 ChatGLM3 研发的捐赠。

硬件选择

  在README中的性能一栏中我们发现,作者团队是使用的硬件为A100-SXM4-80G 这对于我们个人来说是很难实现的。如采用CPU推理的话,这将不现实,我们无法忍受如此漫长的推理等待时间。那么GPU则是我们必须面对需要解决的问题了。根据清华团队在readme中所述:

使用官方实现,batch size = 1,max length = 2048,bf16 精度,测试硬件为 A100-SXM4-80G,软件环境为 PyTorch 2.0.1

  我们需要满足Pytorch 2.0 在pytorch官网上查阅如下可知我们需要的CUDA为11.7 或 11.8满足算力以及CUDA的版本要求可知常用显卡中3090符合要求。

image.png

量化等级 编码 2048 长度的最小显存 生成 8192 长度的最小显存
FP16 / BF16 13.1 GB 12.8 GB
INT8 8.2 GB 8.1 GB
INT4 5.5 GB 5.1 GB

部署安装

首先需要下载本仓库:

shell

复制代码

git clone https://github.com/THUDM/ChatGLM2-6B
cd ChatGLM2-6B

第二步: 使用 pip 安装依赖:pip install -r requirements.txt,其中 transformers 库版本推荐为 4.30.2torch 推荐使用 2.0 以上的版本,以获得最佳的推理性能。

第三步: 考虑到本地加载模型大多数人找不到相关文件夹带来的种种BUG,因此我在这里将不介绍本地加载。创建本地test_chat.py文件并运行等待系统下载模型文件(模型较大,请耐心等待)

shell

复制代码

from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("THUDM/chatglm2-6b", trust_remote_code=True)
model = AutoModel.from_pretrained("THUDM/chatglm2-6b", trust_remote_code=True, device='cuda')
model = model.eval()
response, history = model.chat(tokenizer, "你好", history=[])
print(response)

使用尝鲜

等待了半天,激动人心的时刻即将来临!直接运行程序进行提问:

shell

复制代码

python cli_demo.py

image.png


相关文章
【ChatGLM】本地版ChatGPT ?6G显存即可轻松使用 !ChatGLM-6B 清华开源模型本地部署教程
【ChatGLM】本地版ChatGPT ?6G显存即可轻松使用 !ChatGLM-6B 清华开源模型本地部署教程
545 0
|
20天前
|
存储 人工智能 缓存
Mooncake:月之暗面Kimi联合清华等机构推出的大模型推理架构
Mooncake是由月之暗面Kimi联合清华大学等机构共同开源的大模型推理架构。该架构以KVCache为中心,通过分布式设计和资源优化,显著提升了大模型推理的吞吐量和效率,同时降低了算力开销。Mooncake在长上下文场景中表现出色,支持多种应用场景,如自然语言处理、内容推荐系统和搜索引擎等。
87 6
Mooncake:月之暗面Kimi联合清华等机构推出的大模型推理架构
|
24天前
|
人工智能 自然语言处理 并行计算
探索大模型部署:基于 VLLM 和 ModelScope 与 Qwen2.5 在双 32G VGPU 上的实践之旅
本文介绍了使用 `VLLM` 和 `ModelScope` 部署 `Qwen2.5` 大模型的实践过程,包括环境搭建、模型下载和在双 32G VGPU 上的成功部署,展现了高性能计算与大模型结合的强大力量。
116 3
|
28天前
昇腾910A部署Qwen2-7B教程
Qwen2-7BS适配昇腾910A教程。
|
3月前
|
人工智能 自然语言处理 机器人
实战精选 | 5分钟利用 OpenVINO™ 部署 Qwen2.5
本文将以 Qwen2.5-7B-Instruct 为例,介绍如何利用 OpenVINO™ 的 Python API 在本地部署 Qwen2.5 系列模型。
实战精选 | 5分钟利用 OpenVINO™ 部署 Qwen2.5
|
弹性计算 人工智能 PyTorch
GPU实验室-在云上部署ChatGLM2-6B大模型
ChatGLB2-6B大模型:由智谱AI及清华KEG实验室于2023年6月发布的中英双语对话开源大模型。截至2023年7月,在C-Eval中,排名靠前。Pytorch:一个开源的Python机器学习库,基于Torch,底层由C++实现,应用于人工智能领域,如计算机视觉和自然语言处理。它主要由Meta Platforms的人工智能研究团队开发。著名的用途有:特斯拉自动驾驶,Uber最初发起而现属Linux基金会项目的概率编程软件Pyro,Lightning。
|
5月前
|
人工智能 JSON 自然语言处理
国内大模型LLM选择以及主流大模型快速使用教程[GLM4/Qwen/Baichuan/Coze/Kimi]
【7月更文挑战第7天】国内大模型LLM选择以及主流大模型快速使用教程[GLM4/Qwen/Baichuan/Coze/Kimi]
260 10
国内大模型LLM选择以及主流大模型快速使用教程[GLM4/Qwen/Baichuan/Coze/Kimi]
|
4月前
|
机器学习/深度学习 并行计算 Linux
清华大学ChatGLM大模型
ChatGLM-6B 是一个开源的中英双语对话模型,基于 GLM 架构,拥有 62 亿参数。它采用先进的量化技术,可在消费级显卡上本地部署,最低仅需 6GB 显存。该模型经过大规模中英双语训练,并针对中文问答和对话进行了优化。更多详情见我们的博客。模型权重对学术研究开放,并允许免费商业使用。安装依赖项使用 `pip install -r requirements.txt`。
|
5月前
|
人工智能 自然语言处理 测试技术
Meet Llama3.1,405B赶超最强闭源模型!上魔搭社区一站体验、下载、推理、微调、部署
官方公布的Benchmark显示,Llama3.1 405B已在多项基准测试中超越GPT-4o和Claude 3.5 Sonnet,这是开源大模型首次赶超最强闭源模型!
|
7月前
|
自然语言处理 前端开发 Swift
社区供稿 | 中文llama3模型哪家强?llama3汉化版微调模型大比拼
随着llama3的发布,业界越来越多的针对其中文能力的微调版本也不断涌现出来,我们在ModelScope魔搭社区上,搜集到几款比较受欢迎的llama3中文版本模型,来从多个维度评测一下,其对齐后的中文能力到底如何? 微调后是否产生了灾难性遗忘问题。
下一篇
DataWorks