社区供稿 | 本地部署通义千问大模型做RAG验证

本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
模型训练 PAI-DLC,100CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: 这篇文章中,我们通过将模搭社区开源的大模型部署到本地,并实现简单的对话和RAG。

背景

在之前我们通过使用千问的公网在线API,实现了对大模型的调用。但出于对数据安全与隐私保护、网络稳定性、定制化需求、知识产权保护、自主可控性、业务连续性以及成本效益等多方面的考虑,在有些场景下,需要使用一些已经训练好的基模进行本地化部署。通过本地化部署,可以更好地满足自身特定需求,确保业务的合法、稳定、连续运行,并提高对模型的掌控能力。

这篇文章中,我们通过将模搭社区开源的大模型部署到本地,并实现简单的对话和RAG。

开发框架介绍

ModelScope Library

ModelScope Library是魔搭社区提供的一个能够快速、方便的使用社区提供的各类模型的Python library,其中包含了ModelScope官方模型的实现,以及使用这些模型进行推理,finetune等任务所需的数据预处理,后处理,效果评估等功能相关的代码,同时也提供了简单易用的API,以及丰富的使用样例。通过调用library,用户可以只写短短的几行代码,就可以完成模型的推理、训练和评估等任务,也可以在此基础上快速进行二次开发,实现自己的创新想法。本文中我们使用这个库进行模型的加载。

ModelScope Library支持的模型不光局限于huggingface的transformers架构类的模型,并且社区提供大量的中文大语言模型,更适合我们在国内下载,也方便学习及使用。

环境准备

1. 环境检查

本地实验环境:

系统:Win11

显卡:1070(8G显存)

首先更新显卡驱动到最新版本,可以去官网下载或者直接在NVIDIA Geforce Experience中直接更新驱动到最新版本,新版本的驱动向下兼容更多版本的CUDA。

2602853f-d372-40bd-93c1-8d0cfa83037f[1].png

查看显卡驱动支持的CUDA的最高版本,小于等于此版本的CUDA均可以使用。CMD或powershell中执行如下命令:

nvidia-smi

efd1e479-110f-4f22-89b1-94af213fb38c[1].png

https://pytorch.org/查看当前最新版PyTorch支持最低Python版本为3.8,支持CUDA的11.8和12.1版本,后面我们选择安装12.1版本。

bec05a5a-5556-43cb-ab28-a73e3c74463f[1].png

最终生成的命令可以拷贝出来,下文需要使用。

2. 安装CUDA 12.1(可选)

此步骤可选,不安装的话后面Torch会自动安装

下载地址:

https://developer.nvidia.com/cuda-12-1-1-download-archive

04c4e130-6ccf-4ea4-bb3e-671dc13f6689[1].png

下载完成后直接安装即可,如果已经安装需要先卸载后再装。

3. 安装conda

conda可以用来管理Python环境,后面我们会使用conda创建一个Python3.10的运行环境。

下载地址:

https://www.anaconda.com/download

安装完成后,为了能在命令行中使用,需要将conda的相关目录加入环境变量,例如安装在D:\developer\anaconda,则需要将以下目录添加到PATH中:

D:\developer\anaconda
D:\developer\anaconda\Scripts
D:\developer\anaconda\Library\bin
D:\developer\anaconda\Library\mingw-w64\bin

打开powershell,执行conda init初始化conda的powershell和cmd环境,linux下会初始化bash环境,初始化后方便进入conda创建的Python环境。

4. 使用conda创建PyTorch环境

我们使用conda创建一个Python版本为3.10的Python运行环境,在命令行中执行如下命令:

conda create -n pytorch python=3.10
conda activate pytorch

使用上文中安装PyTorch的命令安装PyTorch

conda install pytorch torchvision torchaudio pytorch-cuda=12.1 -c pytorch -c nvidia

5. 下载模型

我们可以去模搭社区获取模型,国内的地址,下载速度快,不需要魔法可以直接访问。

模型库地址:https://modelscope.cn/models

这里使用Qwen1.5-0.5B-Chat这个对话模型进行体验,模型较小,占用内存少,生成速度快。

模型地址:

https://modelscope.cn/models/qwen/Qwen1.5-0.5B-Chat/summary

0143863c-3abc-44d3-9891-d80159005e51[1].png

点击模型文件 -> 下载模型,可支持两种下载方式:Sdk和Git

1d80d77d-a81f-4690-b1fe-6386f15db57d[1].png

我们通过git的方式将模型文件下载到本地

mkdir Qwen && cd Qwen
git clone https://www.modelscope.cn/qwen/Qwen1.5-0.5B-Chat.git
cd ..

加载模型

1. 模型功能验证

可以使用modelscope Library加载模型,使用方法与transformers相同,使用AutoModelForCausalLM.from_pretrained方法和AutoTokenizer.from_pretrained从本地文件中加载,如果路径不存在,这两个方法会自动到modelscope下载模型文件。

需要先安装modelscope库:

pip install modelscope transformers

使用量化模型的话需要安装以下库:

pip install optimum auto-gptq

创建一个Python文件,放到与上文Qwen文件夹同级的目录中,内容如下:

from threading import Thread
from modelscope import (AutoModelForCausalLM, AutoTokenizer)
from transformers import TextIteratorStreamer
device = "cuda"  # 将模型加载到哪个硬件,此处为GPU
model = AutoModelForCausalLM.from_pretrained(
    "Qwen/Qwen1.5-0.5B-Chat", # 模型文件夹路径
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen1.5-0.5B-Chat")
while True:
    user_input = input("请输入问题(q退出):")
    if user_input.lower() == "q":
        print("exit")
        break
    try:
        messages = [
            {"role": "system", "content": "You are a helpful assistant."},
            {"role": "user", "content": user_input}
        ]
        text = tokenizer.apply_chat_template(
            messages,
            tokenize=False,
            add_generation_prompt=False
        )
        inputs = tokenizer([text], return_tensors="pt").to(device)
        streamer = TextIteratorStreamer(tokenizer)
        generation_kwargs = dict(inputs, streamer=streamer, max_new_tokens=512)
        thread = Thread(target=model.generate, kwargs=generation_kwargs)
        thread.start()
        generated_text = ""
        count = 0
        for new_text in streamer:
            generated_text += new_text
            print(new_text, end="", flush=True)
        print()
    except Exception as e:
        print(f"出错了:{str(e)}")

上面的代码首先从本地模型文件夹中加载了模型和分词器,然后我们在一个循环中接收用户输入,并将输入处理后通过大模型进行内容生成。我们可以通过python运行上面的文件,运行后,就可以测试了,就测试运行效果如下:

06a95b4f-9996-4aef-973c-a282f4922bce[1].png

2. LangChain加载本地模型

到目前为止,我们已经在本地跑起来了一个千问0.5B大语言模型,接下来需要让langchain能够加载这个本地模型。

如果要用langchain加载模型,我们需要继承langchain.llms.base.LLM 类,并且重写_llm_type, _call方法,因为我们需要支持流式输出,就需要重写_stream方法。可参考langchain的官方文档:Custom LLM | 🦜️🔗 LangChain

下面是这个类的代码:

from abc import ABC
from threading import Thread
from typing import Any, List, Mapping, Optional, Iterator
from langchain.callbacks.manager import CallbackManagerForLLMRun
from langchain.llms.base import LLM
from langchain_core.outputs import GenerationChunk
from modelscope import AutoModelForCausalLM, AutoTokenizer
from transformers import TextIteratorStreamer
device = "cuda"  # the device to load the model onto
model = AutoModelForCausalLM.from_pretrained(
    "Qwen/Qwen1.5-0.5B-Chat",
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen1.5-0.5B-Chat")
class QwenLocalLLM(LLM, ABC):
    max_token: int = 10000
    temperature: float = 0.01
    top_p = 0.9
    def __init__(self):
        super().__init__()
    @property
    def _llm_type(self) -> str:
        return "Qwen"
    def _call(
            self,
            prompt: str,
            stop: Optional[List[str]] = None,
            run_manager: Optional[CallbackManagerForLLMRun] = None,
            **kwargs: Any
    ) -> str:
        messages = [
            {"role": "system", "content": "You are a helpful assistant."},
            {"role": "user", "content": prompt}
        ]
        text = tokenizer.apply_chat_template(
            messages,
            tokenize=False,
            add_generation_prompt=True
        )
        model_inputs = tokenizer([text], return_tensors="pt").to(device)
        generated_ids = model.generate(
            model_inputs.input_ids,
            max_new_tokens=512
        )
        generated_ids = [
            output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
        ]
        response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
        return response
    @property
    def _identifying_params(self) -> Mapping[str, Any]:
        """Get the identifying parameters."""
        return {"max_token": self.max_token,
                "temperature": self.temperature,
                "top_p": self.top_p,
                "history_len": self.history_len}
    def _stream(
            self,
            prompt: str,
            stop: Optional[List[str]] = None,
            run_manager: Optional[CallbackManagerForLLMRun] = None,
            **kwargs: Any,
    ) -> Iterator[GenerationChunk]:
        try:
            messages = [
                {"role": "system", "content": "You are a helpful assistant."},
                {"role": "user", "content": prompt}
            ]
            text = tokenizer.apply_chat_template(
                messages,
                tokenize=False,
                add_generation_prompt=False
            )
            inputs = tokenizer([text], return_tensors="pt").to(device)
            streamer = TextIteratorStreamer(tokenizer)
            generation_kwargs = dict(inputs, streamer=streamer, max_new_tokens=512)
            thread = Thread(target=model.generate, kwargs=generation_kwargs)
            thread.start()
            generated_text = ""
            for new_text in streamer:
                generated_text += new_text
                print(new_text, end="", flush=True)
                yield GenerationChunk(
                    text=new_text
                )
            print()
        except Exception as e:
            print(f"出错了:{str(e)}")
            yield GenerationChunk(
                text=f"生成失败: {str(e)}"
            )

最后修改上一篇文章中的生成方法,将初始化千问模型的代码替换为上面的实现类:

# 替换前
model = Tongyi()
model.model_name = "qwen-max"
# 替换后
model = QwenLocalLLM()

效果展示

更换之前:

a321e8c9-e1c2-4a93-959d-b6017c125d9b[1].png

企业微信截图_17138386684085.png

生成结果:

离线包更新的原理涉及以下几个方面:

1. **离线包结构**:离线包通常是一个包含前端资源的`.zip`包,这些资源可以是HTML、CSS、JavaScript文件或者图片等。这些资源被组织在一起,以便客户端能够下载并离线使用。
2. **离线包类型**:可能有不同类型的离线包,比如全量包和增量包。全量包包含所有更新的资源,而增量包只包含与旧版本相比发生变化的资源。
3. **渲染过程**:当客户端应用启动或用户触发更新时,会通过特定的RPC调用获取最新的离线包信息。然后,客户端会下载这个包,并将其解压缩到本地的沙盒目录。如果配置了验签,客户端还会验证包的完整性。一旦包被成功解压和验证,客户端会使用新的资源来渲染页面。
4. **更新流程**:更新流程包括构建前端`.zip`包,在线生成`.amr`包(可能是处理签名和版本信息的打包格式),然后通过发布平台将包推送给客户端。客户端在接收到更新信息后,会下载并应用新的离线包。
5. **检查和调试**:如果客户端无法加载新包,可以通过检查RPC返回结果、确认加载的离线包信息、检查沙盒目录下的解压情况、验证签名以及使用Safari调试H5页面来排查问题。
6. **客户端范围**:在控制台上传新版本离线包时,需要指定支持的客户端版本范围,只有在这个范围内的客户端才能接收并更新离线包。
7. **用户交互**:在应用中,用户触发更新后,会收到提示,更新完成后可以访问使用新离线包的页面。
详细原理可以参考[离线包简介](/document_detail/59594.html#topic-2125626)。

耗时15秒多,而且按要求生成了Markdown格式的文本。

更换成本地Qwen-0.5B模型:

企业微信截图_17138386777627.png

企业微信截图_17138386845963.png

生成结果:

离线包更新的原理是这样的:
1. 首先,您需要安装离线包相关的配置文件。
2. 然后,您可以将离线包添加到应用的缓存或数据库中,以便下次下载使用。
3. 一旦离线包添加到缓存或数据库中,它将在后续请求中的 `<head>` 响应头中包含一个 `Content-Disposition` 属性,指定要下载的离线包的类型和URL,以及其离线包大小。
4. 然后,服务器会在适当的时候发送一个响应头,其中包含了离线包的状态码(如 `200 OK`)和一些相关信息,例如离线包的实际URL。
5. 最后,客户端可以从响应头中获取离线包的内容,并进行相应的操作。
此外,离线包还包含一些额外的信息,例如离线包的完整路径、离线包的版本号等,这些信息可以用于维护离线包的历史记录和调试。

生成内容长度仅为上面的一半不到,耗时也不到一半,但内容的正确性就一言难尽了。

对比后可以看到,prompt相同的情况下,Qwen1.5-0.5B-Chat因为模型较小,生成速度较快,但生成内容的质量相比在线的qwen-max、qwen-plus这些还是相差甚远。

当前文章仅提供本地化部署的思路,如果需要达成更好的效果,则需要使用qwen系列更大的模型,例如Qwen1.5-72B-Chat,而且要更高配置的硬件支持。

后续方向

私有化部署大模型花费的精力很多,不过大模型私有化部署也有一些好处,比如:

数据安全:能够更好地保护企业的数据隐私和安全。

定制化:可以根据企业的具体需求进行定制和优化。

掌控权:企业对模型具有更大的掌控权,可以进行灵活的管理和调整。

效率提升:可针对企业特定业务流程进行优化,提高工作效率。

稳定性:减少对外部网络和服务的依赖,提高系统的稳定性。

合规性:有助于满足企业在数据隐私和安全方面的合规要求。

品牌建设:打造具有企业自身特色的人工智能解决方案,提升品牌形象。

资源优化:根据企业的实际情况进行资源分配和优化,避免不必要的浪费。

可根据企业自身需求进行选择,后续我们会继续学习探索。

相关实践学习
阿里云百炼xAnalyticDB PostgreSQL构建AIGC应用
通过该实验体验在阿里云百炼中构建企业专属知识库构建及应用全流程。同时体验使用ADB-PG向量检索引擎提供专属安全存储,保障企业数据隐私安全。
AnalyticDB PostgreSQL 企业智能数据中台:一站式管理数据服务资产
企业在数据仓库之上可构建丰富的数据服务用以支持数据应用及业务场景;ADB PG推出全新企业智能数据平台,用以帮助用户一站式的管理企业数据服务资产,包括创建, 管理,探索, 监控等; 助力企业在现有平台之上快速构建起数据服务资产体系
相关文章
|
27天前
|
测试技术
通义千问团队开源全新的过程奖励模型PRM!
近年来,大型语言模型(LLMs)在数学推理方面取得了显著进展,但它们仍可能在过程中犯错误,如计算错误或逻辑错误,导致得出不正确的结论;即使最终答案正确,这些强大的模型也可能编造看似合理的推理步骤,这削弱了 LLMs 推理过程的可靠性和可信度。
|
26天前
|
编解码 人工智能 API
通义万相2.1视频/图像模型新升级!可在阿里云百炼直接体验
通义万相2.1模型推出新特征,包括复杂人物运动的稳定展现、现实物理规律的逼真还原及中英文视频特效的绚丽呈现。通过自研的高效VAE和DiT架构,增强时空上下文建模能力,支持无限长1080P视频的高效编解码,并首次实现中文文字视频生成功能。升级后的通义万相荣登VBench榜单第一,提供电影级分镜效果、四格漫画故事速览及情侣头像创意定制等多种玩法,满足多样化的视觉创作需求。可直接在阿里云百炼平台调用API体验这些功能。
|
1月前
|
编解码 Cloud Native 算法
通义万相:视觉生成大模型再进化
通义万相是阿里云推出的视觉生成大模型,涵盖图像和视频生成。其2.0版本在文生图和文生视频方面进行了重大升级,采用Diffusion Transformer架构,提升了模型的灵活性和可控性。通过高质量美学标准和多语言支持,大幅增强了画面表现力。此外,视频生成方面引入高压缩比VAE、1080P长视频生成及多样化艺术风格支持,实现了更丰富的创意表达。未来,通义万相将继续探索视觉领域的规模化和泛化,打造更加通用的视觉生成大模型。
|
2月前
|
Go 开发工具
百炼-千问模型通过openai接口构建assistant 等 go语言
由于阿里百炼平台通义千问大模型没有完善的go语言兼容openapi示例,并且官方答复assistant是不兼容openapi sdk的。 实际使用中发现是能够支持的,所以自己写了一个demo test示例,给大家做一个参考。
|
11天前
|
自然语言处理 安全 搜索推荐
阿里通义等提出Chronos:慢思考RAG技术助力新闻时间线总结
在数字化时代,新闻信息的指数级增长使得从海量文本中提取和整理历史事件的时间线变得至关重要。为了应对这一挑战,阿里巴巴通义实验室与上海交通大学的中断者提出了一种基于Agent的新闻时间线摘要新框架——CH RONOS,源自希腊神话中的时间之神柯罗诺斯,该框架通过迭代多轮的自我提问方式,结合检索增强生成技术,从互联网上检索相关事件信息,并生成时间顺序的新闻摘要,为新闻时间线摘要生成提供了一种全新的解决方案。
|
19天前
|
机器学习/深度学习 人工智能 监控
DiffuEraser:阿里通义实验室推出的视频修复模型,支持高清修复、时间一致性优化
DiffuEraser 是阿里通义实验室推出的基于稳定扩散模型的视频修复工具,能够生成丰富的细节并保持时间一致性,适用于电影修复、监控增强等场景。
122 26
DiffuEraser:阿里通义实验室推出的视频修复模型,支持高清修复、时间一致性优化
|
15天前
|
机器学习/深度学习 人工智能 自然语言处理
Qwen2.5-Max:阿里通义千问超大规模 MoE 模型,使用超过20万亿tokens的预训练数据
Qwen2.5-Max是阿里云推出的超大规模MoE模型,具备强大的语言处理能力、编程辅助和多模态处理功能,支持29种以上语言和高达128K的上下文长度。
1582 13
Qwen2.5-Max:阿里通义千问超大规模 MoE 模型,使用超过20万亿tokens的预训练数据
|
4天前
|
人工智能 搜索推荐 程序员
通义灵码全新上线模型选择功能,新增支持 DeepSeek-V3 和 DeepSeek-R1 模型
阿里云百炼平台推出DeepSeek-V3、DeepSeek-R1等6款新模型,丰富AI模型矩阵。通义灵码随之升级,支持Qwen2.5、DeepSeek-V3和R1系列模型选择,助力AI编程。开发者可通过VS Code和JetBrains IDE轻松切换模型,实现复杂编码任务的自动化处理,进一步降低AI编程门槛,提供个性化服务。
278 19
|
15天前
|
人工智能 测试技术
QVQ-72B-Preview:阿里通义千问最新多模态推理模型,视觉推理助力复杂图像理解
阿里云通义千问团队开源的多模态推理模型 QVQ-72B-Preview,专注于提升视觉推理能力,支持复杂图像理解和逐步推理。
88 6
QVQ-72B-Preview:阿里通义千问最新多模态推理模型,视觉推理助力复杂图像理解
|
3天前
|
人工智能 自然语言处理 程序员
如何在通义灵码里用上DeepSeek-V3 和 DeepSeek-R1 满血版671B模型?
除了 AI 程序员的重磅上线外,近期通义灵码能力再升级全新上线模型选择功能,目前已经支持 Qwen2.5、DeepSeek-V3 和 R1系列模型,用户可以在 VSCode 和 JetBrains 里搜索并下载最新通义灵码插件,在输入框里选择模型,即可轻松切换模型。
626 13

热门文章

最新文章