背景
到目前为止,我们已经看到了ChatGPT的能力及其所能提供的强大功能。然而,对于企业应用来说,像ChatGPT这样的封闭源代码模型可能会带来风险,因为企业自身无法控制他们的数据。尽管OpenAI公司声称用户数据不会被存储或用于训练模型,但是这并不能保证数据不会以某种方式泄露。
为了解决与封闭源代码模型相关的一些问题,研究人员正急于构建与ChatGPT等模型竞争的开源大型语言模型(LLM)。有了开源模型,企业可以在安全的云环境中托管模型,从而降低数据泄露的风险。最重要的是,你可以完全透明地了解模型的内部工作,这有助于用户与人工智能系统建立更多的信任关系。
随着开源LLM的最新进展,人们很想尝试新的模型,看看它们与ChatGPT等封闭源代码模型的对比。
然而,如今运行开源模型还存在着巨大的障碍。例如,调用ChatGPT API要比了解如何运行开源LLM要容易得多。
在这篇文章中,我的目标是通过展示如何在类似生产的环境中在云中运行Falcon-7B模型这样的开源模型来克服上述困难。最终,我们将能够通过类似于ChatGPT的API端点方式来访问这些模型。
挑战
运行开源模型的一个重大挑战是缺乏计算资源。即使是像Falcon-7B这样的“小”模型也需要GPU才能运行。
为了解决这个问题,我们可以利用云中的GPU。但是,这又带来了另一个挑战。我们如何将LLM进行容器化封装呢?我们如何启用GPU支持?启用GPU支持可能很棘手,因为它需要CUDA的知识。使用CUDA可能会很痛苦,因为您必须弄清楚如何安装正确的CUDA依赖项以及哪些版本是兼容的。
【译者注】CUDA(Compute Unified Device Architecture),是显卡厂商NVIDIA推出的运算平台。CUDA™是一种由NVIDIA推出的通用并行计算架构,它包含了CUDA指令集架构(ISA)以及GPU内部的并行计算引擎。开发人员可以使用C、C++和FORTRAN语言来为CUDA™架构编写程序。
因此,为了避开CUDA的死亡陷阱,许多公司已经创建了解决方案,可以在支持GPU的同时轻松地将模型容器化封装。在这篇博客文章中,我们将使用一个名为Truss的开源工具来帮助我们轻松地将LLM容器化,而不会带来太多麻烦。
Truss允许开发人员轻松地将使用任何框架构建的模型进行容器化封装。
为什么使用Truss?
Truss — https://truss.baseten.co/e2e。
Truss有很多现成的有用功能,例如:
- 将Python模型转换为具有生产就绪API端点的微服务
- 通过Docker冻结依赖关系
- 支持GPU推理
- 模型的简单预处理和后处理
- 轻松安全的秘密管理
我以前用过Truss来部署机器学习模型,这个过程非常顺利和简单。Truss自动创建dockerfile并管理Python依赖项。我们所要做的就是为我们的模型提供代码。
其实,我们想使用像Truss这样的工具的主要原因是,借助GPU支持可以使部署我们的模型变得更加容易。
计划
以下是我将在这篇博客文章中介绍的主要内容:
- 使用Truss在本地设置Falcon 7B
- 如果你有GPU(我有RTX 3080),请在本地运行模型
- 容器化模型并使用Docker运行它
- 在谷歌云中创建一个支持GPU的Kubernetes集群来运行我们的模型
不过,不要担心,如果步骤2没有GPU,您仍然可以在云端运行模型。
以下是Github代码仓库地址,其中包含本文后面描述中所有有关代码(如果您想继续阅读的话):
https://github.com/htrivedi99/falcon-7b-truss
让我们开始吧!
步骤1:使用Truss进行Falcon 7B本地设置
首先,我们需要创建一个Python版本≥3.8的项目。
然后,我们将从HuggingFace官网下载模型,并使用Truss进行包装。以下是我们需要安装的依赖项:
pip install truss
然后,在Python项目中创建一个名为main.py的脚本。这是一个临时脚本,我们将使用它来处理Truss。
接下来,我们将通过在终端中运行以下命令来设置Truss软件包:
truss init falcon_7b_truss
如果提示您创建新的Truss,请按“y”。完成后,您应该会看到一个名为falcon_7b_truss的新目录。在该目录中,将有一些自动生成的文件和文件夹。我们需要填写以下几项:model.py,它位于model文件夹下,也被文件config.yaml所引用。
正如我之前提到的,Truss只需要我们模型的代码,它会自动处理所有其他事情。我们将在model.py中编写代码,但它必须以特定的格式编写。
Truss希望每个模型至少支持三个功能:__init__、load和predict。
- __init__主要用于创建类变量
- load是我们从HuggingFace官网下载模型的地方
- predict是我们调用模型的地方以下是model.py的完整代码:
import torch from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline from typing import Dict MODEL_NAME = "tiiuae/falcon-7b-instruct" DEFAULT_MAX_LENGTH = 128 class Model: def __init__(self, data_dir: str, config: Dict, **kwargs) -> None: self._data_dir = data_dir self._config = config self.device = "cuda" if torch.cuda.is_available() else "cpu" print("THE DEVICE INFERENCE IS RUNNING ON IS: ", self.device) self.tokenizer = None self.pipeline = None def load(self): self.tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME) model_8bit = AutoModelForCausalLM.from_pretrained( MODEL_NAME, device_map="auto", load_in_8bit=True, trust_remote_code=True) self.pipeline = pipeline( "text-generation", model=model_8bit, tokenizer=self.tokenizer, torch_dtype=torch.bfloat16, trust_remote_code=True, device_map="auto", ) def predict(self, request: Dict) -> Dict: with torch.no_grad(): try: prompt = request.pop("prompt") data = self.pipeline( prompt, eos_token_id=self.tokenizer.eos_token_id, max_length=DEFAULT_MAX_LENGTH, **request )[0] return {"data": data} except Exception as exc: return {"status": "error", "data": None, "message": str(exc)}
这里发生了什么:
- MODEL_NAME是我们将要使用的模型,在我们的案例中是falcon-7b-instruct模型
- 在load内部,我们从HuggingFace官网下载8位的模型。我们想要8位的原因是,当量化时,该模型在GPU上使用的内存明显更少。
- 此外,如果您想在低于13GB VRAM的GPU上本地运行模型,则需要以8位加载模型。
- predict函数接受JSON请求作为参数,并使用self.pipeline调用模型。torch.no_grad告诉Pytorch我们处于推理模式,而不是训练模式。很酷吧!这就是我们设置模型所需要的全部内容。
步骤2:在本地运行模型(可选)
如果你有一个拥有超过8GB VRAM的英伟达GPU,那么,你能够在本地运行该模型。
如果没有,请继续下一步。
我们需要下载更多的依赖项才能在本地运行模型。在下载依赖项之前,您需要确保安装了CUDA和正确的CUDA驱动程序。
因为我们试图在本地运行模型,所以Truss无法帮助我们管理CUDA的强大功能。
pip install transformers pip install torch pip install peft pip install bitsandbytes pip install einops pip install scipy
接下来,在falcon_7b_truss目录外创建的脚本main.py中,我们需要加载我们的Truss。
以下是main.py的代码:
import truss from pathlib import Path import requests tr = truss.load("./falcon_7b_truss") output = tr.predict({"prompt": "Hi there how are you?"}) print(output)
这里发生了什么:
- 如果您还记得的话,falcon_7b_truss目录是由Truss自动创建的。我们可以使用truss.load加载整个包,包括模型和依赖项
- 一旦我们加载了我们的包,我们就可以简单地调用predict方法来获得模型输出运行main.py即可从模型中获取输出。此模型文件的大小约为15 GB,因此下载该模型可能需要5-10分钟。运行脚本后,您应该会看到这样的输出:
• {'data': {'generated_text': "Hi there how are you?\nI'm doing well. I'm in the middle of a move, so I'm a bit tired. I'm also a bit overwhelmed. I'm not sure how to get started. I'm not sure what I'm doing. I'm not sure if I'm doing it right. I'm not sure if I'm doing it wrong. I'm not sure if I'm doing it at all.\nI'm not sure if I'm doing it right. I'm not sure if I'm doing it wrong. I"}}
步骤3:使用Docker封装模型
通常,当人们将模型容器化封装时,他们会获取模型二进制文件和Python依赖项,并使用Flask或Fast API服务器将其打包。
很多都是样板化操作,我们不必自己费事。Truss会自动处理这些任务。我们已经提供了模型,Truss将创建服务器,所以剩下的唯一要做的就是提供Python依赖项。
config.yaml保存了我们模型的配置。这就是我们可以为模型添加依赖项的地方。配置文件已经提供了我们需要的大部分内容,但我们还需要添加一些内容。
以下是您需要添加到config.yaml中的内容:
apply_library_patches: true bundled_packages_dir: packages data_dir: data description: null environment_variables: {} examples_filename: examples.yaml external_package_dirs: [] input_type: Any live_reload: false model_class_filename: model.py model_class_name: Model model_framework: custom model_metadata: {} model_module_dir: model model_name: Falcon-7B model_type: custom python_version: py39 requirements: - torch - peft - sentencepiece - accelerate - bitsandbytes - einops - scipy - git+https://github.com/huggingface/transformers.git resources: use_gpu: true cpu: "3" memory: 14Gi secrets: {} spec_version: '2.0' system_packages: []
所以,我们添加的主要内容都围绕着需求进行。所有列出的依赖项都是下载和运行模型所必需的。
我们增加的另一件重要的事情是资源(resources)。use_gpu:true非常重要,因为这告诉Truss在启用GPU支持的情况下为我们创建一个Dockerfile。这是用于配置任务的。
下一步,我们将对我们的模型进行容器化封装。如果您不知道如何使用Docker将模型封装,不要担心,Truss已经为您提供了服务。
在main.py文件中,我们将告诉Truss将所有内容打包在一起。以下是您需要的代码:
import truss from pathlib import Path import requests tr = truss.load("./falcon_7b_truss") command = tr.docker_build_setup(build_dir=Path("./falcon_7b_truss")) print(command)
发生了什么:
- 首先,我们加载falcon_7b_truss。
- 接下来,docker_build_setup函数处理所有复杂的事情,比如创建Dockerfile和设置Fast API服务器。
- 如果您查看您的falcon_7b_truss目录,您会看到生成了更多的文件。我们不需要担心这些文件是如何工作的,因为它们都将在幕后进行管理。
- 在运行结束时,我们得到一个Docker命令来构建我们的Docker映像:
docker build falcon_7b_truss -t falcon-7b-model:latest
如果您想构建Docker镜像,请继续运行build命令。该映像的大小约为9 GB,因此可能需要一段时间才能构建完成。如果你不想构建它,但想一直阅读下去的话,你可以详细观察我提供的图片:
htrivedi05/truss-falcon-7b:latest .
如果您自己构建映像的话,则需要对其进行标记并将其推送到dockerhub,以便我们在云中的容器可以提取图像。以下是构建映像后需要运行的命令:
docker tag falcon-7b-model <docker_user_id>/falcon-7b-model docker push <docker_user_id>/falcon-7b-model
令人惊叹的是,到目前我们已经准备好在云中运行我们的模型了!
【说明】以下可选步骤(到步骤4前)用于使用GPU在本地运行图像。
如果您有Nvidia GPU,并且希望在本地运行带有GPU支持的容器化模型,则需要确保Docker配置为使用您的GPU。
为此,只需要您打开终端并运行以下命令:
distributinotallow=$(. /etc/os-release;echo $ID$VERSION_ID) && curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | sudo apt-key add - && curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list | sudo tee /etc/apt/sources.list.d/nvidia-docker.list apt-get update apt-get install -y nvidia-docker2 sudo systemctl restart docker
现在,您的Docker已配置为访问GPU,下面是如何运行容器的命令:
docker run --gpus all -d -p 8080:8080 falcon-7b-model
同样,下载该模型需要一段时间。为了确保一切正常工作,你可以检查容器日志,你应该看到“设备推理正在is:cuda上运行(THE DEVICE INFERENCE IS RUNNING ON IS: cuda)”。
您可以通过API端点对模型进行调用,如下所示:
import requests data = {"prompt": "Hi there, how's it going?"} res = requests.post("http://127.0.0.1:8080/v1/models/model:predict", jsnotallow=data) print(res.json())