基于Truss+Docker+Kubernetes把开源模型Falcon-7B送上云端(译)(上)

简介: 基于Truss+Docker+Kubernetes把开源模型Falcon-7B送上云端(译)(上)

背景



到目前为止,我们已经看到了ChatGPT的能力及其所能提供的强大功能。然而,对于企业应用来说,像ChatGPT这样的封闭源代码模型可能会带来风险,因为企业自身无法控制他们的数据。尽管OpenAI公司声称用户数据不会被存储或用于训练模型,但是这并不能保证数据不会以某种方式泄露。


为了解决与封闭源代码模型相关的一些问题,研究人员正急于构建与ChatGPT等模型竞争的开源大型语言模型(LLM)。有了开源模型,企业可以在安全的云环境中托管模型,从而降低数据泄露的风险。最重要的是,你可以完全透明地了解模型的内部工作,这有助于用户与人工智能系统建立更多的信任关系。


随着开源LLM的最新进展,人们很想尝试新的模型,看看它们与ChatGPT等封闭源代码模型的对比。


然而,如今运行开源模型还存在着巨大的障碍。例如,调用ChatGPT API要比了解如何运行开源LLM要容易得多。


在这篇文章中,我的目标是通过展示如何在类似生产的环境中在云中运行Falcon-7B模型这样的开源模型来克服上述困难。最终,我们将能够通过类似于ChatGPT的API端点方式来访问这些模型。


挑战



运行开源模型的一个重大挑战是缺乏计算资源。即使是像Falcon-7B这样的“小”模型也需要GPU才能运行。


为了解决这个问题,我们可以利用云中的GPU。但是,这又带来了另一个挑战。我们如何将LLM进行容器化封装呢?我们如何启用GPU支持?启用GPU支持可能很棘手,因为它需要CUDA的知识。使用CUDA可能会很痛苦,因为您必须弄清楚如何安装正确的CUDA依赖项以及哪些版本是兼容的。


【译者注】CUDA(Compute Unified Device Architecture),是显卡厂商NVIDIA推出的运算平台。CUDA™是一种由NVIDIA推出的通用并行计算架构,它包含了CUDA指令集架构(ISA)以及GPU内部的并行计算引擎。开发人员可以使用C、C++和FORTRAN语言来为CUDA™架构编写程序。


因此,为了避开CUDA的死亡陷阱,许多公司已经创建了解决方案,可以在支持GPU的同时轻松地将模型容器化封装。在这篇博客文章中,我们将使用一个名为Truss的开源工具来帮助我们轻松地将LLM容器化,而不会带来太多麻烦。


Truss允许开发人员轻松地将使用任何框架构建的模型进行容器化封装。


为什么使用Truss?


d6b7692d527aa655aea3aed1db653bb0.png

Truss — https://truss.baseten.co/e2e

Truss有很多现成的有用功能,例如:

  • 将Python模型转换为具有生产就绪API端点的微服务
  • 通过Docker冻结依赖关系
  • 支持GPU推理
  • 模型的简单预处理和后处理
  • 轻松安全的秘密管理


我以前用过Truss来部署机器学习模型,这个过程非常顺利和简单。Truss自动创建dockerfile并管理Python依赖项。我们所要做的就是为我们的模型提供代码。

image.png


其实,我们想使用像Truss这样的工具的主要原因是,借助GPU支持可以使部署我们的模型变得更加容易。


计划



以下是我将在这篇博客文章中介绍的主要内容:

  1. 使用Truss在本地设置Falcon 7B
  2. 如果你有GPU(我有RTX 3080),请在本地运行模型
  3. 容器化模型并使用Docker运行它
  4. 在谷歌云中创建一个支持GPU的Kubernetes集群来运行我们的模型


不过,不要担心,如果步骤2没有GPU,您仍然可以在云端运行模型。

以下是Github代码仓库地址,其中包含本文后面描述中所有有关代码(如果您想继续阅读的话):

https://github.com/htrivedi99/falcon-7b-truss

让我们开始吧!


步骤1:使用Truss进行Falcon 7B本地设置



首先,我们需要创建一个Python版本≥3.8的项目。

然后,我们将从HuggingFace官网下载模型,并使用Truss进行包装。以下是我们需要安装的依赖项:


pip install truss


然后,在Python项目中创建一个名为main.py的脚本。这是一个临时脚本,我们将使用它来处理Truss。


接下来,我们将通过在终端中运行以下命令来设置Truss软件包:

truss init falcon_7b_truss


如果提示您创建新的Truss,请按“y”。完成后,您应该会看到一个名为falcon_7b_truss的新目录。在该目录中,将有一些自动生成的文件和文件夹。我们需要填写以下几项:model.py,它位于model文件夹下,也被文件config.yaml所引用。

image.png

正如我之前提到的,Truss只需要我们模型的代码,它会自动处理所有其他事情。我们将在model.py中编写代码,但它必须以特定的格式编写。

Truss希望每个模型至少支持三个功能:__init__、load和predict。

  • __init__主要用于创建类变量
  • load是我们从HuggingFace官网下载模型的地方
  • predict是我们调用模型的地方以下是model.py的完整代码:
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline
from typing import Dict
MODEL_NAME = "tiiuae/falcon-7b-instruct"
DEFAULT_MAX_LENGTH = 128
class Model:
 def __init__(self, data_dir: str, config: Dict, **kwargs) -> None:
 self._data_dir = data_dir
 self._config = config
 self.device = "cuda" if torch.cuda.is_available() else "cpu"
 print("THE DEVICE INFERENCE IS RUNNING ON IS: ", self.device)
 self.tokenizer = None
 self.pipeline = None
 def load(self):
 self.tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
 model_8bit = AutoModelForCausalLM.from_pretrained(
 MODEL_NAME,
 device_map="auto",
 load_in_8bit=True,
 trust_remote_code=True)
 self.pipeline = pipeline(
 "text-generation",
 model=model_8bit,
 tokenizer=self.tokenizer,
 torch_dtype=torch.bfloat16,
 trust_remote_code=True,
 device_map="auto",
 )
 def predict(self, request: Dict) -> Dict:
 with torch.no_grad():
 try:
 prompt = request.pop("prompt")
 data = self.pipeline(
 prompt,
 eos_token_id=self.tokenizer.eos_token_id,
 max_length=DEFAULT_MAX_LENGTH,
 **request
 )[0]
 return {"data": data}
 except Exception as exc:
 return {"status": "error", "data": None, "message": str(exc)}


这里发生了什么:

  • MODEL_NAME是我们将要使用的模型,在我们的案例中是falcon-7b-instruct模型
  • 在load内部,我们从HuggingFace官网下载8位的模型。我们想要8位的原因是,当量化时,该模型在GPU上使用的内存明显更少。
  • 此外,如果您想在低于13GB VRAM的GPU上本地运行模型,则需要以8位加载模型。
  • predict函数接受JSON请求作为参数,并使用self.pipeline调用模型。torch.no_grad告诉Pytorch我们处于推理模式,而不是训练模式。很酷吧!这就是我们设置模型所需要的全部内容。


步骤2:在本地运行模型(可选)



如果你有一个拥有超过8GB VRAM的英伟达GPU,那么,你能够在本地运行该模型。

如果没有,请继续下一步。


我们需要下载更多的依赖项才能在本地运行模型。在下载依赖项之前,您需要确保安装了CUDA和正确的CUDA驱动程序。


因为我们试图在本地运行模型,所以Truss无法帮助我们管理CUDA的强大功能。

pip install transformers
pip install torch
pip install peft
pip install bitsandbytes
pip install einops
pip install scipy 


接下来,在falcon_7b_truss目录外创建的脚本main.py中,我们需要加载我们的Truss。

以下是main.py的代码:

import truss
from pathlib import Path
import requests
tr = truss.load("./falcon_7b_truss")
output = tr.predict({"prompt": "Hi there how are you?"})
print(output)


这里发生了什么:

  • 如果您还记得的话,falcon_7b_truss目录是由Truss自动创建的。我们可以使用truss.load加载整个包,包括模型和依赖项
  • 一旦我们加载了我们的包,我们就可以简单地调用predict方法来获得模型输出运行main.py即可从模型中获取输出。此模型文件的大小约为15 GB,因此下载该模型可能需要5-10分钟。运行脚本后,您应该会看到这样的输出:
• {'data': {'generated_text': "Hi there how are you?\nI'm doing well. I'm in the middle of a move, so I'm a bit tired. I'm also a bit overwhelmed. I'm not sure how to get started. I'm not sure what I'm doing. I'm not sure if I'm doing it right. I'm not sure if I'm doing it wrong. I'm not sure if I'm doing it at all.\nI'm not sure if I'm doing it right. I'm not sure if I'm doing it wrong. I"}}


步骤3:使用Docker封装模型



通常,当人们将模型容器化封装时,他们会获取模型二进制文件和Python依赖项,并使用Flask或Fast API服务器将其打包。


很多都是样板化操作,我们不必自己费事。Truss会自动处理这些任务。我们已经提供了模型,Truss将创建服务器,所以剩下的唯一要做的就是提供Python依赖项。


config.yaml保存了我们模型的配置。这就是我们可以为模型添加依赖项的地方。配置文件已经提供了我们需要的大部分内容,但我们还需要添加一些内容。


以下是您需要添加到config.yaml中的内容:

apply_library_patches: true
bundled_packages_dir: packages
data_dir: data
description: null
environment_variables: {}
examples_filename: examples.yaml
external_package_dirs: []
input_type: Any
live_reload: false
model_class_filename: model.py
model_class_name: Model
model_framework: custom
model_metadata: {}
model_module_dir: model
model_name: Falcon-7B
model_type: custom
python_version: py39
requirements:
- torch
- peft
- sentencepiece
- accelerate
- bitsandbytes
- einops
- scipy
- git+https://github.com/huggingface/transformers.git
resources:
 use_gpu: true
 cpu: "3"
 memory: 14Gi
secrets: {}
spec_version: '2.0'
system_packages: []


所以,我们添加的主要内容都围绕着需求进行。所有列出的依赖项都是下载和运行模型所必需的。


我们增加的另一件重要的事情是资源(resources)。use_gpu:true非常重要,因为这告诉Truss在启用GPU支持的情况下为我们创建一个Dockerfile。这是用于配置任务的。


下一步,我们将对我们的模型进行容器化封装。如果您不知道如何使用Docker将模型封装,不要担心,Truss已经为您提供了服务。


在main.py文件中,我们将告诉Truss将所有内容打包在一起。以下是您需要的代码:

import truss
from pathlib import Path
import requests
tr = truss.load("./falcon_7b_truss")
command = tr.docker_build_setup(build_dir=Path("./falcon_7b_truss"))
print(command)


发生了什么:

  • 首先,我们加载falcon_7b_truss。
  • 接下来,docker_build_setup函数处理所有复杂的事情,比如创建Dockerfile和设置Fast API服务器。
  • 如果您查看您的falcon_7b_truss目录,您会看到生成了更多的文件。我们不需要担心这些文件是如何工作的,因为它们都将在幕后进行管理。
  • 在运行结束时,我们得到一个Docker命令来构建我们的Docker映像:
docker build falcon_7b_truss -t falcon-7b-model:latest

image.png


如果您想构建Docker镜像,请继续运行build命令。该映像的大小约为9 GB,因此可能需要一段时间才能构建完成。如果你不想构建它,但想一直阅读下去的话,你可以详细观察我提供的图片:

htrivedi05/truss-falcon-7b:latest .


如果您自己构建映像的话,则需要对其进行标记并将其推送到dockerhub,以便我们在云中的容器可以提取图像。以下是构建映像后需要运行的命令:

docker tag falcon-7b-model <docker_user_id>/falcon-7b-model
docker push <docker_user_id>/falcon-7b-model


令人惊叹的是,到目前我们已经准备好在云中运行我们的模型了!


【说明】以下可选步骤(到步骤4前)用于使用GPU在本地运行图像。

如果您有Nvidia GPU,并且希望在本地运行带有GPU支持的容器化模型,则需要确保Docker配置为使用您的GPU。


为此,只需要您打开终端并运行以下命令:

distributinotallow=$(. /etc/os-release;echo $ID$VERSION_ID) && curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | sudo apt-key add - && curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list | sudo tee /etc/apt/sources.list.d/nvidia-docker.list
apt-get update
apt-get install -y nvidia-docker2
sudo systemctl restart docker


现在,您的Docker已配置为访问GPU,下面是如何运行容器的命令:

docker run --gpus all -d -p 8080:8080 falcon-7b-model


同样,下载该模型需要一段时间。为了确保一切正常工作,你可以检查容器日志,你应该看到“设备推理正在is:cuda上运行(THE DEVICE INFERENCE IS RUNNING ON IS: cuda)”。


您可以通过API端点对模型进行调用,如下所示:

import requests
data = {"prompt": "Hi there, how's it going?"}
res = requests.post("http://127.0.0.1:8080/v1/models/model:predict", jsnotallow=data)
print(res.json())


相关实践学习
通过Ingress进行灰度发布
本场景您将运行一个简单的应用,部署一个新的应用用于新的发布,并通过Ingress能力实现灰度发布。
容器应用与集群管理
欢迎来到《容器应用与集群管理》课程,本课程是“云原生容器Clouder认证“系列中的第二阶段。课程将向您介绍与容器集群相关的概念和技术,这些概念和技术可以帮助您了解阿里云容器服务ACK/ACK Serverless的使用。同时,本课程也会向您介绍可以采取的工具、方法和可操作步骤,以帮助您了解如何基于容器服务ACK Serverless构建和管理企业级应用。 学习完本课程后,您将能够: 掌握容器集群、容器编排的基本概念 掌握Kubernetes的基础概念及核心思想 掌握阿里云容器服务ACK/ACK Serverless概念及使用方法 基于容器服务ACK Serverless搭建和管理企业级网站应用
相关文章
|
1月前
|
监控 NoSQL 时序数据库
《docker高级篇(大厂进阶):7.Docker容器监控之CAdvisor+InfluxDB+Granfana》包括:原生命令、是什么、compose容器编排,一套带走
《docker高级篇(大厂进阶):7.Docker容器监控之CAdvisor+InfluxDB+Granfana》包括:原生命令、是什么、compose容器编排,一套带走
236 77
|
21天前
|
存储 Kubernetes 开发者
容器化时代的领航者:Docker 和 Kubernetes 云原生时代的黄金搭档
Docker 是一种开源的应用容器引擎,允许开发者将应用程序及其依赖打包成可移植的镜像,并在任何支持 Docker 的平台上运行。其核心概念包括镜像、容器和仓库。镜像是只读的文件系统,容器是镜像的运行实例,仓库用于存储和分发镜像。Kubernetes(k8s)则是容器集群管理系统,提供自动化部署、扩展和维护等功能,支持服务发现、负载均衡、自动伸缩等特性。两者结合使用,可以实现高效的容器化应用管理和运维。Docker 主要用于单主机上的容器管理,而 Kubernetes 则专注于跨多主机的容器编排与调度。尽管 k8s 逐渐减少了对 Docker 作为容器运行时的支持,但 Doc
108 5
容器化时代的领航者:Docker 和 Kubernetes 云原生时代的黄金搭档
|
5天前
|
Kubernetes Linux 虚拟化
入门级容器技术解析:Docker和K8s的区别与关系
本文介绍了容器技术的发展历程及其重要组成部分Docker和Kubernetes。从传统物理机到虚拟机,再到容器化,每一步都旨在更高效地利用服务器资源并简化应用部署。容器技术通过隔离环境、减少依赖冲突和提高可移植性,解决了传统部署方式中的诸多问题。Docker作为容器化平台,专注于创建和管理容器;而Kubernetes则是一个强大的容器编排系统,用于自动化部署、扩展和管理容器化应用。两者相辅相成,共同推动了现代云原生应用的快速发展。
43 10
|
18天前
|
存储 Kubernetes Docker
Kubernetes(k8s)和Docker Compose本质区别
理解它们的区别和各自的优势,有助于选择合适的工具来满足特定的项目需求。
93 19
|
2月前
|
Kubernetes 开发者 Docker
Docker与Kubernetes的协同工作
Docker与Kubernetes的协同工作
|
Java Linux API
给技术经理找了几款Docker开源镜像仓库,为什么经理选中了Sonatype Nexus(上)
给技术经理找了几款Docker开源镜像仓库,为什么经理选中了Sonatype Nexus(上)
1266 0
给技术经理找了几款Docker开源镜像仓库,为什么经理选中了Sonatype Nexus(上)
|
Docker 容器
给技术经理找了几款Docker开源镜像仓库,为什么经理选中了Sonatype Nexus(下)
给技术经理找了几款Docker开源镜像仓库,为什么经理选中了Sonatype Nexus(下)
183 0
给技术经理找了几款Docker开源镜像仓库,为什么经理选中了Sonatype Nexus(下)
|
2天前
|
数据库 Docker 容器
docker容器为啥会开机自启动
通过配置适当的重启策略,Docker容器可以在主机系统重启后自动启动。这对于保持关键服务的高可用性和自动恢复能力非常有用。选择适合的重启策略(如 `always`或 `unless-stopped`),可以确保应用程序在各种情况下保持运行。理解并配置这些策略是确保Docker容器化应用可靠性的关键。
139 93
|
5天前
|
Ubuntu NoSQL Linux
《docker基础篇:3.Docker常用命令》包括帮助启动类命令、镜像命令、有镜像才能创建容器,这是根本前提(下载一个CentOS或者ubuntu镜像演示)、容器命令、小总结
《docker基础篇:3.Docker常用命令》包括帮助启动类命令、镜像命令、有镜像才能创建容器,这是根本前提(下载一个CentOS或者ubuntu镜像演示)、容器命令、小总结
52 6
《docker基础篇:3.Docker常用命令》包括帮助启动类命令、镜像命令、有镜像才能创建容器,这是根本前提(下载一个CentOS或者ubuntu镜像演示)、容器命令、小总结
|
16天前
|
搜索推荐 安全 数据安全/隐私保护
7 个最能提高生产力的 Docker 容器
7 个最能提高生产力的 Docker 容器
90 35