基于Truss+Docker+Kubernetes把开源模型Falcon-7B送上云端(译)(下)

简介: 基于Truss+Docker+Kubernetes把开源模型Falcon-7B送上云端(译)(下)


步骤4:将模型部署到生产环境中



我在这里使用“生产”这个词算是相当松散的表达方式。我们将在Kubernetes中运行我们的模型,因为在此环境里可以轻松地扩展和处理可变数量的流量。


话虽如此,Kubernetes提供了很多配置,如网络策略、存储、配置映射、负载平衡、机密管理等。


尽管Kubernetes是为“扩展”和运行“生产”工作负载而构建的,但您需要的许多生产级配置并不是现成可用的。涵盖那些高级的Kubernetes主题的讨论超出了本文的范围,也偏离了我们在这里试图实现的目标。因此,对于这篇博客文章,我们将创建一个基础类型的最小集群。


事不宜迟,让我们抓紧着手创建我们的集群!


先决条件:


  1. 拥有创建了一个项目的对应的谷歌云端账户
  2. 在您的计算机上安装成功gcloud CLI
  3. 请确保您有足够

79dd421ea4498d4d66687ee672e78cc3.png


创建我们的GKE集群


我们将使用谷歌的Kubernetes引擎来创建和管理我们的集群。下面了解一些重要信息:

谷歌的Kubernetes引擎不是免费的。谷歌不会允许我们免费使用功能强大的GPU。话虽如此,我们正在创建一个功能较弱的GPU的单节点集群。这个实验的花费不应该超过1到2美元。

以下是我们将要运行的Kubernetes集群的配置:


  • 1个节点,标准Kubernetes集群
  • 1个Nvidia T4 GPU
  • n1-standard-4机器(4 vCPU,15GB内存)
  • 所有这些都将在一个Spot实例上运行


注意:如果您在另一个地区,并且无法访问完全相同的资源,请随时进行修改。


创建集群的步骤:


1.前往谷歌云控制台,搜索名为Kubernetes Engine的服务:

428eff7afc0fff30557991851dd4cf2a.png


2.单击“创建(CREATE)”按钮:

  • 确保您正在创建一个标准集群,而不是自动驾驶(autopilot)型集群。它应该在页面顶部显示“创建一个Kubernetes集群(Create a kubernetes cluster)”。


3.集群基础:

  • 在“集群基础(Cluster basics)”选项卡中,我们不想做太多更改。只需给集群一个名称。您不需要更改区域或控制平面。

1d379726b57c8a67408742fb1b449d2d.png


4.单击“默认池(default-pool)”选项卡并将节点数更改为1。

5d6bbccf123ccf3526bd1fe0337fff24.png


5.在“默认池(default-pool)”选项卡下,单击左侧边栏中的“节点(Nodes)”选项卡:

  • 将机器配置(General purpose)从通用更改为GPU
  • 选择英伟达T4作为GPU类型,并将数量设置1
  • 启用GPU分时消费(Time-sharing)方式(即使我们不会使用此功能)
  • 将每个GPU的最大共享客户端数设置为8
  • 对于机器类型,选择n1-standard-4(4 vCPU,15 GB内存)
  • 将引导磁盘大小更改为50
  • 向下滚动到最底部,选中上面写着:启用现场虚拟机上的节点(Enable nodes on spot VMs)

a670dee86f2b439b6198a2f4520ad180.pngimage.pngimage.png


配置好集群后,继续往下进行,创建此群集。


谷歌需要几分钟的时间来设置一切。在您的集群启动并运行后,我们需要连接到此群集。为此,打开您的终端并运行以下命令:


gcloud config set compute/zone us-central1-c
gcloud container clusters get-credentials gpu-cluster-1


如果您使用了不同的集群名称区域,请相应地更新这些区域。要检查我们是否已连接,请运行以下命令:

kubectl get nodes


您应该看到1个节点出现在您的终端中。尽管我们的集群有GPU,但它缺少一些我们必须安装的Nvidia驱动程序。值得庆幸的是,安装它们是一件很容易的事情。运行以下命令即可安装驱动程序:

kubectl apply -f https://raw.githubusercontent.com/GoogleCloudPlatform/container-engine-accelerators/master/nvidia-driver-installer/cos/daemonset-preloaded.yaml


庆祝一下吧,我们终于准备好部署我们的模型了。


部署模型


为了将我们的模型部署到集群上,我们需要创建一个Kubernetes部署。Kubernetes部署允许我们管理容器化模型的实例。在此,我不会深入讨论Kubernetes或如何编写yaml文件,因为这超出了本文主题的范围。


您需要创建一个名为truss-falcon-deployment.yaml的文件。打开该文件并粘贴以下内容:

apiVersion: apps/v1
kind: Deployment
metadata:
 name: truss-falcon-7b
 namespace: default
spec:
 replicas: 1
 selector:
 matchLabels:
 component: truss-falcon-7b-layer
 template:
 metadata:
 labels:
 component: truss-falcon-7b-layer
 spec:
 containers:
 - name: truss-falcon-7b-container
 image: <your_docker_id>/falcon-7b-model:latest
 ports:
 - containerPort: 8080
 resources:
 limits:
 nvidia.com/gpu: 1
---
apiVersion: v1
kind: Service
metadata:
 name: truss-falcon-7b-service
 namespace: default
spec:
 type: ClusterIP
 selector:
 component: truss-falcon-7b-layer
 ports:
 - port: 8080
 protocol: TCP
 targetPort: 8080


发生了什么:

  • 我们告诉Kubernetes,我们想用我们的falcon-7b-model映像创建pods。确保将替换为实际id。如果您没有创建自己的Docker映像,而想使用我的,请将其替换为以下内容:htrivedi05/truss-falcon-7b:latest。
  • 我们通过设置资源限制nvidia.com/GPU:1来启用容器的GPU访问。这告诉Kubernetes只为我们的容器请求一个GPU。
  • 为了与我们的模型交互,我们需要创建一个将在8080端口上运行的Kubernetes服务。


通过在终端中运行以下命令来创建部署:

kubectl create -f truss-falcon-deployment.yaml


如果运行该命令:

kubectl get deployments


你应该看到类似下面这样的显示内容:

1. NAME READY UP-TO-DATE AVAILABLE AGE
2. truss-falcon-7b 0/1 1 0 8s


部署将需要几分钟时间才能更改为就绪状态。记住,每次容器重新启动时,模型都必须从HuggingFace页面下载。您可以通过运行以下命令来检查容器的进度:

kubectl get pods
kubectl logs truss-falcon-7b-8fbb476f4-bggts


相应地更改吊舱名称。

您需要在日志中查找以下内容:

  • 查找打印语句THE DEVICE INFERENCE IS RUNNING ON IS: cuda。这确认了我们的容器已正确连接到GPU。


接下来,您应该看到一些关于正在下载的模型文件的打印语句。

Downloading (…)model.bin.index.json: 100%|██████████| 16.9k/16.9k [00:00<00:00, 1.92MB/s]
Downloading (…)l-00001-of-00002.bin: 100%|██████████| 9.95G/9.95G [02:37<00:00, 63.1MB/s]
Downloading (…)l-00002-of-00002.bin: 100%|██████████| 4.48G/4.48G [01:04<00:00, 69.2MB/s]
Downloading shards: 100%|██████████| 2/2 [03:42<00:00, 111.31s/it][01:04<00:00, 71.3MB/s]


下载模型并创建微服务后,您应该在日志末尾看到以下输出:

{"asctime": "2023-06-29 21:40:40,646", "levelname": "INFO", "message": "Completed model.load() execution in 330588 ms"}


根据此消息,我们可以确认模型已加载并准备好进行推理任务了。


模型推理


我们不能直接调用模型;相反,我们必须调用模型的服务。

运行以下命令即可获取服务的名称:

kubectl get svc


输出结果如下:

AME TYPE CLUSTER-IP EXTERNAL-IP PORT(S) AGE
kubernetes ClusterIP 10.80.0.1 <none> 443/TCP 46m
truss-falcon-7b-service ClusterIP 10.80.1.96 <none> 8080/TCP 6m19s


我们想调用的是truss-falcon-7b服务。为了使服务可访问,我们需要使用以下命令将其端口转发:

kubectl port-forward svc/truss-falcon-7b-service 8080


输出如下:

1. Forwarding from 127.0.0.1:8080 -> 8080
2. Forwarding from [::1]:8080 -> 8080


很漂亮,我们的模型在127.0.0.1:8080作为REST API端点提供。打开任何一个Python脚本,如main.py,并运行以下代码:

import requests
data = {"prompt": "Whats the most interesting thing about a falcon?"}
res = requests.post("http://127.0.0.1:8080/v1/models/model:predict", jsnotallow=data)
print(res.json())


输出如下:

{'data': {'generated_text': 'Whats the most interesting thing about a falcon?\nFalcons are known for their incredible speed and agility in the air, as well as their impressive hunting skills. They are also known for their distinctive feathering, which can vary greatly depending on the species.'}}


哇!我们已经成功地将Falcon 7B模型容器化,并将其作为生产中的微服务成功部署!

您可以随意使用不同的提示来查看模型返回的内容。


关闭集群


一旦你在Falcon 7B上玩得很开心,你可以通过运行以下命令删除你的部署:

kubectl delete -f truss-falcon-deployment.yaml


接下来,转到谷歌云中的Kubernetes引擎,删除Kubernete集群。

注:除非另有说明;否则,本文中所有图片均由作者本人提供。


结论



尽管运行和管理像ChatGPT这样的生产级模型并不容易;但是,随着时间的推移,开发人员可以更好地将自己的模型部署到云中。


在这篇博客文章中,我们谈到了在基本层级上将LLM部署到生产中所需的所有内容。归纳起来,我们首先需要使用Truss打包模型,然后使用Docker将其容器化,最后使用Kubernetes将其部署在云中。我知道要作详细介绍会涉及到很多内容,虽然这不是世界上最容易做的事情,但我们还是做到了。


最后,我希望你能从这篇博文中学到一些有趣的东西。感谢阅读!


多看看优秀的工具


太空电梯、MOSS、ChatGPT等,都预兆着2023年注定不会是平凡的一年。任何新的技术都值得推敲,我们应要有这种敏感性。


这几年隐约碰过低代码,目前比较热门,很多大厂都相继加入。


低代码平台概念:通过自动代码生成和可视化编程,只需要少量代码,即可快速搭建各种应用。


到底啥是低代码,在我看来就是拖拉拽,呼呼呼,一通操作,搞出一套能跑的系统,前端,后端,数据库,一把完成。当然这可能是最终目标。


链接:www.jnpfsoft.com/?csdn,如果你感兴趣,也体验一下。


JNPF的优势就在于它能生成前后台代码,提供了极大的灵活性,能够创建更复杂、定制化的应用。它的架构设计也让开发者无需担心底层技术细节,能够专注于应用逻辑和用户体验的开发。

相关实践学习
容器服务Serverless版ACK Serverless 快速入门:在线魔方应用部署和监控
通过本实验,您将了解到容器服务Serverless版ACK Serverless 的基本产品能力,即可以实现快速部署一个在线魔方应用,并借助阿里云容器服务成熟的产品生态,实现在线应用的企业级监控,提升应用稳定性。
云原生实践公开课
课程大纲 开篇:如何学习并实践云原生技术 基础篇: 5 步上手 Kubernetes 进阶篇:生产环境下的 K8s 实践 相关的阿里云产品:容器服务&nbsp;ACK 容器服务&nbsp;Kubernetes&nbsp;版(简称&nbsp;ACK)提供高性能可伸缩的容器应用管理能力,支持企业级容器化应用的全生命周期管理。整合阿里云虚拟化、存储、网络和安全能力,打造云端最佳容器化应用运行环境。 了解产品详情:&nbsp;https://www.aliyun.com/product/kubernetes
相关文章
|
1月前
|
运维 Kubernetes 监控
构建高效自动化运维体系:基于Docker和Kubernetes的实践指南
【2月更文挑战第30天】 在当今快速发展的云计算时代,传统的IT运维模式已难以满足业务的敏捷性和稳定性需求。本文深入探讨了如何通过Docker容器化技术和Kubernetes集群管理工具构建一个高效、可靠的自动化运维体系。文章首先概述了容器化技术和微服务架构的基本概念,随后详细阐述了基于Docker的应用打包、部署流程,以及Kubernetes在自动化部署、扩展和管理容器化应用中的关键作用。最后,文中通过案例分析,展示了如何在实际场景中利用这些技术优化运维流程,提高系统的整体效率和可靠性。
|
3天前
|
存储 运维 Kubernetes
Docker+Kubernetes/K8s+Jenkins视频资料【干货分享】
Docker+Kubernetes/K8s+Jenkins视频资料【干货分享】
Docker+Kubernetes/K8s+Jenkins视频资料【干货分享】
|
22小时前
|
Kubernetes 负载均衡 Docker
【专栏】构建高效微服务架构:Docker与Kubernetes的完美搭档
【4月更文挑战第27天】本文介绍了Docker和Kubernetes在构建微服务架构中的应用。Docker是开源容器引擎,用于打包和分发应用,实现隔离和封装,提升可扩展性和可维护性。Kubernetes是容器编排平台,自动化部署、扩展和管理容器,提供负载均衡和故障转移。二者结合,能高效支持微服务架构。文中通过实例展示了如何将用户、商品和订单服务用Docker打包,再用Kubernetes部署和管理,确保微服务稳定运行。
|
3天前
|
存储 Kubernetes Docker
Kubernetes(K8S)集群管理Docker容器(概念篇)
Kubernetes(K8S)集群管理Docker容器(概念篇)
|
24天前
|
并行计算 PyTorch Docker
LLaMA-Factory 基于docker的大模型多卡分布式微调
LLaMA-Factory是微调工具,包含Dockerfile和train.sh脚本,适用于多卡训练。Dockerfile基于nvidia/cuda:12.1.0镜像,安装Python 3.10、PyTorch 2.2.0、transformers等库。train.sh运行Docker容器,使用accelerate launch进行训练,参数包括模型路径、学习率、优化器设置等。注意使用--shm-size 32G --gpus all,并可选启用unsloth加速。默认配置文件设定了分布式训练和混合精度BF16。
136 1
|
29天前
|
运维 Kubernetes 持续交付
构建高效自动化运维体系:基于Docker和Kubernetes的最佳实践
在现代云计算环境中,自动化运维成为保障系统稳定性与提升效率的关键。本文深入探讨了如何利用Docker容器化技术和Kubernetes容器编排工具构建一个高效、可靠的自动化运维体系。文中不仅介绍了相关的技术原理,还结合具体案例分析了实施过程中的常见问题及解决方案,为读者提供了一套行之有效的最佳实践指南。
|
4天前
|
存储 运维 Kubernetes
Kubernetes 集群的监控与维护策略
【4月更文挑战第23天】 在微服务架构日益盛行的当下,容器编排工具如 Kubernetes 成为了运维工作的重要环节。然而,随着集群规模的增长和复杂性的提升,如何确保 Kubernetes 集群的高效稳定运行成为了一大挑战。本文将深入探讨 Kubernetes 集群的监控要点、常见问题及解决方案,并提出一系列切实可行的维护策略,旨在帮助运维人员有效管理和维护 Kubernetes 环境,保障服务的持续可用性和性能优化。
|
6天前
|
存储 运维 Kubernetes
Kubernetes 集群的持续性能优化实践
【4月更文挑战第22天】在动态且复杂的微服务架构中,确保 Kubernetes 集群的高性能运行是至关重要的。本文将深入探讨针对 Kubernetes 集群性能优化的策略与实践,从节点资源配置、网络优化到应用部署模式等多个维度展开,旨在为运维工程师提供一套系统的性能调优方法论。通过实际案例分析与经验总结,读者可以掌握持续优化 Kubernetes 集群性能的有效手段,以适应不断变化的业务需求和技术挑战。
|
1月前
|
Prometheus 监控 Kubernetes
Kubernetes 集群监控与日志管理实践
【2月更文挑战第29天】 在微服务架构日益普及的当下,Kubernetes 已成为容器编排的事实标准。然而,随着集群规模的扩大和业务复杂度的提升,有效的监控和日志管理变得至关重要。本文将探讨构建高效 Kubernetes 集群监控系统的策略,以及实施日志聚合和分析的最佳实践。通过引入如 Prometheus 和 Fluentd 等开源工具,我们旨在为运维专家提供一套完整的解决方案,以保障系统的稳定性和可靠性。
|
24天前
|
数据库 存储 监控
什么是 SAP HANA 内存数据库 的 Delta Storage
什么是 SAP HANA 内存数据库 的 Delta Storage
17 0
什么是 SAP HANA 内存数据库 的 Delta Storage