请问ModelScope有qwen+triton相关的本地化部署材料吗?
是的,ModelScope 提供了与 Qwen 模型相关的 Triton 推理服务本地化部署的相关材料。以下是详细的部署步骤和配置说明,帮助您完成 Qwen 模型的本地化部署。
在部署之前,需要下载并上传目标模型文件至存储系统(如 OSS 或 NAS),并在 Kubernetes 集群中创建对应的存储卷(PV)和存储声明(PVC)。
git lfs install
git clone <模型仓库地址>
注意:请确保已安装 Git 和 Git LFS 工具。
上传模型至 OSS
将下载的模型文件上传至阿里云对象存储服务(OSS)。
/models/Qwen1.5-4B-Chat
。配置存储卷(PV 和 PVC)
在 ACK 集群中创建存储卷和存储声明,用于挂载模型文件。
PV 配置示例: | 配置项 | 说明 | |----------------|---------------------------------------| | 存储卷类型 | OSS | | 名称 | llm-model | | 访问证书 | 配置 AccessKey ID 和 AccessKey Secret | | Bucket ID | 选择已创建的 OSS Bucket | | OSS Path | 模型所在路径,如 /models/Qwen1.5-4B-Chat
|
PVC 配置示例: | 配置项 | 说明 | |----------------|---------------------------------------| | 存储声明类型 | OSS | | 名称 | llm-model | | 分配模式 | 选择已有存储卷 | | 已有存储卷 | 选择已创建的 PV |
Triton 是 NVIDIA 开源的推理服务框架,支持多种后端(如 TensorRT、PyTorch 等)。以下是配置 Triton 推理服务的关键步骤。
创建工作目录
创建一个工作目录,用于存放 Triton 的配置文件和模型文件。例如:
mkdir -p /workspace/triton_model_repo/qwen-4b
编写配置文件
vLLM 配置文件 (config.pbtxt
)
定义模型的输入输出格式及参数。示例如下:
name: "qwen-4b"
platform: "vllm"
max_batch_size: 8
input [
{
name: "text_input"
data_type: TYPE_STRING
dims: [1]
}
]
output [
{
name: "text_output"
data_type: TYPE_STRING
dims: [1]
}
]
instance_group [
{
kind: KIND_GPU
count: 1
}
]
Triton 配置文件 (model.json
)
定义模型的加载路径和运行时参数。示例如下:
{
"name": "qwen-4b",
"platform": "vllm",
"model_path": "/models/Qwen1.5-4B-Chat",
"parameters": {
"stream": false,
"temperature": 0
}
}
使用 ACK 集群中的 Arena 工具部署 Triton 推理服务。
提交推理服务任务
执行以下命令,启动 Triton 推理服务:
arena submit triton-vllm -type triton-serving -n default
检查服务状态
使用以下命令查看推理服务的状态,等待服务就绪:
arena serve get triton-vllm
输出示例:
Name: triton-vllm
Namespace: default
Type: Triton
Desired: 1
Available: 1
Address: 172.16.XX.XX
Port: RESTFUL:8000, GRPC:9000
GPU: 1
通过发送推理请求验证服务是否正常运行。
建立端口转发
执行以下命令,将推理服务的端口映射到本地环境:
kubectl port-forward svc/triton-vllm 8000:8000
发送推理请求
使用 curl
命令向推理服务发送请求。例如:
curl -X POST localhost:8000/v2/models/qwen-4b/generate \
-d '{"text_input": "什么是人工智能?", "parameters": {"stream": false, "temperature": 0}}'
预期输出:
{
"model_name": "qwen-4b",
"model_version": "1",
"text_output": "人工智能是计算机科学的一个分支,研究如何使计算机具有智能行为。"
}
如果不再需要已部署的服务或资源,可以执行以下清理操作: 1. 删除推理服务:
arena serve del triton-vllm
kubectl delete pvc llm-model
kubectl delete pv llm-model
希望以上内容能够帮助您顺利完成 Qwen 模型的本地化部署!
ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!欢迎加入技术交流群:微信公众号:魔搭ModelScope社区,钉钉群号:44837352