以下是基于您提供的模型地址(https://huggingface.co/jdh-algo/Citrus1.0-Qwen-72B
)以及知识库资料,为您整理的详细、专业的模型部署与使用步骤。
确认环境需求
下载模型文件
mkdir -p /mnt/workspace/qwen-ckpts
cd /mnt/workspace/qwen-ckpts
git lfs clone https://huggingface.co/jdh-algo/Citrus1.0-Qwen-72B
/mnt/workspace/qwen-ckpts/Citrus1.0-Qwen-72B
目录中。准备存储挂载
登录PAI控制台
配置模型服务
citrus-qwen-72b
| | 镜像地址 | eas-registry-vpc.cn-wulanchabu.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.4-vllm
| | 模型配置 | NAS挂载路径:/mnt/workspace/qwen-ckpts/Citrus1.0-Qwen-72B
| | 运行命令 | python webui/webui_server.py -port=8000 -model-path=/qwen-72b -tensor-parallel-size 8 -backend=vllm
| | 端口号 | 8000 | | 资源类型 | 灵骏智算资源 | | 实例数 | 1 | | CPU核数 | 16 |启动服务
创建ACK集群
部署推理服务
arena serve custom-serving \
-name citrus-qwen-72b \
-version v1 \
-gpus 8 \
-replicas 1 \
-restful-port 8000 \
-readiness-probe-action HttpGet \
-readiness-probe-option "periodSeconds: 30" \
-image kube-ai-registry.cn-shanghai.cr.aliyuncs.com/kube-ai/quick-deploy-llm:v1 \
"MODEL_ID=jdh-algo/Citrus1.0-Qwen-72B MODEL_SOURCE=Huggingface python3 server.py"
验证服务状态
arena serve get citrus-qwen-72b
Running
且READY
为1/1
。建立端口转发
kubectl port-forward svc/citrus-qwen-72b-v1 8000:8000
发送推理请求
curl
命令向模型发送推理请求:
curl -XPOST http://localhost:8000/generate \
-H "Content-Type: application/json" \
-d '{"text_input": "什么是人工智能?", "parameters": {"stream": false, "temperature": 0.9, "seed": 10}}'
{
"model_name": "jdh-algo/Citrus1.0-Qwen-72B",
"text_output": "人工智能是计算机科学的一个分支,旨在模拟人类智能的能力。"
}
arena serve del citrus-qwen-72b
以上步骤涵盖了从模型下载到部署及调用的完整流程。如有其他问题,请随时咨询!
ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!欢迎加入技术交流群:微信公众号:魔搭ModelScope社区,钉钉群号:44837352