能否请大佬大佬在魔搭上上传一下 Citrus1.0-Qwen-72B模型

模型地址为：https://huggingface.co/jdh-algo/Citrus1.0-Qwen-72B

展开

收起

千问2.5-VL-72B-Instruct

aliyun2779398598-12458 2025-03-12 20:27:43 648 版权

阿里云 AI 助理回答

模型部署与使用指南

以下是基于您提供的模型地址（https://huggingface.co/jdh-algo/Citrus1.0-Qwen-72B）以及知识库资料，为您整理的详细、专业的模型部署与使用步骤。

一、准备工作

确认环境需求
- 硬件要求：Qwen-72B模型需要较高的计算资源。建议使用至少8张GPU卡（如NVIDIA A100），每张卡显存不低于40GB。
- 软件环境：确保已安装以下工具：
  - Docker
  - Git 和 Git LFS
  - Python 3.x 及相关依赖库
下载模型文件
- 使用以下命令从HuggingFace社区下载模型文件：
```
mkdir -p /mnt/workspace/qwen-ckpts
cd /mnt/workspace/qwen-ckpts
git lfs clone https://huggingface.co/jdh-algo/Citrus1.0-Qwen-72B
```
- 下载完成后，模型文件将存储在/mnt/workspace/qwen-ckpts/Citrus1.0-Qwen-72B目录中。
准备存储挂载
- 如果使用NAS或OSS存储，请将模型文件上传至对应的存储路径，并记录挂载点信息。

二、模型部署

方法一：通过PAI平台部署

登录PAI控制台
- 在阿里云PAI控制台中选择目标地域和工作空间，进入EAS（弹性推理服务）页面。
配置模型服务
- 单击部署服务，选择自定义模型部署，并填写以下关键参数： | 参数 | 值 | |---------------------|-----------------------------------------------------------------------| | 服务名称 | 自定义名称，例如citrus-qwen-72b | | 镜像地址 | eas-registry-vpc.cn-wulanchabu.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.4-vllm | | 模型配置 | NAS挂载路径：/mnt/workspace/qwen-ckpts/Citrus1.0-Qwen-72B | | 运行命令 | python webui/webui_server.py -port=8000 -model-path=/qwen-72b -tensor-parallel-size 8 -backend=vllm | | 端口号 | 8000 | | 资源类型 | 灵骏智算资源 | | 实例数 | 1 | | CPU核数 | 16 |
启动服务
- 配置完成后，单击部署按钮，等待服务启动完成。

方法二：通过ACK集群部署

创建ACK集群
- 登录阿里云容器服务Kubernetes版（ACK）控制台，创建一个支持GPU的ACK集群。

部署推理服务

使用以下命令部署推理服务：

arena serve custom-serving \
-name citrus-qwen-72b \
-version v1 \
-gpus 8 \
-replicas 1 \
-restful-port 8000 \
-readiness-probe-action HttpGet \
-readiness-probe-option "periodSeconds: 30" \
-image kube-ai-registry.cn-shanghai.cr.aliyuncs.com/kube-ai/quick-deploy-llm:v1 \
"MODEL_ID=jdh-algo/Citrus1.0-Qwen-72B MODEL_SOURCE=Huggingface python3 server.py"

验证服务状态
- 执行以下命令查看服务状态：
```
arena serve get citrus-qwen-72b
```
- 确保Pod状态为Running且READY为1/1。

三、模型调用

建立端口转发
- 如果服务未直接暴露公网IP，可通过以下命令建立端口转发：
```
kubectl port-forward svc/citrus-qwen-72b-v1 8000:8000
```

发送推理请求

使用curl命令向模型发送推理请求：

curl -XPOST http://localhost:8000/generate \
-H "Content-Type: application/json" \
-d '{"text_input": "什么是人工智能？", "parameters": {"stream": false, "temperature": 0.9, "seed": 10}}'

预期输出：

{
"model_name": "jdh-algo/Citrus1.0-Qwen-72B",
"text_output": "人工智能是计算机科学的一个分支，旨在模拟人类智能的能力。"
}

四、注意事项

资源消耗：Qwen-72B模型对计算资源要求较高，建议在高性能GPU实例上运行。
费用说明：调用API时，输入成本为每千Token 0.004元，输出成本为每千Token 0.012元。
清理服务：如果不再使用模型服务，请执行以下命令删除服务：
```
arena serve del citrus-qwen-72b
```

以上步骤涵盖了从模型下载到部署及调用的完整流程。如有其他问题，请随时咨询！

有帮助

无帮助

AI 助理回答生成答案可能存在不准确，仅供参考

0 条回答

写回答

取消提交回答

ModelScope模型即服务

ModelScope旨在打造下一代开源的模型即服务共享平台，为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品，让模型应用更简单！欢迎加入技术交流群：微信公众号：魔搭ModelScope社区，钉钉答疑群：44837352

我要提问