能否请大佬大佬在魔搭上上传一下 Citrus1.0-Qwen-72B模型

展开
收起
aliyun2779398598-12458 2025-03-12 20:27:43 242 分享 版权
阿里云 AI 助理回答

模型部署与使用指南

以下是基于您提供的模型地址(https://huggingface.co/jdh-algo/Citrus1.0-Qwen-72B)以及知识库资料,为您整理的详细、专业的模型部署与使用步骤。


一、准备工作

  1. 确认环境需求

    • 硬件要求:Qwen-72B模型需要较高的计算资源。建议使用至少8张GPU卡(如NVIDIA A100),每张卡显存不低于40GB。
    • 软件环境:确保已安装以下工具:
      • Docker
      • Git 和 Git LFS
      • Python 3.x 及相关依赖库
  2. 下载模型文件

    • 使用以下命令从HuggingFace社区下载模型文件:
      mkdir -p /mnt/workspace/qwen-ckpts
      cd /mnt/workspace/qwen-ckpts
      git lfs clone https://huggingface.co/jdh-algo/Citrus1.0-Qwen-72B
      
    • 下载完成后,模型文件将存储在/mnt/workspace/qwen-ckpts/Citrus1.0-Qwen-72B目录中。
  3. 准备存储挂载

    • 如果使用NAS或OSS存储,请将模型文件上传至对应的存储路径,并记录挂载点信息。

二、模型部署

方法一:通过PAI平台部署
  1. 登录PAI控制台

    • 在阿里云PAI控制台中选择目标地域和工作空间,进入EAS(弹性推理服务)页面。
  2. 配置模型服务

    • 单击部署服务,选择自定义模型部署,并填写以下关键参数: | 参数 | | |---------------------|-----------------------------------------------------------------------| | 服务名称 | 自定义名称,例如citrus-qwen-72b | | 镜像地址 | eas-registry-vpc.cn-wulanchabu.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.4-vllm | | 模型配置 | NAS挂载路径:/mnt/workspace/qwen-ckpts/Citrus1.0-Qwen-72B | | 运行命令 | python webui/webui_server.py -port=8000 -model-path=/qwen-72b -tensor-parallel-size 8 -backend=vllm | | 端口号 | 8000 | | 资源类型 | 灵骏智算资源 | | 实例数 | 1 | | CPU核数 | 16 |
  3. 启动服务

    • 配置完成后,单击部署按钮,等待服务启动完成。

方法二:通过ACK集群部署
  1. 创建ACK集群

    • 登录阿里云容器服务Kubernetes版(ACK)控制台,创建一个支持GPU的ACK集群。
  2. 部署推理服务

    • 使用以下命令部署推理服务:
      arena serve custom-serving \
      -name citrus-qwen-72b \
      -version v1 \
      -gpus 8 \
      -replicas 1 \
      -restful-port 8000 \
      -readiness-probe-action HttpGet \
      -readiness-probe-option "periodSeconds: 30" \
      -image kube-ai-registry.cn-shanghai.cr.aliyuncs.com/kube-ai/quick-deploy-llm:v1 \
      "MODEL_ID=jdh-algo/Citrus1.0-Qwen-72B MODEL_SOURCE=Huggingface python3 server.py"
      
  3. 验证服务状态

    • 执行以下命令查看服务状态:
      arena serve get citrus-qwen-72b
      
    • 确保Pod状态为RunningREADY1/1

三、模型调用

  1. 建立端口转发

    • 如果服务未直接暴露公网IP,可通过以下命令建立端口转发:
      kubectl port-forward svc/citrus-qwen-72b-v1 8000:8000
      
  2. 发送推理请求

    • 使用curl命令向模型发送推理请求:
      curl -XPOST http://localhost:8000/generate \
      -H "Content-Type: application/json" \
      -d '{"text_input": "什么是人工智能?", "parameters": {"stream": false, "temperature": 0.9, "seed": 10}}'
      
    • 预期输出:
      {
      "model_name": "jdh-algo/Citrus1.0-Qwen-72B",
      "text_output": "人工智能是计算机科学的一个分支,旨在模拟人类智能的能力。"
      }
      

四、注意事项

  • 资源消耗:Qwen-72B模型对计算资源要求较高,建议在高性能GPU实例上运行。
  • 费用说明:调用API时,输入成本为每千Token 0.004元,输出成本为每千Token 0.012元。
  • 清理服务:如果不再使用模型服务,请执行以下命令删除服务:
    arena serve del citrus-qwen-72b
    

以上步骤涵盖了从模型下载到部署及调用的完整流程。如有其他问题,请随时咨询!

有帮助
无帮助
AI 助理回答生成答案可能存在不准确,仅供参考
0 条回答
写回答
取消 提交回答

ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!欢迎加入技术交流群:微信公众号:魔搭ModelScope社区,钉钉群号:44837352

还有其他疑问?
咨询AI助理