这个是ModelScope哪里有什么步骤没执行吗?
根据您的问题,结合知识库中的参考资料,以下是关于ModelScope模型部署的详细步骤解析,帮助您确认是否有遗漏的步骤:
在部署ModelScope模型之前,需要确保以下前提条件已满足: - ACK集群准备:已创建包含GPU节点的ACK Pro版集群,且集群版本为1.22及以上。GPU节点显存需为16GB及以上,并建议使用525版本驱动(通过标签ack.aliyun.com/nvidia-driver-version:525.105.17
指定)。 - Arena客户端安装:已安装最新版Arena客户端,用于管理和部署模型服务。
重要提醒:如果未完成上述前提条件,可能会导致模型无法正常部署或运行。
执行部署命令
使用Arena工具部署一个自定义类型的服务,服务名称为modelscope
,版本号为v1
。命令如下:
arena serve custom \
-name=modelscope \
-version=v1 \
-gpus=1 \
-replicas=1 \
-restful-port=8000 \
-readiness-probe-action="tcpSocket" \
-readiness-probe-action-option="port: 8000" \
-readiness-probe-option="initialDelaySeconds: 30" \
-readiness-probe-option="periodSeconds: 30" \
-image=kube-ai-registry.cn-shanghai.cr.aliyuncs.com/kube-ai/quick-deploy-llm:v1 \
"MODEL_ID=qwen/Qwen1.5-4B-Chat python3 server.py"
参数说明: - -name
:指定推理服务名称。 - -version
:指定推理服务版本。 - -gpus
:指定单个推理服务副本需要使用的GPU卡数。 - -replicas
:指定推理服务副本数。 - -restful-port
:指定推理服务对外暴露的端口。 - -image
:指定推理服务的镜像地址。
重要提示:模型下载需要占用至少30GB的磁盘空间,请确保GPU节点有足够的存储空间。
验证服务状态
执行以下命令查看推理服务的详细信息:
arena serve get modelscope
如果服务成功部署,输出结果中会显示服务的状态为Running
,并且Available
字段为1。
建立端口转发
在本地环境与推理服务之间建立端口转发,以便进行测试。
发送推理请求
使用curl
命令向模型推理服务发送一条请求,示例如下:
curl -XPOST http://localhost:8000/generate \
-H "Content-Type: application/json" \
-d '{"text_input": "什么是人工智能?人工智能是", "parameters": {"stream": false, "temperature": 0.9, "seed": 10}}'
预期输出:
{"model_name":"/root/.cache/modelscope/hub/qwen/Qwen1___5-4B-Chat","text_output":"什么是人工智能?人工智能是研究如何使计算机和机器模仿人类的智能行为来实现自主思考"}
如果不再使用已创建的资源,可以通过以下命令删除推理服务:
arena serve del modelscope
根据知识库内容,以下是可能导致问题的常见遗漏点: 1. 前提条件未满足:请确认是否已完成ACK集群的创建、GPU驱动版本设置以及Arena客户端的安装。 2. 模型下载失败:如果服务状态长时间未变为Running
,可能是模型下载失败。请检查GPU节点的磁盘空间是否充足。 3. 端口转发未配置:在验证推理服务时,需确保本地环境与推理服务之间的端口转发已正确配置。 4. 推理请求格式错误:发送推理请求时,请确保JSON格式正确,尤其是text_input
和parameters
字段。
MODEL_ID
字段。DASHSCOPE_API_KEY
配置ModelScope SDK Token信息。如果您仍有疑问或遇到具体问题,请提供更详细的错误信息或上下文,以便进一步协助排查。