ModelScope这个模型加载所需的资源要求比较高,可以使用关联的创空间进行体验。
ModelScope模型加载所需的资源要求较高,尤其是大语言对话模型。为了帮助用户更好地体验这些模型,可以通过关联的创空间(如阿里云PAI平台或ACK集群)进行部署和推理服务的验证。以下是详细的资源要求及操作步骤:
GPU资源需求:
ml.gu7i.c16m60.1-gu30规格的GPU资源。系统盘与存储:
/mnt/data/nas。驱动版本:
ack.aliyun.com/nvidia-driver-version:525.105.17指定驱动版本。PAI-EAS(弹性推理服务)支持快速部署ModelScope模型,具体步骤如下:
准备工作:
部署模型服务:
modelscope-inference,并根据版本选择镜像名称。MODEL_ID:例如qwen/Qwen-7B-Chat。TASK:例如chat。REVISION:例如v1.0.5。ml.gu7i.c16m60.1-gu30。调用服务:
通过API调用:获取服务的访问地址和Token,使用如下代码调用:
import requests
url = "http://<服务访问地址>/api/predict"
headers = {"Authorization": "Bearer <Token>"}
data = {"input": {"text": "Deploying ModelScope models on PAI-EAS is simple and easy to use"}}
response = requests.post(url, json=data, headers=headers)
print(response.json())
ACK(容器服务Kubernetes版)支持通过Arena工具快速部署ModelScope模型推理服务:
前提条件:
部署推理服务:
arena serve custom \
--name=modelscope \
--version=v1 \
--gpus=1 \
--replicas=1 \
--restful-port=8000 \
--readiness-probe-action="tcpSocket" \
--readiness-probe-action-option="port: 8000" \
--readiness-probe-option="initialDelaySeconds: 30" \
--readiness-probe-option="periodSeconds: 30" \
--image=kube-ai-registry.cn-shanghai.cr.aliyuncs.com/kube-ai/quick-deploy-llm:v1 \
"MODEL_ID=qwen/Qwen1.5-4B-Chat python3 server.py"
arena serve get modelscope
验证推理服务:
kubectl port-forward svc/modelscope 8000:8000
curl -XPOST http://localhost:8000/generate -H "Content-Type: application/json" -d '{"text_input": "什么是人工智能?人工智能是", "parameters": {"stream": false, "temperature": 0.9, "seed": 10}}'
{"model_name":"/root/.cache/modelscope/hub/qwen/Qwen1___5-4B-Chat","text_output":"什么是人工智能?人工智能是研究如何使计算机和机器模仿人类的智能行为来实现自主思考"}
资源清理:如果不再使用已创建的资源,请及时删除以避免产生额外费用。例如,删除ACK中的推理服务:
arena serve del modelscope
或者在PAI-EAS中删除服务实例。
权限管理:确保当前用户具备足够的权限(如RAM用户需授予DSW、DLC或EAS的操作权限)。
模型来源:支持从ModelScope官网获取模型ID、版本号等信息。对于非公开模型,需配置访问令牌(ACCESS_TOKEN)。
通过上述方法,您可以高效地利用阿里云创空间资源体验ModelScope模型,同时满足高性能计算的需求。
ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!欢迎加入技术交流群:微信公众号:魔搭ModelScope社区,钉钉答疑群:44837352