文档备案控制台

开发者社区 ModelScope模型即服务正文

ModelScope这个模型加载所需的资源要求比较高，可以使用关联的创空间进行体验？

ModelScope这个模型加载所需的资源要求比较高，可以使用关联的创空间进行体验。

展开

收起

真的很搞笑 2023-05-20 17:13:34 331 版权

阿里云 AI 助理回答

ModelScope模型加载所需的资源要求较高，尤其是大语言对话模型。为了帮助用户更好地体验这些模型，可以通过关联的创空间（如阿里云PAI平台或ACK集群）进行部署和推理服务的验证。以下是详细的资源要求及操作步骤：

一、资源要求

GPU资源需求：
- 对于普通Pipeline模型，建议选择实例规格的内存不小于8 GB。
- 对于大语言对话模型（如7B参数量级），建议使用ml.gu7i.c16m60.1-gu30规格的GPU资源。
- 针对更大规模的模型（如14B及以上），需要使用Ada系列显卡，并预留至少48G显存。
系统盘与存储：
- 在部署过程中，可能需要额外配置系统盘，建议设置为100 GB。
- 如果涉及模型文件存储，建议使用阿里云NAS文件存储服务，挂载路径通常为/mnt/data/nas。
驱动版本：
- 建议GPU节点使用525版本驱动，可通过为GPU节点池添加标签ack.aliyun.com/nvidia-driver-version:525.105.17指定驱动版本。

二、通过创空间体验ModelScope模型

1. 使用PAI-EAS平台

PAI-EAS（弹性推理服务）支持快速部署ModelScope模型，具体步骤如下：

准备工作：
- 登录[PAI控制台]，选择目标地域和工作空间。
- 确保已开通PAI服务并创建默认工作空间。
部署模型服务：
- 在模型在线服务（EAS）页面，单击部署服务，选择自定义部署。
- 配置以下关键参数：
  - 镜像配置：选择官方镜像modelscope-inference，并根据版本选择镜像名称。
  - 环境变量：
  - MODEL_ID：例如qwen/Qwen-7B-Chat。
  - TASK：例如chat。
  - REVISION：例如v1.0.5。
  - 资源规格：选择GPU资源，建议使用ml.gu7i.c16m60.1-gu30。

调用服务：

通过WebUI调用：在EAS页面，点击服务的“查看Web应用”，输入请求数据并执行测试。

通过API调用：获取服务的访问地址和Token，使用如下代码调用：

import requests

url = "http://<服务访问地址>/api/predict"
headers = {"Authorization": "Bearer <Token>"}
data = {"input": {"text": "Deploying ModelScope models on PAI-EAS is simple and easy to use"}}
response = requests.post(url, json=data, headers=headers)
print(response.json())

2. 使用ACK集群

ACK（容器服务Kubernetes版）支持通过Arena工具快速部署ModelScope模型推理服务：

前提条件：
- 已创建包含GPU节点的ACK集群Pro版，且集群版本为1.22及以上。
- GPU节点显存需为16GB及以上。

部署推理服务：

执行以下命令部署ModelScope模型推理服务：

arena serve custom \
 --name=modelscope \
 --version=v1 \
 --gpus=1 \
 --replicas=1 \
 --restful-port=8000 \
 --readiness-probe-action="tcpSocket" \
 --readiness-probe-action-option="port: 8000" \
 --readiness-probe-option="initialDelaySeconds: 30" \
 --readiness-probe-option="periodSeconds: 30" \
 --image=kube-ai-registry.cn-shanghai.cr.aliyuncs.com/kube-ai/quick-deploy-llm:v1 \
 "MODEL_ID=qwen/Qwen1.5-4B-Chat python3 server.py"

查看推理服务详细信息：
```
arena serve get modelscope
```

验证推理服务：

在本地环境与推理服务之间建立端口转发：
```
kubectl port-forward svc/modelscope 8000:8000
```

向模型推理服务发送请求：

curl -XPOST http://localhost:8000/generate -H "Content-Type: application/json" -d '{"text_input": "什么是人工智能？人工智能是", "parameters": {"stream": false, "temperature": 0.9, "seed": 10}}'

预期输出：

{"model_name":"/root/.cache/modelscope/hub/qwen/Qwen1___5-4B-Chat","text_output":"什么是人工智能？人工智能是研究如何使计算机和机器模仿人类的智能行为来实现自主思考"}

三、注意事项

资源清理：如果不再使用已创建的资源，请及时删除以避免产生额外费用。例如，删除ACK中的推理服务：
```
arena serve del modelscope
```
或者在PAI-EAS中删除服务实例。
权限管理：确保当前用户具备足够的权限（如RAM用户需授予DSW、DLC或EAS的操作权限）。
模型来源：支持从ModelScope官网获取模型ID、版本号等信息。对于非公开模型，需配置访问令牌（ACCESS_TOKEN）。

通过上述方法，您可以高效地利用阿里云创空间资源体验ModelScope模型，同时满足高性能计算的需求。

有帮助

无帮助

AI 助理回答生成答案可能存在不准确，仅供参考

0 条回答

写回答

取消提交回答

ModelScope模型即服务

ModelScope旨在打造下一代开源的模型即服务共享平台，为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品，让模型应用更简单！欢迎加入技术交流群：微信公众号：魔搭ModelScope社区，钉钉答疑群：44837352

我要提问