modelscope中，当前有两张3090Ti的GPU，想搞个codex，有啥好的推荐吗？

展开

收起

小小爱吃香菜 2024-04-16 20:49:30 119 版权

阿里云 AI 助理回答

在ModelScope中部署Codex类模型时，结合您当前的硬件配置（两张NVIDIA 3090 Ti GPU），以下是一些推荐和操作建议：

1. 模型选择

Codex类模型通常用于代码生成任务，您可以选择以下模型进行部署： - Qwen-Coder：这是通义千问系列中的代码生成模型，支持多语言代码生成，适合处理复杂的编程任务。 - CodeLlama：Meta开源的代码生成模型，支持多种编程语言，性能优秀且社区支持广泛。 - StarCoder：专注于代码生成的大模型，支持多种编程语言，尤其适合处理大规模代码库。

根据您的需求，推荐优先尝试 Qwen-Coder 或 CodeLlama，因为它们在性能和易用性上表现较好。

2. 部署方式

方式一：通过Arena部署推理服务

前提条件：
- 确保已创建包含GPU节点的ACK集群，并安装最新版Arena客户端。
- GPU节点显存需为16GB及以上，您的3090 Ti（每张24GB显存）完全满足要求。

部署命令：使用以下命令部署模型推理服务：

arena serve custom \
-name=codex-service \
-version=v1 \
-gpus=2 \
-replicas=1 \
-restful-port=8000 \
-readiness-probe-action="tcpSocket" \
-readiness-probe-action-option="port: 8000" \
-readiness-probe-option="initialDelaySeconds: 30" \
-readiness-probe-option="periodSeconds: 30" \
-image=kube-ai-registry.cn-shanghai.cr.aliyuncs.com/kube-ai/quick-deploy-llm:v1 \
"MODEL_ID=qwen/Qwen-Coder python3 server.py"

参数说明： - -gpus=2：指定使用2张GPU。 - MODEL_ID：替换为您选择的模型ID，例如qwen/Qwen-Coder或codellama/CodeLlama-34B。

验证服务：部署完成后，执行以下命令查看服务状态：

arena serve get codex-service

确保服务状态为Running后，通过端口转发测试推理请求：

curl -XPOST http://localhost:8000/generate \
-H "Content-Type: application/json" \
-d '{"text_input": "def fibonacci(n):", "parameters": {"stream": false, "temperature": 0.7}}'

方式二：基于函数计算部署

如果您希望通过函数计算部署Codex类模型，可以参考以下步骤： 1. 镜像准备： - 将模型打包到镜像中，或者将模型存储在NAS文件系统中以实现与镜像分离。 - 注意：镜像压缩前尺寸应小于20GB，否则可能导致部署失败。

模型预热：在/initialize方法中加载模型，避免启动时因加载模型耗时过长导致健康检查失败。例如：
```
def initialize(context):
   global model
   model = load_model("/path/to/model")
```
NAS文件系统优化：如果模型存储在NAS中，建议使用通用型NAS的性能型，以减少读取延迟。

3. 性能优化建议

分布式推理：利用两张3090 Ti GPU，可以通过tensor-parallel-size和pipeline-parallel-size参数实现模型并行化推理。例如：
```
vllm serve /path/to/Qwen-Coder \
-tensor-parallel-size 2 \
-pipeline-parallel-size 1 \
-trust-remote-code \
-enable-chunked-prefill \
-host 0.0.0.0
```
这种方式可以显著提升推理效率。
缓存机制：启用chunked-prefill功能，优化大模型的推理性能，减少显存占用。
评估数据集：如果需要对模型进行性能评估，可以提前下载评估数据集并存储在本地。例如：
```
git lfs clone https://www.modelscope.cn/datasets/gliang1001/ShareGPT_V3_unfiltered_cleaned_split.git
```