如何使用阿里云GPU服务器部署Qwen3-235B-A22B大模型,本文基于GPU云服务器ecs.ebmgn8v实例规格,ecs.ebmgn8v配备8块GPU,每块GPU显存为96GB,总显存768GB,可以满足该模型的运行要求,费用大约是290元/小时,阿小云分享阿里云官网关于GPU实例部署Qwen3-235B-A22B推理模型的全流程,本文涉及云产品GPU云服务器:https://www.aliyun.com/product/egs
GPU实例部署Qwen3-235B-A22B教程
该教程分为五个步骤,先创建GPU实例,然后准备运行环境,再就是下载模式、部署模型、推理测试验证共5个步骤。
一、创建GPU云服务器实例
创建GPU实例3个小步骤,先创建VPC、再设置安全组,最后创建GPU云服务器。
1、创建专有网络VPC
登录专有网络管理控制台,在左侧导航栏单击专有网络。
- 在专有网络页面单击创建专有网络。
- 在创建专有网络页面,配置1个专有网络和1台交换机。按照下表配置:
配置项 |
说明 |
示例值 |
专有网络 |
||
地域 |
地域是指您希望创建VPC所在的地理位置。地域的选择将决定您的云服务器ECS实例的部署位置。不同地域之间网络隔离,且资源分布和可用区数量可能不同。 |
华东1(杭州) |
名称 |
建议您在部署过程中新建一个VPC作为本方案的专有网络。部署过程中填写VPC名称即可创建对应名称的VPC。 |
VPC_QW |
IPv4网段 |
在创建VPC时,您必须按照无类域间路由块(CIDR block)的格式为您的专有网络划分私网网段。阿里云VPC支持的网段信息请参见什么是专有网络。 |
192.168.0.0/16 |
交换机 |
||
名称 |
建议您在部署过程中在新建的VPC内创建虚拟交换机。部署过程中填写交换机名称即可创建对应名称的虚拟交换机。 |
vsw_001 |
可用区 |
建议选择排序靠后的,一般此类可用区较新。新可用区资源更充沛,新规格也会在新的可用区优先上线。 |
杭州 可用区K |
IPv4网段 |
虚拟交换机需要一个IPv4网段。 |
192.168.0.0/24 |
2、创建安全组
创建安全组管理相关云资源的网络流入和流出,确保网络访问的安全性。
- 访问ECS控制台-安全组。
- 在顶部菜单栏,选择华东1(杭州)地域。
- 在安全组页面,单击创建安全组。
- 在创建安全组页面,创建安全组。
按照下表配置安全组:
配置项 |
说明 |
示例值 |
安全组名称 |
设置安全组的名称。 |
SecurityGroup_1 |
网络 |
选择之前规划的专有网络VPC。 |
VPC_QW |
安全组类型 |
因需从公网拉取相关软件,因此选择普通安全组,以实现公网出方向所有地址可访问。实际部署时,您建议选择安全性更高的企业级安全组。 |
普通安全组 |
规则配置 |
仅需要入方向开启 |
|
3、创建GPU云服务器实例
- 打开GPU云服务器页面:https://www.aliyun.com/product/egs
- 创建GPU实例,创建过程中需注意以下配置项,未说明的参数,可使用默认值。
按照下表,设置GPU服务器参数:
配置项 |
说明 |
示例值 |
付费类型 |
付费类型影响实例的计费和收费规则。ECS 计费的详细信息请参见计费方式概述。 |
按量付费 |
地域 |
实例所在地域 |
华东1(杭州) |
网络及可用区 |
选择专有网络VPC和交换机。 |
VPC_QW、vsw_001 |
实例 |
ECS的实例规格及内核、vCPU 数量。关于 ECS选型的最佳实践请参见实例规格选型指导。 |
ecs.ebmgn8v.48xlarge |
镜像 |
ECS的“装机盘”,为ECS实例提供操作系统、预装软件等。 |
在公共镜像中选择 Alibaba Cloud Linux |
镜像的版本。 |
Alibaba Cloud Linux 3.2104 LTS 64位 |
|
安装 GPU 驱动。 |
勾选安装GPU驱动,在下拉列表中选择: CUDA 版本 12.4.1 / Driver 版本 550.127.08 / CUDNN 版本 9.2.0.82 |
|
系统盘类型 |
硬盘类型。 |
ESSD 云盘 |
系统盘容量 |
硬盘容量。 |
100 GiB |
数据盘 |
用于存放模型。 |
单击添加数据盘,容量填写500GiB,勾选随实例释放。 |
公网 IP |
用于访问外网和提供企业门户网站服务。 |
选中分配公网 IPv4 地址 |
安全组 |
使用之前创建的安全组。选择已有安全组。 |
SecurityGroup_1 |
管理设置 |
选择设置自定义密码,方便后续登录机器安装服务环境。 |
自定义密码 |
二、准备环境
在进行模型部署之前,需要先准备好运行环境,确保GPU资源能够被正确调用,并且通过Docker和 NVIDIA容器工具包实现环境的隔离和一致性。Docker 是一种容器化技术,能够将应用程序及其依赖打包到一个独立的容器中,确保在不同环境中运行时的一致性。而NVIDIA容器工具包则允许Docker容器直接调用GPU资源。
- 执行以下脚本会在您的实例上安装Docker和NVIDIA容器工具包,当输出日志
安装完成表示成功安装。
说明
由于需要下载网络资源,安装脚本需要3-10分钟左右,请您耐心等待。
# 脚本支持Alibaba Cloud Linux、CentOS、Ubuntu、Debian curl -fsSL https://help-static-aliyun-doc.aliyuncs.com/qwen3/install-script/install-docker.sh | bash
- 初始化数据盘,并将数据盘挂载到
/mnt目录。
- 执行
lsblk命令,查看数据盘的信息。 - 执行以下命令,创建并挂载文件系统至
/mnt目录下。
sudo mkfs.ext4 /dev/vdb sudo mount /dev/vdb /mnt
- 执行
lsblk命令,查看数据盘已挂载至/mnt目录下。
步骤三:下载模型
- 安装并配置ossutil,具体操作请参见安装ossutil和配置ossutil。
- 执行以下脚本通过ossutil下载模型文件(存储在/mnt/Qwen3-235B-A22B目录下),当输出日志
Qwen3-235B-A22B downloads successfully!表示模型下载成功。说明
- 由于模型较大,下载时间为15-20分钟左右,请您耐心等待。
- 模型下载是通过ossutil并使用
cp命令在内网环境执行下载,以起到下载加速的目的,如果您的ECS在非杭州地域,执行下载脚本会出现网络连接错误,您也可以通过ModelScope的模型库下载Qwen3-235B-A22B。
curl -fsSL https://help-static-aliyun-doc.aliyuncs.com/qwen3/install-script/235b-a22b-0522/download.sh | bash
步骤四:部署模型
vllm:
# 定义模型名称。 MODEL_NAME="Qwen3-235B-A22B" # 定义服务运行时监听的端口号。可以根据实际需求进行调整,默认使用30000端口 PORT="30000" # 定义使用的GPU数量。这取决于实例上可用的GPU数量,可以通过nvidia-smi -L命令查询 TENSOR_PARALLEL_SIZE="8" # 设置本地存储路径 LOCAL_SAVE_PATH="/mnt/Qwen3-235B-A22B" sudo docker run -t -d --name="qwen-test" --ipc=host \ --cap-add=SYS_PTRACE --network=host --gpus all \ --privileged --ulimit memlock=-1 --ulimit stack=67108864 \ -v ${LOCAL_SAVE_PATH}:${LOCAL_SAVE_PATH} \ egs-registry.cn-hangzhou.cr.aliyuncs.com/egs/vllm:0.8.5-pytorch2.6-cu124-20250429 \ /bin/bash -c "vllm serve ${LOCAL_SAVE_PATH} \ --max-model-len=16384 \ --tensor-parallel-size ${TENSOR_PARALLEL_SIZE} --trust-remote-code \ --host 0.0.0.0 --port ${PORT} --gpu-memory-utilization 0.9"
sglang:
# 定义模型名称。 MODEL_NAME="Qwen3-235B-A22B" # 定义服务运行时监听的端口号。可以根据实际需求进行调整,默认使用30000端口 PORT="30000" # 定义使用的GPU数量。这取决于实例上可用的GPU数量,可以通过nvidia-smi -L命令查询 TENSOR_PARALLEL_SIZE="8" # 设置本地存储路径 LOCAL_SAVE_PATH="/mnt/Qwen3-235B-A22B" sudo docker run -t -d --name="qwen-test" --ipc=host \ --cap-add=SYS_PTRACE --network=host --gpus all \ --privileged --ulimit memlock=-1 --ulimit stack=67108864 \ -v ${LOCAL_SAVE_PATH}:${LOCAL_SAVE_PATH} \ egs-registry.cn-hangzhou.cr.aliyuncs.com/egs/sglang:0.4.6.post1-pytorch2.6-cu124-20250429 \ /bin/bash -c "python3 -m sglang.launch_server \ --model-path ${LOCAL_SAVE_PATH} \ --port ${PORT} --tp ${TENSOR_PARALLEL_SIZE} \ --host 0.0.0.0 \ --reasoning-parser qwen3 --enable-torch-compile"
如下所示,表示推理服务已启动。
步骤四:推理测试验证
- 访问Chatbox官网下载并安装客户端。
- 单击设置在设置页面,模型提供方下拉列表,选择添加自定义提供方。
- 设置模型信息。
配置项 |
说明 |
API域名 |
填写模型提供服务的地址 |
API路径 |
OpenAI API兼容下填写固定路径 |
模型 |
填写提供服务的模型(例: |
4.单击新对话,与模型进行对话测试。
更多详细信息,请移步到官方文档查看:https://help.aliyun.com/zh/ecs/user-guide/deploy-qwen3-235b-a22b-on-gpu-accelerated-instances