使用阿里云GPU服务器部署Qwen3-235B-A22B推理模型,基于ecs.ebmgn8v实例规格

简介: 本文介绍如何使用阿里云GPU服务器(ecs.ebmgn8v实例,8卡96GB显存)部署Qwen3-235B-A22B大模型,涵盖创建VPC、安全组、GPU实例、环境配置、模型下载、部署及推理测试全流程,费用约290元/小时。

如何使用阿里云GPU服务器部署Qwen3-235B-A22B大模型,本文基于GPU云服务器ecs.ebmgn8v实例规格,ecs.ebmgn8v配备8块GPU,每块GPU显存为96GB,总显存768GB,可以满足该模型的运行要求,费用大约是290元/小时,阿小云分享阿里云官网关于GPU实例部署Qwen3-235B-A22B推理模型的全流程,本文涉及云产品GPU云服务器:https://www.aliyun.com/product/egs


GPU实例部署Qwen3-235B-A22B教程

该教程分为五个步骤,先创建GPU实例,然后准备运行环境,再就是下载模式、部署模型、推理测试验证共5个步骤。


一、创建GPU云服务器实例

创建GPU实例3个小步骤,先创建VPC、再设置安全组,最后创建GPU云服务器。


1、创建专有网络VPC

登录专有网络管理控制台,在左侧导航栏单击专有网络

  1. 专有网络页面单击创建专有网络
  2. 创建专有网络页面,配置1个专有网络和1台交换机。按照下表配置:

配置项

说明

示例值

专有网络

地域

地域是指您希望创建VPC所在的地理位置。地域的选择将决定您的云服务器ECS实例的部署位置。不同地域之间网络隔离,且资源分布和可用区数量可能不同。

华东1(杭州)

名称

建议您在部署过程中新建一个VPC作为本方案的专有网络。部署过程中填写VPC名称即可创建对应名称的VPC。

VPC_QW

IPv4网段

在创建VPC时,您必须按照无类域间路由块(CIDR block)的格式为您的专有网络划分私网网段。阿里云VPC支持的网段信息请参见什么是专有网络

192.168.0.0/16

交换机

名称

建议您在部署过程中在新建的VPC内创建虚拟交换机。部署过程中填写交换机名称即可创建对应名称的虚拟交换机。

vsw_001

可用区

建议选择排序靠后的,一般此类可用区较新。新可用区资源更充沛,新规格也会在新的可用区优先上线。

杭州 可用区K

IPv4网段

虚拟交换机需要一个IPv4网段。

192.168.0.0/24


2、创建安全组

创建安全组管理相关云资源的网络流入和流出,确保网络访问的安全性。

  1. 访问ECS控制台-安全组
  2. 在顶部菜单栏,选择华东1(杭州)地域。
  3. 安全组页面,单击创建安全组
  4. 创建安全组页面,创建安全组。

按照下表配置安全组:

配置项

说明

示例值

安全组名称

设置安全组的名称。

SecurityGroup_1

网络

选择之前规划的专有网络VPC。

VPC_QW

安全组类型

因需从公网拉取相关软件,因此选择普通安全组,以实现公网出方向所有地址可访问。实际部署时,您建议选择安全性更高的企业级安全组。

普通安全组

规则配置

仅需要入方向开启3000端口号即可,其它端口号删除。

3000


3、创建GPU云服务器实例

  1. 打开GPU云服务器页面:https://www.aliyun.com/product/egs
  2. 创建GPU实例,创建过程中需注意以下配置项,未说明的参数,可使用默认值。

按照下表,设置GPU服务器参数:

配置项

说明

示例值

付费类型

付费类型影响实例的计费和收费规则。ECS 计费的详细信息请参见计费方式概述

按量付费

地域

实例所在地域

华东1(杭州)

网络及可用区

选择专有网络VPC和交换机。

VPC_QW、vsw_001

实例

ECS的实例规格及内核、vCPU 数量。关于 ECS选型的最佳实践请参见实例规格选型指导

ecs.ebmgn8v.48xlarge

镜像

ECS的“装机盘”,为ECS实例提供操作系统、预装软件等。

公共镜像中选择 Alibaba Cloud Linux

镜像的版本。

Alibaba Cloud Linux 3.2104 LTS 64位

安装 GPU 驱动。

勾选安装GPU驱动,在下拉列表中选择:

CUDA 版本 12.4.1 / Driver 版本 550.127.08 / CUDNN 版本 9.2.0.82

系统盘类型

硬盘类型。

ESSD 云盘

系统盘容量

硬盘容量。

100 GiB

数据盘

用于存放模型。

单击添加数据盘容量填写500GiB,勾选随实例释放

公网 IP

用于访问外网和提供企业门户网站服务。

选中分配公网 IPv4 地址

安全组

使用之前创建的安全组。选择已有安全组

SecurityGroup_1

管理设置

选择设置自定义密码,方便后续登录机器安装服务环境。

自定义密码


二、准备环境

在进行模型部署之前,需要先准备好运行环境,确保GPU资源能够被正确调用,并且通过Docker和 NVIDIA容器工具包实现环境的隔离和一致性。Docker 是一种容器化技术,能够将应用程序及其依赖打包到一个独立的容器中,确保在不同环境中运行时的一致性。而NVIDIA容器工具包则允许Docker容器直接调用GPU资源。

  1. 执行以下脚本会在您的实例上安装Docker和NVIDIA容器工具包,当输出日志安装完成表示成功安装。
    说明
    由于需要下载网络资源,安装脚本需要3-10分钟左右,请您耐心等待。
# 脚本支持Alibaba Cloud Linux、CentOS、Ubuntu、Debian
curl -fsSL https://help-static-aliyun-doc.aliyuncs.com/qwen3/install-script/install-docker.sh | bash
  1. 初始化数据盘,并将数据盘挂载到/mnt目录。
  1. 执行lsblk命令,查看数据盘的信息。
  2. 执行以下命令,创建并挂载文件系统至/mnt目录下。
sudo mkfs.ext4 /dev/vdb
sudo mount /dev/vdb /mnt
  1. 执行lsblk命令,查看数据盘已挂载至/mnt目录下。

步骤三:下载模型

  1. 安装并配置ossutil,具体操作请参见安装ossutil和配置ossutil。
  2. 执行以下脚本通过ossutil下载模型文件(存储在/mnt/Qwen3-235B-A22B目录下),当输出日志Qwen3-235B-A22B downloads successfully!表示模型下载成功。说明
  • 由于模型较大,下载时间为15-20分钟左右,请您耐心等待。
  • 模型下载是通过ossutil并使用cp命令在内网环境执行下载,以起到下载加速的目的,如果您的ECS在非杭州地域,执行下载脚本会出现网络连接错误,您也可以通过ModelScope的模型库下载Qwen3-235B-A22B
curl -fsSL https://help-static-aliyun-doc.aliyuncs.com/qwen3/install-script/235b-a22b-0522/download.sh | bash


步骤四:部署模型

vllm:

# 定义模型名称。
MODEL_NAME="Qwen3-235B-A22B"

# 定义服务运行时监听的端口号。可以根据实际需求进行调整,默认使用30000端口
PORT="30000"

# 定义使用的GPU数量。这取决于实例上可用的GPU数量,可以通过nvidia-smi -L命令查询
TENSOR_PARALLEL_SIZE="8"

# 设置本地存储路径
LOCAL_SAVE_PATH="/mnt/Qwen3-235B-A22B"

sudo docker run -t -d --name="qwen-test"  --ipc=host \
--cap-add=SYS_PTRACE --network=host --gpus all \
--privileged --ulimit memlock=-1 --ulimit stack=67108864 \
-v ${LOCAL_SAVE_PATH}:${LOCAL_SAVE_PATH} \
egs-registry.cn-hangzhou.cr.aliyuncs.com/egs/vllm:0.8.5-pytorch2.6-cu124-20250429 \
/bin/bash -c "vllm serve ${LOCAL_SAVE_PATH} \
--max-model-len=16384 \
--tensor-parallel-size ${TENSOR_PARALLEL_SIZE} --trust-remote-code \
--host 0.0.0.0 --port ${PORT} --gpu-memory-utilization 0.9"

sglang:

# 定义模型名称。
MODEL_NAME="Qwen3-235B-A22B"

# 定义服务运行时监听的端口号。可以根据实际需求进行调整,默认使用30000端口
PORT="30000"

# 定义使用的GPU数量。这取决于实例上可用的GPU数量,可以通过nvidia-smi -L命令查询
TENSOR_PARALLEL_SIZE="8"

# 设置本地存储路径
LOCAL_SAVE_PATH="/mnt/Qwen3-235B-A22B"

sudo docker run -t -d --name="qwen-test"  --ipc=host \
--cap-add=SYS_PTRACE --network=host --gpus all \
--privileged --ulimit memlock=-1 --ulimit stack=67108864 \
-v ${LOCAL_SAVE_PATH}:${LOCAL_SAVE_PATH} \
egs-registry.cn-hangzhou.cr.aliyuncs.com/egs/sglang:0.4.6.post1-pytorch2.6-cu124-20250429 \
/bin/bash -c "python3 -m sglang.launch_server \
--model-path ${LOCAL_SAVE_PATH} \
--port ${PORT} --tp ${TENSOR_PARALLEL_SIZE} \
--host 0.0.0.0 \
--reasoning-parser qwen3 --enable-torch-compile"

如下所示,表示推理服务已启动。


步骤四:推理测试验证

  1. 访问Chatbox官网下载并安装客户端。
  2. 单击设置在设置页面,模型提供方下拉列表,选择添加自定义提供方


  1. 设置模型信息。

配置项

说明

API域名

填写模型提供服务的地址http://ECS公网IP:30000/v1

API路径

OpenAI API兼容下填写固定路径/chat/completions

模型

填写提供服务的模型(例:/mnt/Qwen3-235B-A22B)。

4.单击新对话,与模型进行对话测试。

更多详细信息,请移步到官方文档查看:https://help.aliyun.com/zh/ecs/user-guide/deploy-qwen3-235b-a22b-on-gpu-accelerated-instances

相关实践学习
在云上部署ChatGLM2-6B大模型(GPU版)
ChatGLM2-6B是由智谱AI及清华KEG实验室于2023年6月发布的中英双语对话开源大模型。通过本实验,可以学习如何配置AIGC开发环境,如何部署ChatGLM2-6B大模型。
相关文章
|
18天前
|
存储 Linux 异构计算
使用阿里云GPU服务器部署DeepSeek满血版模型——2026年最新教程
本文介绍如何在阿里云ebmgn8v GPU实例上,使用SGLang部署671B参数的开源MoE模型DeepSeek-V3/R1,实现开箱即用的高效推理服务,涵盖环境配置、模型下载与推理测试全流程。
|
2月前
|
Linux Docker 容器
docker下部署 vLLM 启动Qwen3-VL-32B-Instruct模型
本文介绍在CentOS系统、A10 6×24G显卡环境下,通过Docker部署vLLM并启动Qwen3-VL-32B-Instruct大模型的完整流程,涵盖镜像拉取、容器配置、多卡并行与显存优化设置,支持32K上下文,附带启动脚本及调用验证示例。
3408 2
|
2月前
|
负载均衡 Docker Python
vLLM-Ascend 安装部署与环境配置指南
vLLM-Ascend 是 vLLM 项目专为华为昇腾 NPU 设计的硬件插件,支持主流大模型与多模态架构,提供高性能推理能力。项目结构清晰,涵盖核心算子、工具脚本与容器化部署方案,兼容单/多节点环境,助力高效构建昇腾上的 AI 推理服务。
687 1
|
1月前
|
人工智能 安全 API
Nacos 安全护栏:MCP、Agent、配置全维防护,重塑 AI Registry 安全边界
Nacos安全新标杆:精细鉴权、无感灰度、全量审计!
633 69
|
18天前
|
存储 运维 安全
阿里云目前活动内云服务器可以买3年吗?可选实例规格、配置及价格参考
在目前阿里云的活动中,经济型e实例支持3年购买,配置涵盖2核4G、4核8G等,例如2核4G 3年1499.40元起,4核8G 3年3249.00元起。采用Intel Xeon Platinum处理器,支持多种处理器内存配比,搭载ESSD Entry云盘,适配中小型网站、开发测试、轻量级应用等场景。
|
16天前
|
云安全 安全 Cloud Native
阿里云智能云原生应用保护平台CNAPP(原安全中心)详解:费用价格、功能优势及问题解答FAQ
阿里云全新升级智能云原生应用保护平台(CNAPP),融合CWPP、CSPM、CIEM、CTDR四大能力,提供覆盖“事前-事中-事后”的全链路安全防护。支持多云纳管、自动威胁响应与合规检查,助力企业实现安全左移、风险可视、响应自动化。
|
2月前
|
JavaScript Shell API
阿里云百炼 API 调用教程:准备 API-Key、配置环境变量和调用 API 流程
在使用阿里云百炼平台的大模型能力时,API 调用是核心环节 —— 无论是开发 AI 应用、测试模型效果,还是搭建智能服务,都需要通过 API 将大模型能力集成到自己的系统中。不过对很多开发者来说,从准备密钥到实际调用的流程可能存在疑问,比如 “API-Key 怎么获取”“环境变量配置有什么用”“不同语言怎么写调用代码”。本文结合最新的实操细节,用通俗的语言把整个流程拆解开,从账号准备到多语言调用,每一步都附具体操作和代码示例,帮大家快速上手。
|
4月前
|
负载均衡 测试技术 调度
大模型分布式推理:张量并行与流水线并行技术
本文深入探讨大语言模型分布式推理的核心技术——张量并行与流水线并行。通过分析单GPU内存限制下的模型部署挑战,详细解析张量并行的矩阵分片策略、流水线并行的阶段划分机制,以及二者的混合并行架构。文章包含完整的分布式推理框架实现、通信优化策略和性能调优指南,为千亿参数大模型的分布式部署提供全面解决方案。
1021 4
|
21天前
|
人工智能 Linux 异构计算
使用阿里云GPU服务器部署DeepSeek-R1模型图文教程,2026年最新新手AI大模型部署流程
本文介绍2026年最新阿里云GPU服务器部署DeepSeek-R1大模型的全流程,包含创建GPU实例、部署模型及启动Open WebUI三步。涵盖实例配置选择、Docker环境搭建、模型下载与推理服务启动,适合新手快速上手AI大模型部署。
|
1月前
|
存储 SQL 运维
Hologres Dynamic Table:高效增量刷新,构建实时统一数仓的核心利器
在实时数据架构中,Hologres Dynamic Table 基于有状态增量计算模型,有效解决“海量历史+少量新增”场景下的数据刷新难题。相比传统全量刷新,其通过持久化中间状态,实现复杂查询下的高效增量更新,显著降低延迟与资源消耗,提升实时数仓性能与运维效率。