Qwen3 大模型在阿里云容器服务上的极简部署教程

本文涉及的产品
多模态交互后付费免费试用,全链路、全Agent
简介: 通义千问 Qwen3 是 Qwen 系列最新推出的首个混合推理模型,其在代码、数学、通用能力等基准测试中,与 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等顶级模型相比,表现出极具竞争力的结果。

【阅读原文】戳:Qwen3 大模型在阿里云容器服务上的极简部署教程


01. 背景介绍

 

Qwen3

 

通义千问 Qwen3 是 Qwen 系列最新推出的首个混合推理模型。旗舰模型 Qwen3-235B-A22B 在代码、数学、通用能力等基准测试中,与 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等顶级模型相比,表现出极具竞争力的结果。此外,小型 MoE 模型 Qwen3-30B-A3B 的激活参数数量是 QwQ-32B 的 10%,表现更胜一筹,甚至像 Qwen3-4B 这样的小模型也能匹敌 Qwen2.5-72B-Instruct 的性能。Qwen3 支持多种思考模式,用户可以根据具体任务控制模型进行思考的程度。Qwen3 模型支持 119 种语言和方言, 同时也加强了对 MCP 的支持。更多信息请参考《Qwen3:思深,行速》

 

ACK

 

容器服务 Kubernetes 版 ACK(Container Service for Kubernetes)是全球首批通过 Kubernetes 一致性认证的服务平台,提供高性能的容器应用管理服务。它整合了阿里云虚拟化、存储、网络和安全能力,简化集群的搭建和扩容等工作,让您专注于容器化的应用的开发与管理。

 

ACS

 

容器计算服务 ACS(Container Compute Service)是以 Kubernetes 为用户界面的容器服务产品,提供符合容器规范的算力资源。

 

通过虚拟节点(Virtual Node)的形式接入到 ACK 集群中,使得集群可以轻松获得极大的弹性能力,而不必受限于集群的节点计算容量。ACS 在接管 Pod 容器底层基础设施的管理工作后,Kubernetes 不再需要直接负责单个 Pod 的放置、启动等工作,也不再需要关心底层虚拟机的资源情况,通过 ACS 即可确保 Pod 需要的资源随时可用。

 

 

 


02. 前提条件

 

 

已创建包含 GPU 的 ACK 集群。具体操作,请参见为集群添加 GPU 节点池 [1]

 

已通过 kubectl 连接到集群。具体操作,请参见通过 kubectl 连接集群 [2]

 


 

 

03. 模型部署

 

 

步骤一:准备 Qwen3-8B 模型文件

 

1. 执行以下命令从 ModelScope 下载 Qwen3-8B 模型。

 

请确认是否已安装 git-lfs 插件,如未安装可执行 yum install git-lfs 或者 apt-get install git-lfs 安装。更多的安装方式,请参见安装 git-lfs [3]

 

git lfs install
GIT_LFS_SKIP_SMUDGE=1 git clone https://huggingface.co/Qwen/Qwen3-8B
cd Qwen3-8B/
git lfs pull

 

2. 在 OSS 中创建目录,将模型上传至 OSS。

 

关于 ossutil 工具的安装和使用方法,请参见安装 ossutil [4]

 

ossutil mkdir oss://<your-bucket-name>/models/Qwen3-8B
ossutil cp -r ./Qwen3-8B oss://<your-bucket-name>/models/Qwen3-8B

 

3. 创建 PV 和 PVC。为目标集群配置名为 llm-model 的存储卷 PV 和存储声明 PVC。

 

apiVersion: v1
kind: Secret
metadata:
  name: oss-secret
stringData:
  akId: <your-oss-ak> # 配置用于访问OSS的AccessKey ID
  akSecret: <your-oss-sk> # 配置用于访问OSS的AccessKey Secret
---
apiVersion: v1
kind: PersistentVolume
metadata:
  name: llm-model
  labels:
    alicloud-pvname: llm-model
spec:
  capacity:
    storage: 30Gi 
  accessModes:
    - ReadOnlyMany
  persistentVolumeReclaimPolicy: Retain
  csi:
    driver: ossplugin.csi.alibabacloud.com
    volumeHandle: llm-model
    nodePublishSecretRef:
      name: oss-secret
      namespace: default
    volumeAttributes:
      bucket: <your-bucket-name> # bucket名称
      url: <your-bucket-endpoint> # Endpoint信息,如oss-cn-hangzhou-internal.aliyuncs.com
      otherOpts: "-o umask=022 -o max_stat_cache_size=0 -o allow_other"
      path: <your-model-path> # 本示例中为/models/Qwen3-8B/
---
apiVersion: v1
kind: PersistentVolumeClaim
metadata:
  name: llm-model
spec:
  accessModes:
    - ReadOnlyMany
  resources:
    requests:
      storage: 30Gi
  selector:
    matchLabels:
      alicloud-pvname: llm-model

 


步骤二:部署推理服务

 

执行下列命令,启动名称为 qwen3 的推理服务。

 

apiVersion: apps/v1
kind: Deployment
metadata:
  labels:
    app: qwen3
  name: qwen3
  namespace: default
spec:
  replicas: 1
  selector:
    matchLabels:
      app: qwen3
  template:
    metadata:
      labels:
        app: qwen3
        # for ACS Cluster
        # alibabacloud.com/compute-class: gpu
        # 指定GPU型号为example-model,请按实际情况填写,如T4
        # alibabacloud.com/gpu-model-series: "example-model"
    spec:
      volumes:
        - name: model
          persistentVolumeClaim:
            claimName: llm-model
      containers:
      - command:
        - sh
        - -c
        - vllm serve /models/Qwen3-8B/ --port 8000 --trust-remote-code --max-model-len 2048 --gpu-memory-utilization 0.98 
        image: kube-ai-registry.cn-shanghai.cr.aliyuncs.com/kube-ai/vllm:v0.8.4
        imagePullPolicy: IfNotPresent
        name: vllm
        ports:
        - containerPort: 8000
          name: restful
          protocol: TCP
        readinessProbe:
          tcpSocket:
            port: 8000
          initialDelaySeconds: 30
        resources:
          limits:
            nvidia.com/gpu: "1"
            cpu: 8
            memory: 16Gi
          requests:
            nvidia.com/gpu: "1"
            cpu: 8
            memory: 16Gi
        volumeMounts:
          - mountPath: /models/Qwen3-8B/
            name: model
---
apiVersion: v1
kind: Service
metadata:
  name: qwen3
spec:
  ports:
    - name: http
      port: 8000
      protocol: TCP
      targetPort: 8000
  selector:
    app: qwen3
  type: ClusterIP

 


步骤三:验证推理服务

 

1. 执行以下命令,在推理服务与本地环境之间建立端口转发。

 

kubectl port-forward svc/qwen3 8000:8000

 

预期输出:

 

Forwarding from 127.0.0.1:8000 -> 8000
Forwarding from [::1]:8000 -> 8000

 

2. 执行以下命令,向模型推理服务发送一条模型推理请求。

 

curl -H "Content-Type: application/json" http://localhost:8000/v1/chat/completions -d '{"model": "/models/Qwen3-8B/", "messages": [{"role": "user", "content": "Say this is a test!"}], "max_tokens": 512, "temperature": 0.7, "top_p": 0.9, "seed": 10}'

 

预期输出:

 

{"id":"chatcmpl-3e472d9f449648718a483279062f4987","object":"chat.completion","created":1745980464,"model":"/models/Qwen3-8B/","choices":[{"index":0,"message":{"role":"assistant","reasoning_content":null,"content":"<think>\nOkay, the user said \"Say this is a test!\" and I need to respond. Let me think about how to approach this. First, I should acknowledge their message. Maybe start with a friendly greeting. Then, since they mentioned a test, perhaps they're testing my response capabilities. I should confirm that I'm here to help and offer assistance with anything they need. Keep it open-ended so they feel comfortable asking more. Also, make sure the tone is positive and encouraging. Let me put that together in a natural way.\n</think>\n\nHello! It's great to meet you. If you have any questions or need help with something, feel free to let me know. I'm here to assist! 😊","tool_calls":[]},"logprobs":null,"finish_reason":"stop","stop_reason":null}],"usage":{"prompt_tokens":14,"total_tokens":161,"completion_tokens":147,"prompt_tokens_details":null},"prompt_logprobs":null}

 



 

04. ACK Pro 集群弹 ACS 算力

 


ACK 同时还支持 Serverless Pod 方式 ACS GPU 算力。ACS容器算力可以通过虚拟节点(Virtual Node)的形式接入到 Kubernetes 集群中,使得集群可以轻松获得极大的弹性能力,而不必受限于集群的节点计算容量。

 

前提条件

 

开通容器服务 Kubernetes 版,并授权默认角色和开通相关云产品。具体操作,请参见快速创建 ACK 托管集群 [5]

 

登录容器计算服务控制台 [6],根据提示开通 ACS 服务。

 

组件中心安装 虚拟节点组件(ACK Virtual Node)。

 

模型部署

 

ACS 与 ACK Pro 的部署方式基本一致,只需要再额外在 Pod 打上 ACS 算力标签即可 alibabacloud.com/compute-class: gpu,如下:

 

apiVersion: apps/v1
kind: Deployment
metadata:
  name: qwen3
spec:
  template:
    metadata:
      labels:
        app: qwen3
        # for ACS 算力
        alibabacloud.com/compute-class: gpu
        # 指定GPU型号为example-model,请按实际情况填写,如T4
        alibabacloud.com/gpu-model-series: "example-model"
    spec:
      containers:
      ...

 


相关链接:

 

[1] 为集群添加 GPU 节点池

https://help.aliyun.com/zh/ack/ack-managed-and-ack-dedicated/user-guide/create-an-ack-managed-cluster-with-gpu-accelerated-nodes

 

[2] 通过 kubectl 连接集群

https://help.aliyun.com/zh/ack/ack-managed-and-ack-dedicated/user-guide/obtain-the-kubeconfig-file-of-a-cluster-and-use-kubectl-to-connect-to-the-cluster

 

[3] 安装 git-lfs

https://docs.github.com/en/repositories/working-with-files/managing-large-files/installing-git-large-file-storage

 

[4] 安装 ossutil

https://help.aliyun.com/zh/oss/developer-reference/install-ossutil

 

[5] 快速创建 ACK 托管集群

https://help.aliyun.com/zh/ack/ack-managed-and-ack-dedicated/getting-started/quick-start-for-first-time-users/

 

[6] 容器计算服务控制台

https://acs.console.aliyun.com/#/



我们是阿里巴巴云计算和大数据技术幕后的核心技术输出者。

欢迎关注 “阿里云基础设施”同名微信微博知乎

获取关于我们的更多信息~

相关文章
|
20天前
|
机器学习/深度学习 人工智能 算法
GSPO:Qwen让大模型强化学习训练告别崩溃,解决序列级强化学习中的稳定性问题
这是7月份的一篇论文,Qwen团队提出的群组序列策略优化算法及其在大规模语言模型强化学习训练中的技术突破
319 0
GSPO:Qwen让大模型强化学习训练告别崩溃,解决序列级强化学习中的稳定性问题
|
1月前
|
存储 机器学习/深度学习 缓存
阿里云AirCache技术实现多模态大模型高效推理加速,入选国际顶会ICCV2025
阿里云研发的AirCache技术被计算机视觉顶会ICCV2025收录,该技术通过激活跨模态关联、优化KV缓存压缩策略,显著提升视觉语言模型(VLMs)的推理效率与存储性能。实验表明,在保留仅10%视觉缓存的情况下,模型性能下降小于1%,解码延迟最高降低66%,吞吐量提升达192%。AirCache无需修改模型结构,兼容主流VLMs,已在教育、医疗、政务等多个行业落地应用,助力多模态大模型高效赋能产业智能化升级。
173 1
|
1月前
|
人工智能 运维 算法
通义灵码软件工程大模型获顶会最高奖!
近日,软件领域国际顶会ISSTA 2025(International Symposium on Software Testing and Analysis)公布最高奖项-杰出论文奖——「通义灵码软件工程大模型SWE-GPT」成为唯一获得该奖项的企业论文
|
2月前
|
编解码 自然语言处理 安全
📣通义大模型新成员Qwen-VLo,重磅上线,它实现了从“看懂”世界到“描绘”世界
通义千问团队推出全新多模态统一理解与生成模型Qwen VLo,具备强大的图像理解与生成能力。它不仅能“看懂”图像内容,还能基于理解进行高质量再创造,实现从感知到生成的跨越。支持开放指令编辑、多语言交互及复杂任务处理,适用于图像生成、风格迁移、检测标注等多种场景。
519 0
|
2月前
|
存储 运维 安全
Docker化运维:容器部署的实践指南
Docker化运维:容器部署的实践指南
|
1月前
|
人工智能 数据可视化 数据挖掘
Gemini-2.5-pro大模型专业画常用图表保姆级教程:圆角环形图+柱状图排序图+系列按行和按列排布图,国内直接使用
虚竹哥推出AI数据可视化工具《xuzhu-huatu-plus》,支持多种图表类型,如柱状图、饼图、热力图等,输入指令即可生成图表代码,大幅简化绘图流程。用户仅需访问指定平台,选择智能体并输入需求,AI即自动完成图表设计,助力高效数据分析与展示。提供免费授权码体验,国内可直接使用。
79 9
|
1月前
|
NoSQL Redis Docker
使用Docker Compose工具进行容器编排的教程
以上就是使用Docker Compose进行容器编排的基础操作。这能帮你更有效地在本地或者在服务器上部署和管理多容器应用。
228 11
|
1月前
|
数据采集 编解码 人工智能
Gemma 3n正式版开源:谷歌全新端侧多模态大模型,2GB 内存就能跑,重点提升编码和推理能力!
6月底,Google正式开源发布了全新端侧多模态大模型 Gemma 3n!相较此前的预览版,最新的 Gemma 3n 完整版进一步提升性能表现,支持在 2GB 内存的硬件上本地运行,重点提升了编码和推理方面的能力。
248 1

推荐镜像

更多
下一篇
对象存储OSS
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等

登录插画

登录以查看您的控制台资源

管理云资源
状态一览
快捷访问