使用 NVIDIA TensorRT-LLM PyTorch 新架构优化 Qwen3 系列模型推理

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,100CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: TensorRT-LLM 作为 NVIDIA 专为 LLM 推理部署加速优化的开源库,可帮助开发者快速利用最新 LLM 完成应用原型验证与产品部署。


TensorRT-LLM 作为 NVIDIA 专为 LLM 推理部署加速优化的开源库,可帮助开发者快速利用最新 LLM 完成应用原型验证与产品部署。TensorRT-LLM 提供了一个全面的开源 SDK,用于加速和优化 LLM 推理,包含了最新极致优化的计算 Kernel、高性能 Attention 实现、多机多卡通信分布式支持、丰富的并行和量化策略等,从而在 NVIDIA GPU 上实现突破性的 LLM 推理性能。此外,TensorRT-LLM 采用了 PyTorch 的全新架构,提供了直观简洁的模型定义 API,便于定义和构建新模型,显著减少了代码量,同时大幅降低了 debugging 难度,进一步优化了模型部署流程,提升了开发者的使用体验。

本文将介绍如何在魔搭社区使用 TensorRT-LLM 加速优化 Qwen3 系列模型推理部署。

 

Qwen3 模型

通义千问 Qwen3 是阿里巴巴开发并开源的混合推理大语言模型 (LLM),Qwen3 开源模型系列包含两款混合专家模型 (MoE) 235B-A22B(总参数 2,350 亿,激活参数 220 亿)和 30B-A3B,以及六款稠密 (Dense) 模型 0.6B、1.7B、4B、8B、14B、32B。作为中国首个混合推理模型,Qwen3 在 AIME、LiveCodeBench、ArenaHard、BFCL 等权威评测集上均获得出色的表现(信息来源于阿里巴巴官方微信公众号),在推理、指令遵循、Agent 能力、多语言支持等方面均大幅增强,是全球领先的开源模型。

Qwen 系列开源模型因其突出的模型能力、丰富的模型尺寸和持续更新的生态,在开源社区直接使用、二次开发和落地应用上都有着极其深刻的影响力。

近期 Qwen3 还进一步补齐了开源序列中的 Embedding 和 Rerank 模型,强大的模型矩阵全面覆盖从复杂推理、Agent 任务到轻量级部署的需求,进一步巩固和加强了整个 Qwen 开源生态。

ModelScope 魔搭社区

ModelScope 魔搭作为中国最大最活跃的开源模型社区,旨在打造下一代开源的模型即服务共享平台,为泛 AI 开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单。

超过 1,600 万开发者可以在 ModelScope 轻松下载和部署模型,快速体验模型效果,并通过云端 AI 环境实现在线推理与训练,无需复杂的本地配置。同时,ModelScope 支持多种灵活的部署方式,包括云端、本地及设备端部署,助力开发者以更低的成本和更高的效率推动 AI 技术的应用落地。

除了模型和数据集的托管和灵活调用部署,ModelScope 还提供特色功能社区。比如在ModelScope MCP 广场中上线将近 4,000 多个 MCP server,能够帮助广大开发者更好的通过标准化工具接口,实现模型智能边界的外拓,让魔搭的开源模型生态能更好的与 MCP 生态产生更多的碰撞与化学效应(介绍来源于魔搭社区)。

利用 TensorRT-LLM 加速优化

Qwen3 模型推理部署

在 Qwen3 开源发布的同时,TensorRT-LLM 便已实现支持相关系列模型的推理加速优化部署。针对 Qwen3 推理加速优化,TensorRT-LLM 支持的重要特性包括:

 

模型并行:支持 TP (Tensor Parallelism),EP (Expert Parallelism) 和 Attention DP (Data Parallelism) 等多机多卡并行方式,满足大尺寸模型的并行切分以及高服务级别目标的需求。

量化:除了原生 BF16 数据类型之外,现已支持 per-tensor FP8 量化与 blockwise FP8 量化的支持。通过低精度量化显著降低显存和算力需求,在保证模型整体精度的同时进一步提升推理部署的延迟和整体吞吐。其中,BF16 模型和 FP8 blockwise 量化模型的 checkpoint 可直接通过 ModelScope 相关页面进行访问和下载(例如:Qwen3-235B-A22B-FP8),FP8 per-tensor 量化模型 checkpoint 可通过 NVIDIA TensorRT-Model-Optimizer 工具进行量化处理得到。

Prefill-Decode 分离式部署:通过将 LLM 的 prefill 和 decode 阶段解耦在不同的 executors 执行,可以自由调整 PD 比例、并行方式乃至异构 GPU 型号,以进一步提升推理系统整体的灵活性和性价比,并综合调整 TTFT 及 TPOT 等 SLO 级别。

下面将快速介绍如何通过 TensorRT-LLM 快速部署并拉起由 ModelScope 托管的 Qwen3 模型推理服务(以 Qwen3-235B-A22B 在单机 8 卡 GPU 上推理为例)。

1. 安装 TensorRT-LLM

当前可通过多种方式来进行 TensorRT-LLM 的安装。

  • pip 安装
(Optional) pip3 install torch==2.7.0 torchvision torchaudio --index-url https://download.pytorch.org/whl/cu128
sudo apt-get -y install libopenmpi-dev && pip3 install --upgrade pip setuptools && pip3 install tensorrt_llm


  • 使用预编译好的 NGC 容器镜像
  • 源码编译容器镜像:下载 TensorRT-LLM github 源代码后,在代码主目录运行编译命令
make -C docker release_build


 

2. 从 ModelScope 下载模型 checkpoint

# Using modelscope cmd tool to download
pip install modelscope
modelscope download --model Qwen/Qwen3-235B-A22B
# or using git clone
git lfs install
git clone https://www.modelscope.cn/Qwen/Qwen3-235B-A22B.git

image.gif

 

3. 使用 trtllm-serve 命令进行推理服务部署

# Setup LLM API configuration file
cat >./extra-llm-api-config.yml <<EOF
use_cuda_graph: true
cuda_graph_padding_enabled: true
cuda_graph_batch_sizes: [1, 2, 4, 8, 16, 32, 64, 128, 256, 384]
print_iter_log: true
enable_attention_dp: true
EOF
# Launch inference service
trtllm-serve \
  Qwen3-235B-A22B/ \
  --host localhost \
  --port 8000 \
  --backend pytorch \
  --max_batch_size 161 \
  --max_num_tokens 1160 \
  --tp_size 8 \
  --ep_size 8 \
  --pp_size 1 \
  --kv_cache_free_gpu_memory_fraction 0.8 \
  --extra_llm_api_options ./extra-llm-api-config.yml

image.gif

 

4. 请求服务测试:部署完成后便可通过标准 OpenAI API 进行推理服务请求发送,例如如下 curl 命令

curl http://localhost:8000/v1/completions \
  -H "Content-Type: application/json" \
  -d '{
      "model": "Qwen3-235B-A22B/",
      "prompt": "Please describe what is Qwen.",
      "max_tokens": 128,
      "temperature": 0
  }'

image.gif

 

在上述已实现的各项优化特性之外,针对 Qwen3 系列模型,TensorRT-LLM 还在不断研发和探索新的优化方法,包括 kernel 层面的持续优化、算子融合、基于 sparse attention 的超长文本支持、基于 Eagle-3 的投机性采样、MoE 模型的 expert 负载均衡、新的量化精度 (W4AFP8 / NVFP4) 等等,期待您紧密关注 TensorRT-LLM 最新进展。

总结

除了 Qwen3 系列模型,TensorRT-LLM 现已支持 ModelScope 社区主流的生成式 AI 大模型,模型列表请参考 TensorRT-LLM Support Matrix 和 ModelScope 社区 TensorRT-LLM 专题页。

通过双方在生成式 AI 模型软件加速库层面的技术合作,使用性能强大、敏捷灵活的软件栈,能够大大简化开发者快速进行大模型的原型验证与产品研发部署的工作流,并获得极致推理部署性能,进一步加快大模型的广泛落地和应用生态。

作者

image.gif 编辑

金国强

NVIDIA 资深解决方案架构师,主要负责深度学习生成式 AI 领域模型训练、推理优化以及大模型开发与应用云端落地等技术方向合作。

 

点击“链接”,即可跳转模型专题页

https://modelscope.cn/organization/TensorRT-LLM

 

 

 


目录
相关文章
|
2月前
|
机器学习/深度学习 PyTorch 测试技术
从训练到推理:Intel Extension for PyTorch混合精度优化完整指南
PyTorch作为主流深度学习框架,凭借动态计算图和异构计算支持,广泛应用于视觉与自然语言处理。Intel Extension for PyTorch针对Intel硬件深度优化,尤其在GPU上通过自动混合精度(AMP)提升训练与推理性能。本文以ResNet-50在CIFAR-10上的实验为例,详解如何利用该扩展实现高效深度学习优化。
125 0
|
29天前
|
机器学习/深度学习 存储 人工智能
RAG系统文本检索优化:Cross-Encoder与Bi-Encoder架构技术对比与选择指南
本文将深入分析这两种编码架构的技术原理、数学基础、实现流程以及各自的优势与局限性,并探讨混合架构的应用策略。
127 10
RAG系统文本检索优化:Cross-Encoder与Bi-Encoder架构技术对比与选择指南
|
5月前
|
机器学习/深度学习 人工智能 文件存储
Llama Nemotron:英伟达开源基于Llama架构优化的推理模型,253B参数持平DeepSeek R1!
NVIDIA推出的Llama Nemotron系列推理模型,基于Llama架构优化,包含Nano/Super/Ultra三款,在数学推理、编程和工具调用等任务中展现卓越性能。
161 5
Llama Nemotron:英伟达开源基于Llama架构优化的推理模型,253B参数持平DeepSeek R1!
|
28天前
|
机器学习/深度学习 算法 数据可视化
近端策略优化算法PPO的核心概念和PyTorch实现详解
本文深入解析了近端策略优化(PPO)算法的核心原理,并基于PyTorch框架实现了完整的强化学习训练流程。通过Lunar Lander环境展示了算法的全过程,涵盖环境交互、优势函数计算、策略更新等关键模块。内容理论与实践结合,适合希望掌握PPO算法及其实现的读者。
237 2
近端策略优化算法PPO的核心概念和PyTorch实现详解
|
5月前
|
数据采集 运维 Serverless
云函数采集架构:Serverless模式下的动态IP与冷启动优化
本文探讨了在Serverless架构中使用云函数进行网页数据采集的挑战与解决方案。针对动态IP、冷启动及目标网站反爬策略等问题,提出了动态代理IP、请求头优化、云函数预热及容错设计等方法。通过网易云音乐歌曲信息采集案例,展示了如何结合Python代码实现高效的数据抓取,包括搜索、歌词与评论的获取。此方案不仅解决了传统采集方式在Serverless环境下的局限,还提升了系统的稳定性和性能。
148 0
|
5月前
|
缓存 并行计算 PyTorch
PyTorch CUDA内存管理优化:深度理解GPU资源分配与缓存机制
本文深入探讨了PyTorch中GPU内存管理的核心机制,特别是CUDA缓存分配器的作用与优化策略。文章分析了常见的“CUDA out of memory”问题及其成因,并通过实际案例(如Llama 1B模型训练)展示了内存分配模式。PyTorch的缓存分配器通过内存池化、延迟释放和碎片化优化等技术,显著提升了内存使用效率,减少了系统调用开销。此外,文章还介绍了高级优化方法,包括混合精度训练、梯度检查点技术及自定义内存分配器配置。这些策略有助于开发者在有限硬件资源下实现更高性能的深度学习模型训练与推理。
964 0
|
1月前
|
数据采集 机器学习/深度学习 运维
从数据感知到决策优化:MyEMS 开源能源管理系统的技术架构与实践效能解析
MyEMS 是一款开源能源管理系统,采用分层解耦与模块化设计,支持多能源协同监测与智能优化调度。系统具备数据采集、分析、预警、碳核算等功能,助力企业实现节能降耗、安全管控与低碳转型,已在百余家全球企业落地应用,具备自主可控、成本低、安全性强等优势,面向虚拟电厂、数字孪生等未来场景持续演进。
102 0
|
2月前
|
缓存 Java 数据库
Java 项目分层架构实操指南及长尾关键词优化方案
本指南详解基于Spring Boot与Spring Cloud的Java微服务分层架构,以用户管理系统为例,涵盖技术选型、核心代码实现、服务治理及部署实践,助力掌握现代化Java企业级开发方案。
139 2
|
5月前
|
弹性计算 负载均衡 网络协议
阿里云SLB深度解析:从流量分发到架构优化的技术实践
本文深入探讨了阿里云负载均衡服务(SLB)的核心技术与应用场景,从流量分配到架构创新全面解析其价值。SLB不仅是简单的流量分发工具,更是支撑高并发、保障系统稳定性的智能中枢。文章涵盖四层与七层负载均衡原理、弹性伸缩引擎、智能DNS解析等核心技术,并结合电商大促、微服务灰度发布等实战场景提供实施指南。同时,针对性能调优与安全防护,分享连接复用优化、DDoS防御及零信任架构集成的实践经验,助力企业构建面向未来的弹性架构。
462 76
|
3月前
|
监控 搜索推荐 应用服务中间件
301重定向:网站迁移、SEO优化与架构重塑的核心引擎
301重定向是数字世界中确保网站迁移无缝过渡的关键策略。它通过HTTP状态码告知浏览器和搜索引擎资源的永久迁移,帮助维持权重传递与用户体验。本文深入解析301重定向的工作机制、SEO影响及实施策略,涵盖域名迁移、HTTPS升级、URL标准化等场景,并提供服务器配置示例(如.htaccess和Nginx规则)。同时,强调避免重定向链、循环等问题,推荐使用专业工具监控效果。掌握这些技巧,可确保网站在架构调整或迁移时保持流量稳定与搜索引擎信任,成为网站管理不可或缺的战略工具。
87 8

热门文章

最新文章

推荐镜像

更多