不久前,我们开源了通义千问Qwen3系列模型;今天,我们正式发布Qwen3的技术报告。
在这份Qwen3技术报告中,你可以深入了解到Qwen3模型架构、预训练及后训练过程、模型性能表现等诸多此前尚未公布的技术细节。
同时,我们在魔搭社区、HuggingFace等开源社区中推出了数个尺寸更小的Qwen3量化模型, 覆盖GGUF、AWQ 和 GPTQ 等多种格式,开发者和机构可通过 Ollama、LM Studio、SGLang 和 vLLM 等更方便地实现Qwen3的本地部署。
核心摘要
Qwen3是一系列大规模语言模型(LLMs),旨在提升性能、效率和多语言能力。Qwen3系列包含密集(Dense)模型和混合专家(MoE)模型,参数规模覆盖0.6B至235B。
Qwen3的核心创新在于将两种模式整合至统一框架:思考模式 (用于复杂多步推理)和非思考模式 (基于上下文的快速响应)。这一设计无需切换模型(比如对话优化模型 GPT-4o 和专用推理模型 QwQ-32B),而是在同一个模型内根据用户查询或对话模板进行动态模式切换。
同时,Qwen3引入思考预算机制 ,允许用户在推理过程中自适应分配计算资源,从而根据任务复杂度平衡延迟与性能。
此外,通过利用旗舰模型的知识,我们显著降低了构建轻量级模型所需的计算资源,同时确保其性能具有高度竞争力。
实验证明,Qwen3在代码生成、数学推理、智能体任务等多个基准测试中达到业界领先水平,表现优于大型MoE模型和闭源模型。相较于前代Qwen2.5,Qwen3将多语言支持从29种扩展至119种语言及方言,通过增强跨语言理解与生成能力提升全球可用性。
为便于复现和社区衍生研发,所有Qwen3模型均采用Apache 2.0协议开源。
1、模型架构
Qwen3系列包含6个密集模型(Qwen3-0.6B、Qwen3-1.7B、Qwen3-4B、Qwen3-8B、Qwen3-14B、Qwen3-32B)和2个混合专家模型(Qwen3-30B-A3B、Qwen3-235B-A22B)。Qwen3-235B-A22B总参数量达2350亿,激活参数量为220亿。
1.1 密集模型架构
Qwen3密集模型架构与Qwen2.5相似,包含GQA、SwiGLU、RoPE以及带预归一化的RMSNorm等。此外,我们移除了Qwen2中使用的QKV-bias,在注意力机制中引入QK-Norm,以确保Qwen3的训练稳定性。
1.2 混合专家模型架构
Qwen3的MoE模型与密集模型共享基础架构。我们沿用 Qwen2.5-MoE 的架构,同时加入了细粒度专家分段设计。Qwen3 MoE模型共128个专家,每个token激活8个专家。与Qwen2.5-MoE不同的是,Qwen3-MoE 舍弃了共享专家模块,并采用全局批次负载均衡损失(global-batch load balancing loss)技术促进专家专业化。这些架构与训练创新使模型在下游任务中表现显著提升。
Qwen3 的tokenizer采用字节级的字节对编码(byte-level byte-pair encoding),词汇量规模为151,669。
2、预训练Pre-training
2.1 预训练数据:更大规模,更高质量
与 Qwen2.5 相比,我们在训练数据的规模和多样性方面进行了显著扩展。具体而言,Qwen3的预训练 token 数量是之前的两倍,涵盖的语言数量更是达到其三倍以上。所有 Qwen3 模型均在一个大规模、多样化的数据集上进行训练,该数据集包含 119 种语言和方言 ,总计 36 万亿 tokens 。该数据集涵盖了多个领域的高质量内容,包括编程、STEM(科学、技术、工程和数学)、推理任务、书籍、多语言文本以及合成数据。
为进一步扩展预训练语料库,我们首先使用 Qwen2.5-VL 模型 对大量类似 PDF 的文档进行文本识别。随后,利用 Qwen2.5 模型对识别出的文本进行优化,以提升其质量。通过这两步处理流程,我们获得了额外的总量达数万亿tokens 的高质量文本 。此外,我们还使用 Qwen2.5 、Qwen2.5-Math 和 Qwen2.5-Coder 等模型合成了多种形式的文本 token,包括教材、问答对、指令和代码片段等,覆盖数十个领域,总量同样达到数万亿tokens 。
最后,我们通过引入更多的多语言数据,进一步扩展了预训练语料库,将Qwen3所支持的语言种类从 Qwen2.5 中的 29 种 显著增加至 119 种 ,从而显著提升了模型的语言覆盖范围和跨语言能力。
2.2 三阶段预训练
阶段1:通用知识学习(General Stage)
在第一阶段的预训练中,所有 Qwen3 模型均使用 4,096 tokens 的序列长度,对超过 30 万亿tokens 的数据进行了训练。该阶段主要聚焦于语言结构、语法、常识与通用世界知识的学习,为后续阶段提供强大的多语言理解与生成能力支撑。
阶段2:推理能力强化(Reasoning Stage)
为进一步提升模型的推理能力,我们在此阶段对预训练语料库进行了优化,增加了 STEM、编程、推理和合成数据的比例。随后,模型在 4,096 tokens 的序列长度下,使用约 5 万亿高质量 tokens 进行了进一步预训练。同时,我们在该阶段还加速了学习率的衰减(learning rate decay)。
阶段3:长上下文扩展(Long Context Stage)
为了进一步提升模型处理长文本的能力,提升模型在复杂文档理解和多步骤推理中的表现,我们构建了专门的高质量长上下文语料库,序列长度最高达 32,768 个tokens。继 Qwen2.5之后,我们使用 ABF 技术将 RoPE 的基频从 10,000 提升至 1,000,000。同时,我们引入 YARN 和双块注意力机制 (Dual Chunk Attention),使推理过程中的序列长度容量提升了四倍。
与 Qwen2.5 类似,我们基于上述三个预训练阶段,建立了用于预测最优超参数 (hyper-parameters ,如学习率调度器和 batch批量大小等)的扩展规律(scaling laws)。通过大量实验,我们系统地研究了模型架构、训练数据、训练阶段与最优训练超参数之间的关系。最终,为不同规模的Qwen3密集模型和 MoE 模型分别设定了预测所得的最优学习率和batch批量大小策略。
2.3 预训练结果评估
在模型完成预训练阶段后、进行后训练之前,我们对 Qwen3 系列的基础语言模型进行了全面评估。这些评估主要聚焦于模型在通用知识、推理能力、数学水平、科学知识、编程能力 以及多语言任务方面的表现。
评估结果总结如下:
(1)与之前最先进的开源密集模型和 MoE 模型(如 DeepSeekV3 Base、Llama-4-Maverick Base 和 Qwen2.5-72B-Base)相比,Qwen3-235B-A22B-Base 在大多数任务中都优于这些模型,且所需的总参数或激活参数明显较少。
(2)对于 Qwen3 的 MoE 基础模型,我们的实验结果表明:
(a) 在使用相同预训练数据的情况下,Qwen3 MoE 基础模型仅需 1/5 的激活参数即可实现与 Qwen3 密集基础模型相当的性能。
(b) 由于 Qwen3 MoE 架构的改进、训练数据量的扩大以及更先进的训练策略,Qwen3 MoE 基础模型在激活参数少于 1/2、总参数也更少的情况下,优于 Qwen2.5 MoE 基础模型。
(c) 即使只使用 Qwen2.5 密集基础模型 1/10 的激活参数,Qwen3 MoE 基础模型也能达到相近的性能水平,这为我们带来了推理和训练成本上的显著优势。
(3)Qwen3 密集基础模型的整体性能与更高参数比例下的 Qwen2.5 基础模型相当。例如,Qwen3-1.7B/4B/8B/14B/32B-Base 的性能分别达到了与 Qwen2.5-3B/7B/14B/32B/72B-Base 相当的性能。特别是在 STEM、编码和推理基准测试中,Qwen3 密集基础模型的性能甚至在更高的参数尺度上超过了 Qwen2.5 基础模型。
更多详细结果,可参见Qwen3技术报告。
3、后训练Post-training
Qwen3 的后训练流程通过精心设计以满足两大核心目标:
(1) 思考控制(Thinking Control):通过整合两种不同模式——"非思考"(non-thinking)模式和"思考"(thinking)模式,为用户提供灵活选择。用户可决定模型是否需要进行推理,并能通过指定推理预算(token budget)来控制思考深度。
(2) 从强到弱的蒸馏(Strong-to-Weak Distillation):旨在优化轻量级模型的后训练流程。通过利用大规模模型的知识,我们显著降低了构建小型模型所需的计算成本和开发投入。
如上图所示,Qwen3 系列中的旗舰模型采用精妙的四阶段训练流程。前两个阶段专注于开发模型的“思考”能力,后两个阶段旨在将强大的“非思考”功能集成到模型中。这一设计既保证了模型在复杂推理任务中的表现力,又通过知识蒸馏技术实现了轻量化部署的可行性。
3.1 四阶段训练
阶段1:长链式思维冷启动(Long-CoT Cold Start)
我们首先构建了一个包含数学、代码、逻辑推理和STEM问题的高质量数据集,每个问题配验证答案或测试用例,成为长链式思维冷启动的数据基础。
数据集构建包含严格的两阶段过滤流程:查询过滤与响应过滤。具体而言,我们使用Qwen2.5-72B-Instruct模型进行查询过滤,此后我们使用 QwQ-32B 为每个剩余查询生成N个候选响应,当QwQ-32B 持续无法生成正确解决方案时,由人工标注员手动评估响应准确性。基于以上流程,我们从精炼数据集中精心筛选出一个子集,用于初始推理模式的冷启动训练。
该阶段的核心目标是在不过度强调即时推理性能的前提下,建立模型的基础推理范式。这种设计确保模型潜力不受限制,为后续强化学习(RL)阶段的灵活性提升预留空间。为有效实现这一目标,我们建议在准备阶段尽量减少训练样本数量和训练步数。
阶段2:推理强化学习(Reasoning RL)
在推理强化学习(Reasoning RL)阶段使用的查询-验证对(query-verifier pairs)必须满足以下四个条件:(1) 这些数据未在冷启动阶段使用过;(2) 它们对于冷启动模型来说是可学习的;(3) 它们尽可能具有挑战性;(4) 它们涵盖广泛的子领域。最终,我们收集了3,995组查询-验证对 ,并采用GRPO方法来更新模型参数。
我们发现,使用较大的batch大小、每个查询进行较多的rollout次数,以及结合 off-policy 训练以提高样本效率,均有助于提升训练效果。
此外,我们还通过控制模型的熵值(entropy)使其稳定增长或保持稳定,有效平衡了探索与实用(exploration and exploitation)之间的关系,这对于保持训练过程的稳定性至关重要。因此,在一次完整的强化学习训练过程中,无需手动调整超参数,模型的训练奖励和验证性能(training reward and validation performance)都实现了持续提升。例如,在总共170步的RL训练过程中,Qwen3-235B-A22B模型的 AIME'24 得分从70.1提升到了85.1,取得了显著的进步。
阶段3:思考模式融合(Thinking Mode Fusion):
这一阶段的目标是将“非思考”(non-thinking)能力整合进此前开发的“思考”模型中。这一方法使开发者能够对模型的推理行为进行管理和控制,同时降低了分别部署两个模型的成本和复杂度。
为实现这一目标,我们对推理强化学习(Reasoning RL)模型进行了持续的监督微调(SFT),并设计了一种对话模板以融合两种模式。此外,我们发现能够熟练处理两种模式的模型在不同思考预算下均表现出稳定良好的性能。
其中,为了更好地融合两种模式,并使用户能够动态切换模型的思考过程,我们为Qwen3设计了对话模板,如下图所示。
对于处于思考模式和非思考模式的样本,我们在用户输入或系统消息中分别引入 `/think` 和 `/no_think` 标志,以便模型根据用户的输入选择合适的思考模式。
思考模式融合的另一个优势在于:一旦模型学会了在“非思考”和“思考”两种模式下作出响应,它自然会发展出处理中间情况的能力——即基于不完整的思考生成回应。这种能力为实现对模型思考过程的预算控制奠定了基础。
具体来说,当模型的思考长度达到用户定义的阈值时,我们将手动终止思考过程,并插入停止思考指令,模型将基于其截至目前的推理过程生成最终回复。值得注意的是,这种能力并非通过显式训练获得,而是应用思考模式融合后自然涌现出的结果。
阶段4:通用强化学习(General RL)
通用强化学习(General RL)阶段的目标是全面增强模型在各种场景下的能力与稳定性。为实现这一目标,我们建立了一个复杂的奖励系统,覆盖超过20种不同的任务,每项任务都配有定制化的评分标准。这些能力指令遵循、模版遵循、偏好对齐、Agent能力以及特殊场景能力(如RAG等)。
为了对上述各项任务提供反馈,我们使用了三种不同类型的奖励机制,包括基于规则的奖励(Rule-based Reward)、带参考答案的基于模型的奖励(Model-based Reward with Reference Answer)以及不带参考答案的基于模型的奖励(Model-based Reward without Reference Answer)。
3.2 从强到弱蒸馏(Strong-to-Weak Distillation)
为提升轻量级模型的推理能力,Qwen3采用强到弱蒸馏策略(Strong-to-Weak Distillation),涵盖5个密集模型(Qwen3-0.6B、1.7B、4B、8B 和 14B)以及一个MoE模型(Qwen3-30B-A3B)。该方法在提升模型性能的同时,有效赋予其稳健的模式切换能力。
蒸馏过程主要分为两个阶段:
(1) Off-policy 蒸馏
在初始阶段,我们结合教师模型在 `/think` 和 `/no_think` 两种模式下生成的输出,用于对学生模型进行回应蒸馏。这有助于轻量级学生模型掌握基本的推理能力,并学会在不同思考模式之间切换,为后续的在策略训练阶段打下坚实基础。
(2) On-policy蒸馏
在该阶段,学生模型基于当前策略生成回应序列用于微调。具体来说,我们对提示词进行采样,学生模型以 `/think` 或 `/no_think` 模式生成回应。随后,通过将其输出 logits 与教师模型(Qwen3-32B 或 Qwen3-235B-A22B)对齐,最小化两者之间的KL散度,从而对学生模型进行精细调优。
3.3 后训练结果评估
为全面评估指令微调模型的质量,我们采用了自动化基准测试,以在思考模式 和非思考模式 下评估模型的性能。这些基准测试涵盖了多个维度和任务类型,包括通用任务、对齐任务、数学和文本推理、Agent能力、代码、多语言任务等,旨在全面衡量模型在不同使用场景下的表现。
根据评估结果,我们对最终版 Qwen3系列模型得出以下几个关键结论:
(1)旗舰模型 Qwen3-235B-A22B 在思考模式和非思考模式下均展现出当前开源模型中最先进的整体性能,超越了如 DeepSeek-R1 和 DeepSeek-V3 等强大模型。同时,Qwen3-235B-A22B 在性能上与顶尖闭源模型(如 OpenAI-o1、Gemini 2.5-Pro 和 GPT-4o)具有高度竞争力,充分体现了其深厚的推理能力和全面的通用性。
(2)旗舰密集模型 Qwen3-32B 在大多数基准测试中均优于我们此前最强的推理模型 QwQ-32B,表现接近于闭源模型 OpenAI-o3-mini ,显示出其出色的推理能力。此外,Qwen3-32B 在 非思考模式 下也表现出色,超越了我们之前的旗舰非推理密集模型 Qwen2.5-72B-Instruct。
(3)我们的轻量级模型,包括 Qwen3-30B-A3B、Qwen3-14B 以及其他更小的密集模型,在性能上持续优于参数量相近甚至更大的开源模型,充分验证了我们提出的 强到弱蒸馏(Strong-to-Weak Distillation)方法的有效性和成功。
更多评测结果,详见Qwen3技术报告。
4、后训练讨论
4.1 思考预算的有效性
为验证 Qwen3 能否通过增加思考预算来提升其智能水平,我们在数学、编程和 STEM 领域的四个基准任务上调整了分配的思考预算。结果如图2所示,Qwen3 展现了与所分配思考预算相关联的可扩展且平滑的性能提升。
此外,我们还观察到,如果未来将输出长度进一步扩展到 32K 以上,模型性能有望实现进一步提升。我们将对此进行更深入的探索作为未来的工作方向。
4.2 On-Policy蒸馏的有效性与效率
我们比较了On-Policy蒸馏与直接强化学习的效果和计算成本(以GPU小时为单位),来评估其有效性和效率。为简化分析,我们在本实验中仅关注数学与编程相关的查询。
结果显示,蒸馏方法在性能上显著优于强化学习,并且它所需的 GPU 计算时间仅为强化学习的约十分之一。此外,在从教师模型logits进行蒸馏的过程中,学生模型能够扩展其探索空间,并提升推理潜力。这一点从AIME’24和AIME’25基准测试中pass@64分数的明显提升得到了验证。相比之下,强化学习并未带来pass@64分数的任何改善。这些观察结果突显了利用更强的教师模型来指导学生模型学习的显著优势。
4.3 思考模式融合与通用强化学习的效果
为评估在后训练阶段中思考模式融合和通用强化学习 (General Reinforcement Learning, RL)的有效性,我们对 Qwen-32B 模型的多个训练阶段进行了全面评估。
结果显示:
(1) 第三阶段将非思考模式整合进模型,此时模型已在前两个训练阶段中具备了基本的思考能力。ThinkFollow 基准测试得分为88.7,表明模型已初步掌握了在不同模式之间切换的能力,尽管偶尔仍会出现错误。此外,第三阶段还进一步提升了模型在思考模式 下的通用能力和指令遵循能力,其中 CounterFactQA 得分提高了10.9分,LengthCtrl 得分提高了8.0分。
(2) 第四阶段进一步增强了模型在思考模式和非思考模式下的通用能力、指令遵循能力以及智能体(Agent)能力。值得注意的是,ThinkFollow 得分提升至98.9,表明模型经过这一阶段训练在模式切换方面的准确性得到了显著提高。
(3) 对于知识类、STEM、数学和编程任务 ,思考模式融合与通用强化学习并未带来显著的性能提升。相反,在一些复杂任务如AIME’24 和LiveCodeBench 上,经过这两个训练阶段后,模型在思考模式下的表现反而有所下降。我们推测,这种性能下降是由于模型在更广泛的通用任务上接受了训练,可能削弱了其处理复杂问题的专业能力。在Qwen3的开发过程中,我们选择接受这一性能权衡,以提升模型的整体通用性和适应性。
未来展望
接下来,我们的研究将集中于几个关键领域。
我们将继续通过使用质量更高且内容更加多样化的数据来扩大预训练规模。
同时,我们还将致力于改进模型架构和训练方法,以实现高效的压缩能力和对超长上下文的扩展支持等目标。
此外,我们计划增加对强化学习的计算资源投入 ,特别是可从环境反馈中学习的基于智能体的强化学习系统 (agent-based RL systems)。这将使我们能够构建出能够解决需要推理时间扩展的复杂任务的智能体。