DistilQwen-ThoughtX:变长思维链推理模型,能力超越DeepSeek蒸馏模型

本文涉及的产品
模型训练 PAI-DLC,100CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: 阿里云PAI团队开发的 OmniThought 数据集,其中包含200万思维链,并标注了推理冗余度(RV)和认知难度(CD)分数。基于此数据集,我们还推出了 DistilQwen-ThoughtX 系列模型,可以通过RV和CD分数对思维链进行筛选,训练得到的模型获得根据问题和本身的认知能力,生成变长思维链的能力。同时在 EasyDistill 框架中开源了 OmniThought 数据集和 DistilQwen-ThoughtX 模型的全部权重。这些模型在性能上超过了 DeepSeek-R1-Distill 系列。

前言

近年来,自然语言处理(NLP)领域以大语言模型(LLM)的出现为标志,发生了深刻变革,引领了语言理解、生成和推理任务的进步。其中,进步尤其显著的是深度推理模型的发展,如 OpenAI 的 o1、DeepSeek-R1 和 QwQ-32B 等,它们在数学问题、代码生成等复杂推理任务中表现突出。这些模型的成功很大程度上得益于使用思维链(Chain-of-Thought, CoT)的推理方式,能够模拟人类的渐进思考过程,将复杂问题化繁为简。然而,对于不同的推理任务,使用长思考的推理模式并不能提升模型在所有推理任务上的精度,反而容易引发“过度思考”的问题,既降低了模型响应速度,又导致推理过程中频繁出错。


为了解决这一问题,阿里云人工智能平台 PAI 团队对于思维链的特性,提出了推理冗余度(Reasoning Verbosity, RV)和认知难度(Cognitive Difficulty, CD)分数两种度量方式,并且构建了包括200万思维链的数据集 OmniThought,对于 OmniThought 的每个思维链都进行了标注。基于 RV 和 CD 分数,我们可以根据不同的任务和模型底座要求,训练根据任务进行自适应的变长思维链推理模型。因此,基于这一新提出的 OmniThought 数据集,我们训练并发布了一系列具有更强推理能力、具备最佳思维链长度和难度水平的模型(DistilQwen-ThoughtX系列),这些模型的性能甚至超越借助专有数据集训练的 DeepSeek-R1-Distill 系列。具体效果的比较见下图。

image.png

为了便于社区用户使用 DistilQwen-ThoughtX 系列模型,以及蒸馏适合自身场景的推理模型,我们在 EasyDistill的框架中开源了 OmniThought 的全部数据,以及所有 DistilQwen-ThoughtX 系列模型的权重。在下文中,我们将介绍 OmniThought 数据集的构建流程和 DistilQwen-ThoughtX 系列模型的效果。

(详见点击:阿里云人工智能平台 PAI 开源 EasyDistill 框架助力大语言模型轻松瘦身


一、OmniThought 数据集构建

OmniThought 数据集的构建框架如下所示:

image.png

基础数据搜集和正确性验证

首先,由于开源社区中存在许多高质量的推理问题集,OmniThought 采用了 OpenThoughts2-1M 和 DeepMath-103K 两个数据集作为数据源。其中, OpenThoughts2-1M 包含约64万个跨数学、编码、科学及谜题等多个领域的推理问题,而 DeepMath-103K 则包括10.3万道难度不一的数学问题。

接下来,我们使用 DeepSeek-R1 和 QwQ-32B 作为教师模型,为问题集合生成多个思维链推理过程。为了确保生成的思维链过程的高质量,我们进一步采用“LLM-as-a-judge”方法,对生成的思维链进行多个方面的验证,其中包括逻辑正确性及推导出正确答案的能力,模版如下所示:


You are a rigorous logical validator analyzing problem-solving components. 
Your task is to separately assess the validity of the reasoning process and final solution. 
Given a problem, the correct answer, a candidate reasoning process, and a candidate solution, you will:

For SOLUTION VALIDITY: Directly comparing it to the correct answer.

For REASONING PROCESS VALIDATION: 
    a. Verify stepwise logical coherence and soundness
    b. Confirm all critical problem constraints are properly addressed
    c. Check for self-contradictions or unsupported leaps in logic
    d. Verify the process can actually derive the proposed solution

Evaluation Protocol:
- Solution validity MUST be FALSE for any numerical mismatch or missing units
- Reasoning process validity requires ALL validation criteria (a-d) satisfied
- Both assessments must be independent: correct answer with flawed reasoning gets (False, True)
- Return STRICT BOOLEAN assessments for both components

Problem: {problem}
Correct Answer: {answer}
Candidate Reasoning Process: {reasoning process} 
Proposed Solution: {solution}

Output Format: reasoning_valid: bool, solution_valid: bool 

由于 OpenThoughts2-1M 和 DeepMath-103K 数据集已包含部分来自 DeepSeek-R1 的思维链,我们同样验证了这些思维链的正确性,并将验证结果作为元数据添加。最终,OmniThought 数据集包含超过200万思维链,对应于70.8万道推理问题。我们确保数据集中的每个问题至少拥有两个经过验证的正确思维链。


推理冗余度(Reasoning Verbosity

思维链本质上涉及自我反思,促使模型在推理过程中进行多轮反思和修正。这种机制在模型处理复杂问题时有助于降低错误率,却可能导致在简单问题上陷入“过度思考”的情况,例如对“1 + 1 = ?”问题回答进行过度检查。这样的过度思考不仅浪费计算资源,还可能降低推理准确度。因此,对于特定问题,其思维链的长度应与问题的难度相匹配,这反映了思维链的“推理冗余度(Reasoning Verbosity,RV)”,我们对 RV 分级标准进行了正式定义,采用0到9的评分,具体用于评估 RV 的模版详见相关论文。


0-1: 最低冗余度,直接输出结果,几乎没有详细说明。
2-3: 较低冗余度,有清晰简洁的推理过程,包含必要的解释。
4-5: 中等冗余度,提供详细解释并进行充分推理。
6-7: 较高冗余度,全面的论证,进行复杂的探索。
8-9: 高冗余度,深入、详尽的推理;涉及详细论述、嵌套论证及考虑反对论点的讨论。


为进一步验证 RV 在推理模型训练中的有效性,我们在 OmniThought 随机抽取包含1万个问题的子集,每个问题的三个思维链属于三个不同 RV 级别。在这个子集内,相邻级别之间的 RV 差异超过3。因此,我们获得了三个训练数据集,包含相同的问题但不同的 RV 分数级别。然后,我们以 Qwen2.5-7B-Instruct 为初始化模型,在每个数据集上进行 SFT 训练,以产生三个模型:短思维链(Short)、中等思维链(Medium)和长思维链(Long),结果如下(其中,蓝色代表在特定任务上的分数,红色折线代表平均输出 token 数):


image.png

由上图可见,在相对简单的 GSM8K 任务中,所有模型表现出相似的性能;输出 token 的增加没有提高准确性,甚至导致轻微下降。在中等难度的 MATH500 任务上,准确度随着 token 数的增加而提高,随后下降,其中中等模型在产生适量 token 数时达到最高的准确度。在最具挑战的 AIME24 问题中,长模型获得最高分;模型的准确性随着 token 数的增加而提高。因此,对于难度较大的问题,较长的思维链能够纠正模型自身错误,从而有效提高准确性。然而,在简单任务中,思维链中的过度推理和验证不仅增加了计算资源的消耗,还可能降低问题解决的准确性。所以,我们可以根据任务难度构建具备相应 RV 级别思维链的训练集,从而最大化计算资源利用,同时确保高准确性。


认知难度(Cognitive Difficulty)


在构建合适的思维链训练数据集时,我们认为思维链的难度应与目标模型的认知能力相适应。由于模型参数规模的显著差异,大模型和小模型之间的认知和推理轨迹并不总是一致。小模型在其参数限制下,往往依赖更简单的方式解决问题,而大模型由于具备更高级的认知能力,可能应用更高水平的技术。例如,对于一个计算给定坐标的三角形面积问题,小型模型可能采用简单的几何公式,而大型模型可能使用更复杂的方法,如基于向量的代数求解。


为验证这一假设,我们使用 DeepSeek-R1-Distill 系列的三个模型进行实验:DeepSeek-R1-Distill-Qwen-1.5B、DeepSeek-R1-Distill-Qwen-7B,以及 DeepSeek-R1-Distill-Qwen-32B。我们在 MATH500 数据集上评估这些模型。对于每个模型的思维链过程,我们利用 DeepSeek-R1 根据方法的复杂性和整体推理难度进行0到9的难度评分(评分标准参见下文),结果如下表所示。


模型

平均评分

DS-R1-Distill-Qwen-1.5B

4.5

DS-R1-Distill-Qwen-7B

6.2

DS-R1-Distill-Qwen-32B

7.3


实验结果显示,随着模型参数量的增加,思维链的难度也在上升,这表明较大的模型拥有更强的推理和认知能力。因此,困难的思维链可能不适合训练认知能力较低的模型。因此,使用与模型认知能力一致的思维链来提升其推理能力是至关重要的,这类似于“因材施教”的策略。在我们的工作中,认知难度(Cognitive Difficulty,CD)分数分级标准如下所示,具体用于评估 CD 的模版详见相关论文:


0-1: 小学、入门级知识,或者单一简单思考模式。
2-3: 多步算术,枚举,基于基本规则的推理。
4-5: 初级逻辑/代数知识;非显而易见的推理。
6-7: 使用高级技术(行列式,动态规划,代码推理等)。
8-9: 高度抽象的方法,包括嵌套证明、复杂算法分析等。

在 OmniThought 中,我们对所有验证正确的思维链进行评分,CD分布如图所示:

image.png

可以观察到,CD 评分峰值在4-5级,并逐渐向两端减少。这一发现也表明,例如 DeepSeek-R1 或 QwQ-32B 的能力较强的推理模型,有不小的可能性生成难度极高的思维链。在进行知识蒸馏时,认知能力有限的模型不太可能有效理解这些过程。因此,给定 OmniThought 集和基础模型,可以根据基础模型的认知能力过滤训练数据集,从而有效提升模型的推理能力。


二、DistilQwen-ThoughtX:变长思维链推理模型

基于我们提出的 OmniThought 数据集,我们训练了 DistilQwen-ThoughtX 系列模型,由于我们可以通过 RV 和 CD 分数对思维链进行筛选,训练得到的模型获得根据问题和本身的认知能力,生成变长思维链的能力。具体地说,我们设置目标模型的认知能力为 μCD, 即模型一般对于 CD 评分小于等于 μCD 的思维链具有比较好的认知能力。从经验角度,我们 μCD 的选择一般与模型的参数量有关(具体的分析实验参见论文)。对于某推理问题,我们可以根据如下设置采样合适的思维链:


image.png

从上面可以看出,我们假设对于CD级别小于等于 μCD 的思维链,采样概率都比较大,如果CD级别大于 μCD 的思维链,采样概率比较小。这可以保证模型训练数据集中大部分思维链的难度都不会过大,而少部分思维链的难度会偏高,从而能在训练时尽量推高模型推理能力的上限。

对于 RV 分数,我们有如下采样规则:


image.png

这使得采样得到的思维链的 RV 分数和 CD 分数差别不会太大。显然,对于难度高的思维链,一般都需要比较长的推理长度,模型才能有效理解;反之亦然。同样的,我们也容易看出,如果对于难度低的思维链进行冗长推理,一般对模型推理效果有反作用;如果难度高的思维链进行非常精简的推理,参数规模较小的模型可能无法理解。


基于上述采样方法,对于 OmniThought 中的 708K 个问题,我们抽样出合适的思维链以通过 SFT 训练模型。我们从 Qwen2.5 系列(7B和32B)初始化,训练两个模型,分别命名为 DistilQwen-ThoughtX-7B 和 DistilQwen-ThoughtX-32B。我们将我们的模型与开源社区中的知名蒸馏推理模型进行比较,结果汇总见表格。我们观察到,基于 OmniThought 数据集和我们基于 RV-CD 的思维链选择策略,我们模型效果优异,表现甚至优于 DeepSeek 官方采用闭源数据集蒸馏的模型。其中,DistilQwen-ThoughtX (Full) 指使用全量思维链数据训练的模型,可以看出使用我们提出的评分和筛选方法训练的模型效果有明显提升。

下表展示了 DistilQwen-ThoughtX 的性能表现:


image.png

三、开源模型和数据集下载和使用

DistilQwen-ThoughtX 在开源社区的下载

我们在 Hugging Face 和 Model Scope 上开源了我们蒸馏后的模型,分别为DistilQwen-ThoughtX-7BDistilQwen-ThoughtX-32B。以 Hugging Face 为例,用户可以使用如下代码下载这两个模型:


from huggingface_hub import snapshot_download

model_name = "alibaba-pai/DistilQwen-ThoughtX-7B"
snapshot_download(repo_id=model_name, cache_dir="./DistilQwen-ThoughtX-7B/")

model_name = "alibaba-pai/DistilQwen-ThoughtX-32B"
snapshot_download(repo_id=model_name, cache_dir="./DistilQwen-ThoughtX-32B/")

OmniThought 数据集在开源社区的下载

我们在 Hugging Face 和 Model Scope 上开源了我们的数据集 OmniThought。以 Hugging Face 为例,用户可以使用如下代码下载这两个模型:

from datasets import load_dataset

OmniThought = load_dataset("alibaba-pai/OmniThought")


四、本文小结

近年来,随着大语言模型的出现,自然语言处理领域发生了重要变革,其中深度推理模型在复杂推理任务中表现尤为突出。然而,长思维链推理可能导致“过度思考”,影响模型性能。为解决此问题,阿里云 PAI 团队开发了 OmniThought 数据集,其中包含200万思维链,并标注了推理冗余度(RV)和认知难度(CD)分数。这使得模型能够根据任务自适应选择思维链长度,从而提升其推理能力。基于此数据集,我们推出了 DistilQwen-ThoughtX 系列模型,这些模型在性能上超过了 DeepSeek-R1-Distill 系列。为了支持社区用户使用及优化这些模型,我们在 EasyDistill 框架中开源了 OmniThought 数据集和 DistilQwen-ThoughtX 模型的全部权重。在未来,我们将进一步基于 EasyDistill 框架开源更多 DistilQwen 模型系列和相应资源。欢迎大家加入我们,一起交流大模型蒸馏技术!


五、参考工作

本文对应论文

  • Wenrui Cai, Chengyu Wang, Junbing Yan, Jun Huang, Xiangzhong Fang. Reasoning with OmniThought: A Large CoT Dataset with Verbosity and Cognitive Difficulty Annotations. arXiv preprint

DistilQwen系列相关论文

  • Chengyu Wang, Junbing Yan, Wenrui Cai, Yuanhao Yue, Jun Huang. EasyDistill: A Comprehensive Toolkit for Effective Knowledge Distillation of Large Language Models. arXiv preprint
  • Wenrui Cai, Chengyu Wang, Junbing Yan, Jun Huang, Xiangzhong Fang. Training Small Reasoning LLMs with Cognitive Preference Alignment. arXiv preprint
  • Chengyu Wang, Junbing Yan, Yuanhao Yue, Jun Huang. DistilQwen2.5: Industrial Practices of Training Distilled Open Lightweight Language Models. ACL 2025
  • Yuanhao Yue, Chengyu Wang, Jun Huang, Peng Wang. Building a Family of Data Augmentation Models for Low-cost LLM Fine-tuning on the Cloud. COLING 2025
  • Yuanhao Yue, Chengyu Wang, Jun Huang, Peng Wang. Distilling Instruction-following Abilities of Large Language Models with Task-aware Curriculum Planning. EMNLP 2024


六、DistilQwen系列技术介绍


七、联系我们

image.png

相关实践学习
使用PAI-EAS一键部署ChatGLM及LangChain应用
本场景中主要介绍如何使用模型在线服务(PAI-EAS)部署ChatGLM的AI-Web应用以及启动WebUI进行模型推理,并通过LangChain集成自己的业务数据。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
阿里云人工智能平台 PAI 开源 EasyDistill 框架助力大语言模型轻松瘦身
本文介绍了阿里云人工智能平台 PAI 推出的开源工具包 EasyDistill。随着大语言模型的复杂性和规模增长,它们面临计算需求和训练成本的障碍。知识蒸馏旨在不显著降低性能的前提下,将大模型转化为更小、更高效的版本以降低训练和推理成本。EasyDistill 框架简化了知识蒸馏过程,其具备多种功能模块,包括数据合成、基础和进阶蒸馏训练。通过数据合成,丰富训练集的多样性;基础和进阶蒸馏训练则涵盖黑盒和白盒知识转移策略、强化学习及偏好优化,从而提升小模型的性能。
|
18天前
|
数据采集 人工智能 自然语言处理
DistillQwen-ThoughtY:通过变长思维链蒸馏,全面提升模型推理能力!
阿里云 PAI 团队基于 EasyDistill 框架,创新性地采用推理冗余度(RV)和认知难度(CD)双指标筛选机制,实现思维链与模型能力的精准匹配,发布新一代推理模型 DistillQwen-ThoughtY。相关模型和数据集已在 hugging face/ModelScope 等开源社区开放,配套 EasyDistill 框架支持高效知识蒸馏。近期内将推出 DistillQwen-ThoughtY 模型在 PAI-ModelGallery 的一键部署、训练和评测实践。
|
4月前
|
人工智能 边缘计算 算法
DistilQwen2.5-R1发布:知识蒸馏助推小模型深度思考
DistilQwen2.5-R1通过知识蒸馏技术,将大规模深度推理模型的知识迁移到小模型中,显著提升了小模型的推理能力。实验结果表明,DistilQwen2.5-R1在数学、代码和科学问题等多个基准测试中表现优异,尤其在7B参数量级上超越了其他开源蒸馏模型。 本文将深入阐述 DistilQwen2.5-R1 的蒸馏算法、性能评估,并且提供在阿里云人工智能平台 PAI 上的使用指南及相关下载教程。
|
3月前
|
人工智能 边缘计算 前端开发
人工智能平台 PAI DistilQwen2.5-DS3-0324发布:知识蒸馏+快思考=更高效解决推理难题
DistilQwen 系列是阿里云人工智能平台 PAI 推出的蒸馏语言模型系列,包括DistilQwen2、DistilQwen2.5、DistilQwen2.5-R1 等。DistilQwen2.5-DS3-0324 系列模型是基于 DeepSeek-V3-0324 通过知识蒸馏技术并引入快思考策略构建,显著提升推理速度,使得在资源受限的设备和边缘计算场景中,模型能够高效执行复杂任务。实验显示,DistilQwen2.5-DS3-0324 系列中的模型在多个基准测试中表现突出,其32B模型效果接近参数量接近其10倍的闭源大模型。
|
2月前
|
人工智能 JSON 算法
【解决方案】DistilQwen2.5-DS3-0324蒸馏小模型在PAI-ModelGallery的训练、评测、压缩及部署实践
DistilQwen 系列是阿里云人工智能平台 PAI 推出的蒸馏语言模型系列,包括 DistilQwen2、DistilQwen2.5、DistilQwen2.5-R1 等。本文详细介绍DistilQwen2.5-DS3-0324蒸馏小模型在PAI-ModelGallery的训练、评测、压缩及部署实践。
|
2月前
|
JavaScript 数据可视化 前端开发
基于 Vue 与 D3 的可拖拽拓扑图技术方案及应用案例解析
本文介绍了基于Vue和D3实现可拖拽拓扑图的技术方案与应用实例。通过Vue构建用户界面和交互逻辑,结合D3强大的数据可视化能力,实现了力导向布局、节点拖拽、交互事件等功能。文章详细讲解了数据模型设计、拖拽功能实现、组件封装及高级扩展(如节点类型定制、连接样式优化等),并提供了性能优化方案以应对大数据量场景。最终,展示了基础网络拓扑、实时更新拓扑等应用实例,为开发者提供了一套完整的实现思路和实践经验。
240 77
|
2月前
|
人工智能 自然语言处理 搜索推荐
AI 零成本搭建个人网站,小白 3 步搞定!通义灵码智能体+MCP 新玩法
通过AI技术,即使不编写代码也能高效开发项目。从生成诗朗诵网页到3D游戏创建,这些令人惊叹的操作如今触手可及。经过摸索,我利用AI成功上线了个人站点:https://koi0101-max.github.io/web。无需一行代码,借助强大的工具即可实现创意,让开发变得简单快捷!
1113 70
|
23天前
|
机器学习/深度学习 人工智能 分布式计算
Post-Training on PAI (1):一文览尽开源强化学习框架在PAI平台的应用
Post-Training(即模型后训练)作为大模型落地的重要一环,能显著优化模型性能,适配特定领域需求。相比于 Pre-Training(即模型预训练),Post-Training 阶段对计算资源和数据资源需求更小,更易迭代,因此备受推崇。近期,我们将体系化地分享基于阿里云人工智能平台 PAI 在强化学习、模型蒸馏、数据预处理、SFT等方向的技术实践,旨在清晰地展现 PAI 在 Post-Training 各个环节的产品能力和使用方法,欢迎大家随时交流探讨。
|
2月前
|
人工智能 自然语言处理 程序员
通义灵码 2.5 版发布上线,支持 Qwen3
示例中展示了通义灵码创建贪食蛇游戏的过程,包括代码优化、Bug修复和功能改进(如游戏结束后提示重新开始)。并通过AI总结了工具的核心能力,如实时续写、自然语言生码、单元测试生成等,帮助开发者高效编码并提升代码质量。
149 10
|
2月前
|
缓存 人工智能 自然语言处理
通义灵码2.5——基于编程智能体开发Wiki多功能搜索引擎
本文介绍了基于通义灵码2.5 AI编码助手开发的Wiki多功能搜索引擎系统。该系统采用Python技术栈,实现了多数据源统一搜索、异步并行查询和智能缓存等功能。通过AI辅助完成了从需求分析、架构设计到代码生成的全流程开发,显著提升了开发效率。系统采用模块化分层架构,包含数据源抽象层、搜索管理层和缓存层等核心组件,支持自然语言交互和个性化代码推荐。这一实践展示了AI与开发者深度协作的智能化开发新模式。

热门文章

最新文章