近期,阿里云飞天实验室正式发布了Distribution-Aligned Sequence Distillation for Superior Long-CoT Reasoning技术报告,并随之开源了其基于Qwen基座训练的两个Reasoning模型(DASD-4B-Thinking / DASD-30B-A3B-Thinking-Preview)以及对应的训练数据。
项目合集:
ModelScope
https://www.modelscope.cn/collections/Alibaba-Apsara/DASD-Thinking
HuggingFace
https://huggingface.co/collections/Alibaba-Apsara/dasd-thinking
Github主页
https://github.com/D2I-ai/dasd-thinking
一经开源,这一工作就在Hugging Face社区引起了热烈反响,项目训练数据在短时间内登顶了Hugging Face数据集趋势榜,总榜也进入了Top5,数据集综合下载量在一周内就超过了17K次,模型及衍生模型下载总量超过10K次。本文将对技术报告进行一个详细的解读。
引言
DASD-4B-Thinking 是一个基于44.8万条蒸馏数据训练的轻量级推理模型,DASD-4B-Thinking在数学、代码和科学推理三大高难度领域上展现了强大的性能:
- 数学竞赛:在高难度的数学竞赛测试集 AIME24 和 AIME25 上,分别获得 88.5 和 83.3 的准确率
- 代码⽣成:在竞赛级别的代码生成能力基准LiveCodeBench v5上的准确率达到了69.3
- 科学推理: 在PhD级别的科学推理测试集GPQA-Diamond上,得分为 68.4
在上述主流推理能力评测benchmark上,DASD-4B-Thinking不仅达到了相近尺寸模型的最佳性能,甚至超越许多更大尺寸的模型
值得注意的是,DASD-4B-Thinking仅使用了44.8万条蒸馏数据,不足许多主流开源蒸馏项目的十分之一,但却能取得更好的性能,这一切源于对“序列级蒸馏”范式的深入思考和深度重构,接下来,本文将重点解析DASD-Thinking背后的核心技术创新。
背景介绍
随着DeepSeek-R1的发布,研究者证明了从强大的教师模型中进行蒸馏可以显著增强小型模型的推理能力。具体而言,他们使用DeepSeek-R1生成的长思维链推理数据,来对包括Qwen2.5-Math-7B等几个广泛使用的小尺寸开源模型进行了微调,从而实现了推理性能的巨大提升,由于这种监督微调(SFT)方法的简单性以及小尺寸模型在部署和推理效率方面的优势,这项工作极大地重新激发了社区对基于蒸馏的推理增强方法的兴趣。
序列级蒸馏:过去一年,社区涌现了大量对DeepSeek-R1的蒸馏范式进行大规模复现和扩展的工作(如OpenR1、OpenThoughts、a-m-team、NVIDIA AceReason、NVIDIA OpenMathReasoning、OmniThought、Light-R1、LIMO、s1、DeepMath、MiroMind-M1、Syntheic-1、NaturalThoughts和Sky-T1等),这些工作取得了令人瞩目的进展,它们通常会收集并开源大规模的具有挑战性的推理问题数据集,并配以强大教师模型生成的回答。随后,通过在这些公开发布的推理语料库上进行SFT,研究人员获得了表现出强大推理能力的蒸馏模型。这种在教师生成回答上进行SFT的范式,即序列级蒸馏,在多个领域取得了最先进或极具竞争力的性能,包括数学、代码生成、科学推理等。
On-policy蒸馏:另一种范式是基于logit的蒸馏,这是知识蒸馏中的经典方法,通过将学生和教师模型的logit分布对齐,以更好地利用教师模型的概率分布中所隐含的丰富"暗知识"来使得学生模型可以更好地学习到教师模型的泛化能力。值得注意的是,近期的进展如Qwen3和Gemma等采用了这一方式的on-policy变体:它们首先使用学生模型生成on-policy响应,然后通过最小化KL散度将学生的logit分布与教师对齐。最近,Thinking Machines Lab发布了这一范式的开源实现。然而,这一方式需要访问教师模型来对学生模型输出的响应的logits,这在大部分闭源模型上是无法获取的,并且当教师和学生使用不同的分词器或词表时,这些方法面临重大挑战,因为输出空间的不匹配使得直接logit对齐变得不可行。
在该工作中,旨在改进序列级蒸馏范式,因为其简单而有效,已激发社区广泛关注与探索,并催生了众多开源蒸馏数据集的发布。同时,它支持跨架构、跨生态的模型蒸馏,对教师模型与学生模型的架构选择不施加任何限制。但现有的序列级蒸馏方法更多在关注基于启发式规则和人类认知的数据筛选,本质上仍将蒸馏视为“高质量数据集上的监督学习”,而忽略了蒸馏的核心目标——让学生模型学习教师的完整输出分布。这些方法在整个蒸馏过程中缺乏显式的教师-学生互动机制,导致蒸馏的本质未被充分利用,蒸馏效果不充分,具体来说,存在三个局限:
- 模式覆盖不完整:当前的随机采样和过滤策略仅能覆盖教师模型的一小部分模式,无法充分利用其隐含的“暗知识”,而“暗知识”对于泛化能力的传递十分关键
- 误导性梯度:监督学习的优化目标强化学生模型对于教师模型产生的所有token的输出概率,可能导致学生在教师认为概率低的token上变得过于自信,从而偏离教师模型的真实分布
- 暴露偏差:学生模型在训练时使用教师模型生成的上下文,学生模型用于预测下一个token的上文全部由教师模型产生,而推理时的上文由自身产生,学生模型在训练时没有经历过这样的环境,这种训练与推理的不一致可能会导致误差累积
项目提出了分布对齐的序列蒸馏新范式—— 融合温度调节学习、差异感知采样与混合策略蒸馏等三大核心技术创新的高效长思维链推理模型蒸馏框架,来解决上述局限性,增强长思维链推理蒸馏效果。该框架通过多阶段数据生成与自适应筛选机制,在仅使用448k训练样本的情况下,就能显著提升小模型在高难度数学、科学与代码推理任务上的表现。整体流程如图:
三大核心技术创新
温度调节学习(Temperature-scheduled Learning):先易后难,覆盖教师模型更广泛模式
现有的序列级蒸馏工作通常依赖于从教师的随机采样(RS),然后进行基于质量的过滤。这种方法倾向于产生仅覆盖教师模式小部分的样本,从而未能充分利用嵌入在教师分布中的丰富潜在信息。一种自然的补救方法是提高采样温度,这会使教师的分布变平,从而更好地覆盖其完整的模式结构。
如图所示,项目可视化了在不同温度下采样的教师生成响应的概率分布。在较低温度下,所得分布变得更尖锐和集中,将大部分概率质量集中在狭窄的高可能性响应范围内。相比之下,较高温度采样产生更平坦和更广泛的密度,显著增加了覆盖的概率范围并明显增强了数据多样性。然而,研究团队观察到高温采样引入了许多稀有的教师模式或潜在的噪声样本。当学生模型容量有限且与教师在架构或行为上存在显著差距时,它难以有效地从这种异质数据中学习。图中比较了使用不同温度采样的训练数据的SFT训练损失。具体而言,从gpt-oss-120b教师模型在低温和高温下分别随机采样了5万条数学领域的响应,并分别在每个数据集上微调Qwen3-4B-Instruct-2507学生模型。低温数据集使损失快速收敛到较低水平,轨迹平滑下降,而高温数据集使学习变得困难:损失保持较高水平且较难以下降。
尽管从高温采样数据学习更具挑战性,但研究团队发现高温采样的数据训练效果仍然优于低温采样的数据,如表中所示。在T=1.0样本上训练,相比在T=0.6样本上训练在AIME24上获得+1.4的提升,在更具代表性和挑战性的AIME25上获得更大的+4.2增益。这表明即使在学习更困难,收敛更慢的条件下,更广泛地覆盖教师的输出模式仍然可以为学生模型带来实质性的更大收益。这也强调了采样策略在决定序列级蒸馏效果方面的关键影响。
为进一步评估高温采样的效果,研究团队将训练数据规模扩大到10万样本。然而,这种数据量增加的边际效益较低,如表中所示,10万T=1.0采样的样本在AIME24上相对于5万没有增益,在AIME25上仅获得+2.8的提升。这表明学生学习多样化教师行为的能力成为瓶颈,增加更多高温样本并不能转化为成比例的性能提升。
基于这些观察,研究团队提出了一种用于序列级蒸馏的温度调度学习pipeline,首先在低温下从教师模型采样,产生一组集中在高概率、更易于学习的模式的响应数据。然后切换到更高温度以收集更多样化的样本,这些样本捕获了更稀有的教师模式和更丰富的隐含信息,但增加了学生模型的学习难度。因此,研究团队先使用低温数据对学生进行冷启动,然后继续使用高温数据进行训练。作为一种类比,这可以直观地视为一种由易到难的课程温度调节,或者一种反向的温度退火策略,在训练过程中提高温度,反转了传统退火的冷却过程。如表中所示,先用5万样本在T=0.6下冷启动,然后在T=1.0下继续训练另外5万样本,相比所有静态温度的基线都获得了显著的性能提升。这表明策略成功地达成了两个目标:(i) 促进早期的稳定学习,(ii) 拓宽教师模式的覆盖范围,从而将更多有价值的潜在知识从教师转移到学生。
差异感知采样(Divergence-aware Sampling):让学生优先学“老师强、学生弱”的内容
尽管采用温度调节学习能够拓宽教师模式的覆盖范围,但学生模型仍然难以与教师模型的序列级分布对齐。经典的基于logits的蒸馏利用教师logits分布精确增加或减少学生的token级概率。相比之下,在教师生成数据上进行SFT通常会放大所有目标token相对于学生当前预测的概率,这可能导致误导性梯度:对于教师分配低概率但学生分配高概率的token,SFT错误地进一步推高学生的概率,从而使它们偏离教师的分布。这种差异引发了一个核心问题:如何识别一个与学生模型学习能力更适配的教师模型序列级分布?
为了从学生模型的角度来识别有效的序列级目标分布,研究团队引入了一个分布分解和分析框架:每个序列级响应被分解为连续的句子,并为教师和学生计算相应的句子级生成概率;通过量化每个句子上的概率差异,研究团队分类出不同的行为模式;最后,系统地分析这些模式并建立了一个它们与学生模型学习效果的经验关系。具体而言,研究团队首先使用测试集从蒸馏模型(即训练好的学生模型)上采样响应,并将每个响应分割成句子。这种句子级分析确保了该方法在不同架构的模型上的广泛适用性——不同于on-policy蒸馏等方法,后者通常要求所有模型共享相同的分词器和词表(这是由其对token级监督的依赖所施加的约束)。然后,将这些样本输入教师模型、蒸馏前的学生模型(以下简称"学生模型")和蒸馏后的学生模型(以下简称"蒸馏模型")。对于响应数据中的每个句子,我们计算该句子中每个token在三个模型下的概率,并使用其几何平均值作为句子级别的概率。如图所示,观察到序列级分布自然分解为四种明确定义的分布类型(每种对应一个不同的句子类别)。令、和分别表示教师、学生和蒸馏模型对同一句子的预测概率。基于这些概率的相对大小差异,我们定义以下分布(或句子)类型:
1.来源于学生模型的句子(以下简称Student Sentence)和来源于教师模型的句子(以下简称Teacher Sentence):
当和之间存在较大差异时,蒸馏模型仍然输出该句子,表明该句子所代表的行为模式可能主要继承自对其具有更高概率的模型。例如,如果远大于且蒸馏模型仍然产生该句子,则该句子更可能是继承自教师模型的。此外,当远大于时,学生模型可以在SFT下相对自由地增加其概率,而不必担心误导性梯度。直观上,这种模式可能更适用于当前的蒸馏设置。值得注意的是,Teacher Sentence并不意味着该行为模式完全不存在于学生模型中,而是主要来自于教师模型,Student Sentence同理。
2.蒸馏前学生模型和教师模型中都已存在的句子,未通过蒸馏增强(以下简称Shared Sentence):这些句子的输出概率在所有三个模型中都相似。这表明这些句子在蒸馏前学生模型和教师模型中都有着较显著的分布,蒸馏并没有实质性地改变它们的概率或增加模型间分布差异。
3.蒸馏前学生模型已存在,并通过蒸馏继续得到增强的句子(以下简称Boosted Sentence):与第二种类型类似,和仍然相近,但显著更高。这些句子在蒸馏前也存在于教师和学生模型中,但由于次优的误导性梯度,通过在蒸馏数据上训练过度增强了它们的概率。
研究团队通过分析四种分布类型与测试集正确率的相关性来评估学生模型学习的有效性。具体而言,计算蒸馏模型在每个输出位置上分配给每种分布类型的概率:例如,若要估计输出序号为3的位置的Teacher Sentence概率,计算在所有正确和错误的模型输出中,第三句话被分类为教师句子的比例。
在内部训练的蒸馏模型和开源的蒸馏模型DeepSeek-Distill-Qwen3-8B上都进行了这一分析以确保普适性。如下图所示,在不同模型中,Teacher Sentence在正确答案中往往获得更高的概率,这体现在浅绿色实线持续位于浅绿色虚线之上。这一现象是符合直觉的:由于教师模型在测试集上表现更好,将学生的输出与教师偏好的响应对齐增强了学习效果,从而提高了生成正确答案的可能性。相比之下,发现Shared Sentence和Student Sentence出现概率较低,影响相对较小。对于Boosted Sentence,研究团队在更广泛的设置中进行了实验,但没有观察到较为一致的结论;此外,识别这一类别需要已经完成蒸馏的模型,限制了对其的使用。因此,在下文的分析中主要关注Teacher Sentence。
基于上述分析,一个很自然的想法是在训练期间强调更能指示答案正确性的模式。尽管上面所说的完整的分布分解框架需要三个模型(教师、学生和蒸馏模型)的输出概率来在训练之后识别最有效的分布,但Teacher Sentence和Student Sentenc实际上也可以在训练前就能识别:Teacher Sentence/Student Sentence是那些教师模型分配的输出概率显著高于/低于学生模型的句子。因此,我们提出了差异感知采样(DAS),它优先选择包含更多Teacher Sentence的训练数据,从而隐式地鼓励一个与学生模型更适配的教师模型序列级分布。这种采样策略自然缓解了误导性梯度,促进了从教师到学生更有效的知识转移。值得注意的是,研究团队的方法只需要对教师生成响应中的每个token来获取教师和学生的预测概率。教师模型的概率在采样过程中可以自然获得,甚至许多闭源模型API也都提供这些概率,而学生模型的概率可以从本地部署的模型轻松计算。相比之下,经典的基于logits的蒸馏需要教师在每个位置的全词表logits(即整个词表上的概率)。即使是最近的一些on-policy蒸馏方法实现将其简化为了token级的概率,但仍然需要对学生生成输出中的每个token,获取两个模型下的相应概率,而教师模型针对学生输出响应的预测概率在闭源模型上通常是无法获取的。
对DAS和随机采样(RS)进行了实验对比,如下表中所示,DAS始终能取得更高的测试性能,甚至能超过两倍训练数据量下RS的性能。这表明DAS有效地识别了分布与学生模型更适配的教师模型生成序列。
此外,DAS还具有一项优势:不需要为每个新学生模型重新采样数据。例如,后续实验证明适配于Qwen3-4B-Instruct-2507的训练数据能有效地推广到相同家族的另一个模型Qwen3-30B-A3B-Instruct-2507上。
混合策略蒸馏(Mixed-policy Distillation):在学生“容易跑偏处”让老师接管纠错
在温度调节学习和差异感知采样中,研究团队采用off-policy的方式通过生成高质量数据来近似教师的序列级分布。然而,结果发现由此产生的学生模型仍然受暴露偏差限制:训练期间,学生使用Teacher Forcing的方式,以教师模型生成的前缀为条件来预测下一个Token,而在推理时,它必须完全依赖自己的自回归预测,导致分布存在不匹配。
为了实证研究这一现象,使用一个上文中训练的学生模型(5万DAS采样,T=0.6),将其训练数据中的问题重新进行推理生成响应来观察学生模型是否过度依赖教师的上下文。在推理过程中,将最大生成token长度设置为对应问题上教师模型输出响应长度的1.5倍,以便比较教师模型输出响应和蒸馏后学生模型自己生成的响应之间的差异。下图绘制了学生自身生成的响应在不同的训练数据长度下的截断率,较高的截断率表明学生和教师行为之间存在更大的分歧。结果表明,即使在训练数据上,学生仍然表现出与教师的显著偏差,并且随着训练数据长度的增加,这种差异变得越来越明显。这一观察证实了在较长教师前缀下使用教师强制训练会加剧暴露偏差。
为克服这一局限,研究团队提出了一种混合策略蒸馏方法,协同结合off-policy和on-policy信号。具体而言,研究团队首先使用经过off-policy蒸馏训练的学生模型为它的训练数据中的问题重新生成响应,然后识别与教师输出显著不同的响应(如上图中存在截断的响应)。对于这些数据,随机截断学生模型生成的响应,并让教师模型继续续写生成,从而使教师模型能够针对学生模型的错误提供有针对性的指导。使用少量这样生成的混合策略数据,在已经过off-policy蒸馏训练的学生模型上继续进行轻量级的训练,即可进一步提升模型性能。研究团队在DASD-4B-Thinking的训练中验证了混合策略蒸馏方法的有效性。即使加入少量混合策略数据,也能在已经具备很强性能的模型上在不同领域均进一步取得性能提升。
性能评测
研究团队对DASD-4B-Thinking进行了详尽的性能评测和对比,如下表所示,有力地验证了上述三大核心技术创新和整体蒸馏pipeline的有效性。
实验结果表明,通过研究团队改进的序列级蒸馏流程,复杂推理能力能够高效地从大型教师模型迁移至仅含4B参数的轻量级学生模型,在不同领域的复杂推理能力评测集准上都取得了相近尺寸下当前最佳的性能。值得注意的是,如下图所示,DASD-4B-Thinking不仅在所有同规模模型中表现最优,还在多个关键基准测试上超越了参数量显著更大的模型,充分彰显了方法的卓越成效和训练数据的高效性。
数学推理(AIME24、AIME25)
在最具挑战性的数学推理基准测试中,DASD-4B-Thinking在AIME25上取得了83.3分,在AIME24上取得了88.5分,这表明了即便与更大规模的模型相比,DASD-4B-Thinking仍具备顶尖的推理能力。这种卓越的效率清晰呈现在了上图中,DASD-4B-Thinking位于左上角区域,以远低于其他模型的参数成本实现了更优的性能。具体而言:
- 在“开源权重与开源数据”类别中,该工作的4B参数模型展现出明显优势。它在AIME24和AIME25上大幅超越320亿参数的AM-thinking-v1模型。值得注意的是,AM-thinking-v1使用了290万条训练样本,而DASD-4B-Thinking仅使用了44.8万条样本——数据量约为前者的六分之一。此外,它还超越了其他强大的开源数据模型,包括使用高达3000万样本训练的NVIDIA-OpenReasoning-Nemotron-7B,甚至超过了参数量超其60倍的NVIDIA-Nemotron-Ultra-253B。
- 在“仅开源权重”类别中,DASD-4B-Thinking同样为小尺寸推理模型设立了新标杆,显著优于强大的Qwen3-4B-Thinking-2507(AIME25得分83.3 vs. 81.3)。它还超越了多个中等至大规模的“仅开源权重”模型,包括Qwen3-32B和GLM-Z1-32B。
上述结果有力证明,优化后的高效序列级蒸馏pipeline显著增强了DASD-4B-Thinking的推理能力,使其能够匹配甚至超越参数量达其8至60倍的模型。
代码生成(LiveCodeBench)
在代码生成任务中,DASD-4B-Thinking在LCB v5上得分为69.3,在LCB v6上得分为67.5,再次展现出卓越的效率。在LCB v5上,该分数不仅超越了DeepSeek-R1-0528-Qwen3-8B(60.5)和Qwen3-14B(63.5),也高于NVIDIA-OpenReasoning-Nemotron-7B(63.9)。在LCB v6上,它大幅领先于强劲的Qwen3-4B-Thinking-2507(67.5 vs. 55.2)。该工作的4B参数模型甚至超过了Qwen3-32B(65.7),凸显了本方法在迁移复杂代码生成能力方面的高效率。
科学问答(GPQA-D)
GPQA-D因其高度依赖参数化知识而对小尺寸模型极具挑战性,DASD-4B-Thinking在GPQA-D上取得了68.4分的优异成绩。它不仅优于所有同规模模型,还非常接近参数量大得多的模型,例如Qwen3-32B,4B参数模型成功缩小了与大尺寸模型之间的性能差距。这一结果显示了该工作的增强蒸馏方法能有效最大化有限模型容量在科学推理任务中的利用效率。
总体而言,DASD-4B-Thinking在数学推理、代码生成和科学问答三大类基准测试中均实现了在相近尺寸下当前最优的性能,有力验证了序列级蒸馏框架在有效性与数据效率方面的优势。
MoE评测
为评估蒸馏框架的可扩展性与鲁棒性,研究团队进一步将其拓展至MoE学生模型。这类模型通过稀疏专家路由机制,在提升模型容量的同时保持推理效率。研究团队选用 Qwen3-30B-A3B-Instruct-2507 作为学生模型,目前仅使用第一阶段(即低温度系数下的差异感知采样)数据进行初步训练并进行评估,所得模型记为 DASD-30B-A3B-Thinking-Preview。尤为关键的是,为验证训练数据在不同架构间的迁移能力,研究团队未针对 Qwen3-30B-A3B-Instruct-2507重新采样训练样本,而是直接复用适配 Qwen3-4B-Instruct-2507作为 学生模型的同一训练数据。
DASD-30B-A3B-Thinking-Preview 显著优于当前最强的开源 MoE 基线模型。与 Qwen3-30B-A3B-Thinking-2507 相比,它在多个关键基准上均取得稳健提升:AIME25 得分提升至 86.7%(+1.7%),LCB v6 提升至 72.8%(+6.8%),同时在 GPQA-D 上保持了具有竞争力的表现。在与 GPT-OSS-20B 的对比中,模型在代码任务上展现出显著优势,将 LCB v6 分数提升至 72.8%(+11.8%),并推动整体平均得分达到 77.3%(+2.6%)。研究团队进一步与最近发布的NVIDIA-Nemotron-3-Nano-30B-A3B进行比较。根据其技术报告,该模型基于约1800 万样本训练并额外采用了强化学习训练增强;而模型仅基于第一阶段的10万低温采样样本进行训练,即便在如此轻量的训练方案下,DASD-30B-A3B-Thinking-Preview 仍在 LCB v6 上实现了更强的代码生成性能(+4.5 分,72.8 vs. 68.3),并取得了更高的平均得分(+0.5 分,77.3 vs. 76.8),即使相比刚刚发布的GLM-4.7-Flash模型,DASD-30B-A3B-Thinking-Preview也在LCB v6上存在较大的优势,这一结果进一步凸显了研究团队的方法和训练数据在相同模型家族上的不同架构之前迁移的有效性。
总结和展望
在技术报告中,研究团队推出了DASD-4B-Thinking——一款通过大规模长思维链蒸馏开发的高性能大语言推理模型。研究团队对当前主流的基于教师模型生成响应进行监督微调(SFT)的蒸馏范式进行了深入反思,并识别出三个关键局限性:(i) 未能充分覆盖教师模型在序列层面的输出分布;(ii) 教师输出分布与学生模型学习能力之间存在不匹配;(iii) 训练阶段采用教师强制(teacher forcing)而推理阶段采用自回归生成,由此引发的暴露偏差(exposure bias)。为应对上述挑战,研究团队提出了一套完整的数据构建与训练流程,其核心包含三项创新:温度调节学习(temperature-scheduled learning)、差异感知采样(divergence-aware sampling)和混合策略蒸馏(mixed-policy distillation)。基于该流程,仅使用 44.8 万条样本进行训练,DASD-4B-Thinking 即在绝大多数推理基准测试中取得当前最先进的性能——不仅持续优于同尺寸模型,更显著超越多个参数量更大的模型。此外,还发布了其 MoE(混合专家)变体 DASD-30B-A3B-Thinking-Preview,该模型同样展现出具有竞争力甚至更优的表现。为促进可复现性与社区发展,项目已开源模型与训练集。
展望未来,研究团队规划了以下研究方向:
- 第一,探索在 SFT 过程中引入分布感知的重加权机制,利用教师模型在序列层面的输出概率更忠实地逼近其目标分布,从而进一步提升蒸馏效果与数据效率;
- 第二,进一步优化混合策略蒸馏方法,以增强训练的效率与稳定性;
- 第三,集成知识检索与工具调用等能力,逐步构建更强大的、面向特定领域的推理模型,以应对复杂的现实世界任务。
点击即可跳转项目开源链接:
https://www.modelscope.cn/models/Alibaba-Apsara/DASD-4B-Thinking