人工智能平台 PAI DistilQwen2.5-DS3-0324发布:知识蒸馏+快思考=更高效解决推理难题

本文涉及的产品
模型训练 PAI-DLC,100CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: DistilQwen 系列是阿里云人工智能平台 PAI 推出的蒸馏语言模型系列,包括DistilQwen2、DistilQwen2.5、DistilQwen2.5-R1 等。DistilQwen2.5-DS3-0324 系列模型是基于 DeepSeek-V3-0324 通过知识蒸馏技术并引入快思考策略构建,显著提升推理速度,使得在资源受限的设备和边缘计算场景中,模型能够高效执行复杂任务。实验显示,DistilQwen2.5-DS3-0324 系列中的模型在多个基准测试中表现突出,其32B模型效果接近参数量接近其10倍的闭源大模型。

作者:蔡文睿(清素)、汪诚愚(熊兮)、严俊冰(玖烛)、黄俊(临在)


在大语言模型领域的快速发展中,如何有效平衡高效推理和模型思维能力之间的矛盾一直是学术界和工业界关注的重点。DeepSeekV3-0324 默认没有采用深度思考的模式,使得模型推理速度更快,兼顾了快速推理和复杂任务处理之间的平衡。


DistilQwen 系列是阿里云人工智能平台 PAI 推出的蒸馏语言模型系列,包括DistilQwen2、DistilQwen2.5、DistilQwen2.5-R1 等。在此次工作中,我们将 DeepSeekV3-0324 基于快思考的推理能力成功迁移到更轻量的小模型中,全新推出 DistilQwen2.5-DS3-0324。在继承了原始模型思维链蒸馏的精华的同时,引入了快思考策略,显著提升了推理速度,使得在资源受限的设备和边缘计算场景中,模型能够高效执行复杂任务。


实验显示,DistilQwen2.5-DS3-0324 系列模型在多个基准测试中表现突出,其 32B 模型效果甚至接近参数量接近其10倍的闭源大模型。在复杂问题解决方面,也大幅降低了思维链的长度,展示了卓越的效率。DistilQwen2.5-DS3-0324 系列的发布,助力“大模型+快思考”的新模式,逐步成为解决推理难题的标准配置。

image.png


为方便开发者和企业在实际应用中使用 DistilQwen2.5-DS3-0324 系列模型,已将所有的 Checkpoint 在 Hugging Face 和 Model Scope 开源社区中公开。本文将深入阐述 DistilQwen2.5-DS3-0324 的蒸馏算法、性能评估,并且提供在阿里云人工智能平台 PAI 上的使用指南及相关下载教程。


一、DistilQwen2.5-DS3-0324 中的蒸馏技术

推理模型通过深度思考可以解决复杂的推理任务,但这种深度思考也带来了大规模的计算资源需求。模型思考的过程中一般都有反思机制的参与,其会反复推敲模型已有的推理步骤,确保每个步骤都正确推进。这种反思机制在提高推理准确率的同时,也会不可避免地带来一些重复冗余的部分,导致推理模型所需的计算资源居高不下。因此,取得模型深度思考和快速回答间的平衡显得格外重要。

此外,蒸馏模型的参数量普遍较小。而由于自身参数量的显著差异,大模型与小模型的认知与推理轨迹有时并不完全一致。以数学问题为例:小模型由于自身参数量的限制,会倾向于使用更基础的方法去解决问题。而大模型基于其强大的推理能力,会采用较为高阶的方法。正是由于大小模型的认知轨迹偏差,小模型有时无法有效理解大模型的思维链。如果直接将大模型的思维链全部蒸馏到小模型中,往往无法达到最优效果。

针对这些问题,我们设计了一种小型推理模型蒸馏框架,主要包含2个阶段:快思考 CoT 数据收集,CoT 轨迹认知对齐。该框架可以让模型在快速思考的同时,消除认知轨迹偏差带来的负面影响。我们通过第一阶段收集大模型的快思考数据,在第二阶段对快思考数据进行与小模型的认知能力对齐,最终使用对齐后的快思考 CoT 对 Qwen2.5 系列基座小模型进行监督微调(SFT),得到 DistilQwen2.5-DS3-0324 系列模型。


快思考 CoT 数据收集

模型深度思考和快速回答间的平衡显得格外重要,如果模型的中间思考步骤出现错误,此时的反思机制可以有效帮助模型自查纠错。但如果模型输出的是正确的思考步骤,此时反复的自查思考反而会导致不必要的资源浪费。因此,我们需要一种快思考 CoT,其保留了必要的推理和自查纠错步骤,同时去除了不必要的重复冗余部分。这种快思考 CoT 大幅缩减了推理长度,可以帮助模型进行快速思考和快速回复,在资源受限场景中高效完成任务。我们的快思考 CoT 数据主要来源于:

  • 推理大模型 CoT 数据的 Long To Short 思维链改写。基于 DeepSeek-R1 的推理数据,我们从中提炼关键步骤,生成更高效、简洁的推理路径。
  • 快思考大模型蒸馏。我们认为 DeepSeek-V3-0324 的输出具备快思考的特点,我们从中蒸馏出一些推理轨迹,涵盖数学、代码和科学问题等多个领域。
  • 特别的,针对推理大模型产生的思维链过于冗长的问题,我们进一步使用QwQ-32B 对思维链进行改写,其功能在于精简思维链长度,降低蒸馏模型的输出 token 数量,同时,保证思维链的正确性,避免错误传播到蒸馏模型中。使用大模型进行 Long To Short 思维链改写的 Prompt 如下所示:
You are a helpful assistant who is highly skilled at simplifying reasoning processes.
Given a problem, its answer and its reasoning process, your task is to simplify the reasoning process so that a small language model (e.g., a 7B model) can reliably follow the steps to solve the problem. \\
If the original reasoning process is divided into multiple steps separated by two newline characters, your output must preserve this formatting. \\
You must output ONLY the simplified reasoning process with no additional explanation or commentary.

CoT 轨迹认知对齐

正如上文中提到的,大小模型间的认知推理轨迹有时存在显著偏差。因此,对于待蒸馏的大模型快思考 CoT 数据集,小模型可能无法有效理解全部内容。举例来说,对于计算直角边分别为3和4的三角形面积,大模型可能使用线性代数进行求解:

image.png

这种方式对小模型而言比较难以学会,其一般采用简单的算术方法求解:

image.png

因此,直接将大模型的输出蒸馏到小模型容易造成小模型难以拟合的问题。

我们采用了 LLM-as-a-Judge 的范式,对大模型的推理过程进行评价并改进。给定问题、大模型的推理过程和问题的答案,我们使用模型判断这个推理过程是简单、中等还是困难。难度等级的核心标准是小模型是否能够遵循给定的推理过程得到问题的答案。以下是思维链的难度等级及定义:

  • 中等: 小模型可以遵循该推理过程得到问题的答案。
  • 简单: 给定的推理过程过于简单,缺少小模型所需的必要步骤,导致大模型可以依赖其强大的推理能力解决问题,但小模型无法遵循该过程得到答案。
  • 困难:给定的推理过程过于复杂或过于困难,导致小模型无法遵循该过程得到答案。

其中,我们使用如下 Prompt 调用 QwQ-32B 模型进行思维链难度的估计:

You are a highly capable evaluator.
Your task is to assess the given reasoning process from the perspective of a small language model (e.g., 7B). 
Specifically, determine whether the reasoning process provides sufficient detail for a small model to solve the problem, or whether it is too simplistic (i.e., lacking critical details) or too complex (i.e., containing unnecessary or confusing steps). 

Difficulty Definitions (from the perspective of a small model): 
- Easy: The reasoning process is overly simplistic relative to the problem's difficulty; it omits essential details that a small model needs to solve the problem.
- Medium: The reasoning process is appropriately balanced, offering enough detailed guidance.
- Hard: The reasoning process is overly complex, with extraneous or convoluted steps that could hinder a small model's ability to follow it. 

Output Format:
You must output exactly one word: easy, medium, or hard. Do NOT provide any additional text, explanation.
基于一个大模型的问题与思维链集合,我们可以将其分为简单、中等和困难三类。对于评级

基于一个大模型的问题与思维链集合,我们可以将其分为简单、中等和困难三类。对于评级为中等的部分,我们予以保留。对于被评为简单和困难的数据,我们使用模型对思维链进行改进。具体来说:对于简单部分,我们扩展其推理过程,直至小模型可以遵循扩展的过程得到答案。对于评级为困难的部分,我们精简其推理过程,直至小模型可以遵循精简的过程得到答案。精简思维链的过程可以参考 Long To Short 的 Prompt 示例。扩展思维链的过程与 Long To Short 相反,其 Prompt 模版如下所示:

You are a helpful assistant who is highly skilled at extending reasoning processes.
Given a problem, its answer and its reasoning process, your task is to extend the reasoning process by adding necessary details and intermediate steps so that a small language model (e.g., a 7B model) can follow the extended reasoning process to solve the problem. \\
If the original reasoning process is divided into multiple steps separated by two newline characters, your output must preserve this formatting. \\
You must output ONLY the extended reasoning process with no additional explanation or commentary.

我们之后对改进结果进行进一步验证,包括:对改进后的思维链再次评价难度等级,检测其是否被归类为中等难度。如果改进后的思维链通过验证,说明改进有效,该数据可以被小模型有效理解,我们将其保留。如果验证不通过,说明改进无效,我们将返回到改进步骤,重新进行改进,直至通过验证。最终,我们获取了优化后的思维链数据集,其组成部分如下:

  • 初始难度评级为中等的数据。
  • 初始难度评级为简单,经过改进扩展后评为中等并通过验证的数据。
  • 初始难度评级为困难,经过改进精简后评为中等并通过验证的数据。


此时,数据集内所有思维链的最终难度评级均为中等,意味着小模型可以有效理解数据集内的所有思维链,并能遵循这些思维链解决相应推理问题。上文提到的大小模型认知轨迹偏差问题在改进后的数据集中得到妥善解决,其可能带来的负面影响也被消除。相关流程如下所示:

image.png

相关工作参考论文 Training Small Reasoning LLMs with Cognitive Preference Alignment. arXiv。

我们在第二阶段使用这种 CoT 轨迹认知对齐机制对得到的快思考 CoT 数据进行优化,最终使用优化后的数据集对 Qwen2.5 系列基座模型进行监督微调(SFT),得到 DistilQwen2.5-DS3-0324 系列模型。


二、DistilQwen2.5-DS3-0324 模型效果评测

在本节中,我们从多个角度评测 DistilQwen2.5-DS3-0324 系列蒸馏小模型在推理任务上的实际效果;同时,我们将通过统计数据印证 DistilQwen2.5-DS3-0324 系列模型推理的快速性和高效性。

模型综合能力评测

我们在多个模型推理能力评测基准上测试了 DistilQwen2.5-DS3-0324 系列模型的能力,涵盖数学、代码和科学问题三个主流推理领域。

  • 数学领域:采用 AIME2024 和 MATH-500 两个基准。AIME2024 为美国数学邀请赛的2024年测试集,含30道高难题,聚焦代数与几何等复杂推理能力;MATH-500 涵盖500道题,旨在全面考察模型在数学解题上的能力。
  • 代码领域:使用 LiveCodeBench V2,其包含2023年5月-2024年5月的511个代码问题,测试模型在高难度编码、自我修复和执行测试等方面的综合能力。
  • 科学问题领域:使用 GPQA-Diamond 和 MMLU-PRO。前者为高质量专家级科学问题集(共198题),后者涵盖12,000+道题,强调模型的复杂推理能力而非仅靠知识检索,精准追踪大模型在推理任务上的进步和不足。

DistilQwen2.5-DS3-0324 系列模型在7B、14B 和32B 参数量级的模型中,与原始 Qwen2.5 模型的效果进行了对比。可以看出,DistilQwen2.5-DS3-0324 系列模型的推理能力在多个评测基准上取得了一致而明显的效果提升。

image.png image.png image.png

>>7B、14B和32B量级模型效果对比<<



DistilQwen2.5-DS3-0324-32B 与当前主流的非推理大模型性能对比

可以看出,尽管这些大模型的参数量是自己的数十倍,DistilQwen2.5-DS3-0324-32B 依旧在这些推理基准上取得了相对不错的结果。其中,DistilQwen2.5-DS3-0324-32B 在 AIME2024 和 MATH-500 两个基准上高于多个闭源大模型(例如 Qwen-Max 和 Claude-Sonnet-3.7),在LiveCodeBench 超过了其他所有大模型,包括其教师模型 DeepSeek-V3-0324。


平衡精度和输出 Token 数量

为展示 DistilQwen2.5-DS3-0324 系列模型高效推理效果,以 32B 模型为例,我们分别统计了 DistilQwen2.5-DS3-0324 模型和 DistilQwen2.5-R1 系列模型在各个推理 benchmark 上输出的平均 token 数。可以看出,相较于采用深度思考进行推理的模型,DistilQwen2.5-DS3-0324 系列模型推理输出的token数量大幅降低,与 DeepSeek-V3-0324(teacher model)的输出 Token 数相当,兼顾了快速推理和复杂任务处理。这种快思考的特点使得 DistilQwen2.5-DS3-0324 系列模型在资源受限的设备和边缘计算场景中依旧能高效解决复杂推理任务。

image.png

模型输出案例

我们在此列举一些有趣的小例子,以体现 DistilQwen2.5-DS3-0324 系列模型强大的代码能力。以下 case 均为 DistilQwen2.5-DS3-0324-32B 输出结果。为便于复现,我们还提供了不同 case 对应的 prompt。将 prompt 对应的模型输出代码保存到本地 html 文件中,使用浏览器打开 html 文件即可复现类似结果。

示例一:前端网页生成

Prompt:Create a detailed web page for a new SAAS with all the necessary information images and pricing and all, give me the code so that I can test locally using vscode.


示例二:贪吃蛇游戏

Prompt: Develop an interactive version of the classic Snake game in a single HTML file using HTML, inline CSS, and inline JavaScript. The game must include responsive controls, dynamic score tracking, and a game-over screen with a restart option. Use proper image assets for the snake and food items (no placeholders) so that the entire game is self-contained.



三、模型下载和使用

DistilQwen2.5-DS3-0324在阿里云人工智能平台 PAI 上的实践

以下 HuggingFace transformers 库为例,简要介绍如何在 PAI-DSW 上使用 DistilQwen2.5-DS3-0324模型。首先需要保证 PAI-DSW 镜像内transformers 版本大于等于4.37.0,否则会在加载模型时报错:

KeyError: 'qwen2'

以 DistilQwen2.5-DS3-0324-7B 为例,我们可以使用如下代码调用模型:

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "alibaba-pai/DistilQwen2.5-DS3-0324-7B"

model = AutoModelForCausalLM.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)

prompt = "xxxxx"
messages=[
    {"role": "system", "content": "You are Qwen, created by Alibaba Cloud. You are a helpful assistant. You should think step-by-step."},
    {"role": "user", "content": prompt},
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=2048
)
generated_ids = [
    output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]

response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)

DistilQwen2.5-DS3-0324在开源社区的下载

我们在 Hugging Face 和 Model Scope 上开源了我们蒸馏后的模型,分别为 DistilQwen2.5-DS3-0324-7BDistilQwen2.5-DS3-0324-14BDistilQwen2.5-DS3-0324-32B。以 Hugging Face 为例,用户可以使用如下代码下载这两个模型:

from huggingface_hub import snapshot_download

model_name = "alibaba-pai/DistilQwen2.5-DS3-0324-7B"
snapshot_download(repo_id=model_name, cache_dir="./DistilQwen2.5-DS3-0324-7B/")

model_name = "alibaba-pai/DistilQwen2.5-DS3-0324-14B"
snapshot_download(repo_id=model_name, cache_dir="./DistilQwen2.5-DS3-0324-14B/")

model_name = "alibaba-pai/DistilQwen2.5-DS3-0324-32B"
snapshot_download(repo_id=model_name, cache_dir="./DistilQwen2.5-DS3-0324-32B/")


四、小结与未来工作

综上所述,DistilQwen2.5-DS3-0324 系列模型通过知识蒸馏快思考策略,实现了在资源受限环境中的高效推理,兼顾了快速推理和处理复杂任务的需求。这一系列模型在多个基准测试中表现优异,证明了其卓越的推理能力和实际应用价值。作为“大模型+快思考”新模式的经典案例,DistilQwen2.5-DS3-0324 系列为小模型的广泛应用提供了巨大的空间。未来,我们将继续优化和提升 DistilQwen 系列模型的蒸馏技术,以进一步增强小模型的智能水平和推理效率,推广更多高效、轻量化的语言模型,支持开发者和企业在实际应用中的广泛采用。



五、参考资料

相关发表论文

  1. Wenrui Cai, Chengyu Wang, Junbing Yan, Jun Huang, Xiangzhong Fang. Training Small Reasoning LLMs with Cognitive Preference Alignment. arXiv
  2. Yuanhao Yue, Chengyu Wang, Jun Huang, Peng Wang. Building a Family of Data Augmentation Models for Low-cost LLM Fine-tuning on the Cloud. COLING 2025
  3. Yuanhao Yue, Chengyu Wang, Jun Huang, Peng Wang. Distilling Instruction-following Abilities of Large Language Models with Task-aware Curriculum Planning. EMNLP 2024

技术文章


  1. DistilQwen2.5-R1发布:知识蒸馏助推小模型深度思考
  2. DistilQwen2.5发布:通义千问蒸馏小模型再升级
  3. DistilQwen2:通义千问大模型的知识蒸馏实践
  4. DistilQwen2蒸馏小模型的训练、评测、压缩与部署实践
  5. 大语言模型数据增强与模型蒸馏解决方案


六、技术交流答疑群

image.png

相关实践学习
使用PAI-EAS一键部署ChatGLM及LangChain应用
本场景中主要介绍如何使用模型在线服务(PAI-EAS)部署ChatGLM的AI-Web应用以及启动WebUI进行模型推理,并通过LangChain集成自己的业务数据。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
14天前
|
缓存 并行计算 测试技术
阿里云PAI-全模态模型Qwen2.5-Omni-7B推理浅试
阿里云PAI-全模态模型Qwen2.5-Omni-7B推理浅试
126 11
|
4月前
|
机器学习/深度学习 人工智能 弹性计算
阿里云AI服务器价格表_GPU服务器租赁费用_AI人工智能高性能计算推理
阿里云AI服务器提供多种配置,包括CPU+GPU、FPGA等,适用于人工智能、机器学习和深度学习等计算密集型任务。本文整理了阿里云GPU服务器的优惠价格,涵盖NVIDIA A10、V100、T4等型号,提供1个月、1年和1小时的收费明细。具体规格如A10卡GN7i、V100-16G卡GN6v等,适用于不同业务场景,详情见官方页面。
351 11
|
机器学习/深度学习 人工智能 Cloud Native
大语言模型推理提速,TensorRT-LLM 高性能推理实践
大型语言模型(Large language models,LLM)是基于大量数据进行预训练的超大型深度学习模型,本文主要讲述TensorRT-LLM利用量化、In-Flight Batching、Attention、Graph Rewriting提升 LLM 模型推理效率。
102058 2
|
机器学习/深度学习 人工智能 算法
人工智能中的知识表示与推理
人工智能中的知识表示与推理
404 1
|
4月前
|
人工智能 容灾 Serverless
AI推理新纪元,PAI全球化模型推理服务的创新与实践
本次分享主题为“AI推理新纪元,PAI全球化模型推理服务的创新与实践”,由阿里云高级产品经理李林杨主讲。内容涵盖生成式AI时代推理服务的变化与挑战、play IM核心引擎的优势及ES专属网关的应用。通过LM智能路由、多模态异步生成等技术,PAI平台实现了30%以上的成本降低和显著性能提升,确保全球客户的业务稳定运行并支持异地容灾,目前已覆盖16个地域,拥有10万张显卡的推理集群。
|
6月前
|
机器学习/深度学习 人工智能 弹性计算
阿里云AI服务器价格表_GPU服务器租赁费用_AI人工智能高性能计算推理
阿里云AI服务器提供多种配置选项,包括CPU+GPU、CPU+FPGA等组合,支持高性能计算需求。本文汇总了阿里云GPU服务器的价格信息,涵盖NVIDIA A10、V100、T4、P4、P100等多款GPU卡,适用于人工智能、机器学习和深度学习等场景。详细价格表和实例规格见文内图表。
1180 0
|
9月前
|
机器学习/深度学习 人工智能 弹性计算
阿里云AI服务器价格表_GPU服务器租赁费用_AI人工智能高性能计算推理
阿里云AI服务器提供多样化的选择,包括CPU+GPU、CPU+FPGA等多种配置,适用于人工智能、机器学习和深度学习等计算密集型任务。其中,GPU服务器整合高性能CPU平台,单实例可实现最高5PFLOPS的混合精度计算能力。根据不同GPU类型(如NVIDIA A10、V100、T4等)和应用场景(如AI训练、推理、科学计算等),价格从数百到数千元不等。详情及更多实例规格可见阿里云官方页面。
586 1
|
10月前
|
异构计算 索引
单卡A100实现百万token推理,速度快10倍,这是微软官方的大模型推理加速
【7月更文挑战第24天】针对大语言模型(LLM)处理长上下文时的计算瓶颈,微软推出MInference,基于动态稀疏注意力加速预填充,使8B参数模型处理1M token从30分钟降至3分钟,推理延迟降低10倍。通过识别注意力矩阵模式(A形、斜线、块稀疏),仅计算关键权重,无需修改预训练或微调。实验证明,MInference在多个任务和模型上保持准确度,但可能不适用所有LLM类型,存在轻微性能损失风险。
374 17
|
9月前
|
机器学习/深度学习 人工智能 关系型数据库
【机器学习】Qwen2大模型原理、训练及推理部署实战
【机器学习】Qwen2大模型原理、训练及推理部署实战
1135 0
【机器学习】Qwen2大模型原理、训练及推理部署实战
|
9月前
|
开发者 算法 虚拟化
惊爆!Uno Platform 调试与性能分析终极攻略,从工具运用到代码优化,带你攻克开发难题成就完美应用
【8月更文挑战第31天】在 Uno Platform 中,调试可通过 Visual Studio 设置断点和逐步执行代码实现,同时浏览器开发者工具有助于 Web 版本调试。性能分析则利用 Visual Studio 的性能分析器检查 CPU 和内存使用情况,还可通过记录时间戳进行简单分析。优化性能涉及代码逻辑优化、资源管理和用户界面简化,综合利用平台提供的工具和技术,确保应用高效稳定运行。
189 0

热门文章

最新文章

相关产品

  • 人工智能平台 PAI