【EMNLP2024】基于多轮课程学习的大语言模型蒸馏算法 TAPIR

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,5000CU*H 3个月
交互式建模 PAI-DSW,5000CU*H 3个月
简介: 阿里云人工智能平台 PAI 与复旦大学王鹏教授团队合作,在自然语言处理顶级会议 EMNLP 2024 上发表论文《Distilling Instruction-following Abilities of Large Language Models with Task-aware Curriculum Planning》。

近日,阿里云人工智能平台 PAI 与复旦大学王鹏教授团队合作,在自然语言处理顶级会议 EMNLP 2024 上发表论文《Distilling Instruction-following Abilities of Large Language Models with Task-aware Curriculum Planning》。文章提出了一个名为 TAPIR 的知识蒸馏框架,TAPIR 通过多任务课程规划来蒸馏黑盒大语言模型的指令回答能力,在蒸馏和多轮迭代过程中,使用教师 LLM 做为裁判找出对于学生 LLM 来说难以回答的指令,进行难度重采样。同时,TAPIR 调整多任务配比,进行训练集中的任务多样性分布的重采样,并根据相应多任务特点自动优化教师模型的回答风格。

1. 背景

大语言模型在回答开放领域通用任务的指令上取得了很大地进步。指令微调是微调预训练模型,使其从文本补全模型成为强大的对话模型的关键。尽管已有研究探索了使用强大的黑盒教师模型(如 GPT-4, Qwen-max)来自动蒸馏和标注指令的方法,但这些研究往往忽视了微调训练集中任务的多样性分布,以及训练集中指令难度的差异,这可能导致学生 LLMs 知识能力的不平衡和解决复杂任务的能力的不足。为了解决这些挑战,文章提出了一个名为 TAPIR 的新框架,它通过多任务课程规划来蒸馏黑盒大语言模型的指令回答能力,从而提高学生小模型的指令遵循能力。

2. 算法流程

文章中提出的 TAPIR(Task-Aware Curriculum Planning for Instruction Refinement)框架的算法流程是一个多轮次的蒸馏方法,旨在提升学生大型语言模型(LLMs)遵循指令的能力。整个流程从初始化一个预训练的学生模型开始,然后通过以下步骤进行:
image.png

1. 数据集难度过滤:使用一个开源的指令数据集(如Alpaca数据集)作为基础,通过计算模型拟合难度(MFD)分数来筛选出对学生模型来说较难的指令对,过滤得到种子数据集。
2. 多任务规划指令蒸馏:根据设定的任务类型配比,利用一个教师模型(如ChatGPT)扩展种子数据集,生成更多具有相似难度水平的指令-响应对,并提升推理类任务的采样概率,以更好的缓解能力冲突问题。
3. 多任务回答风格增强:对于某些任务,使用特定的提示重写响应,以便从教师模型获得更精细、更详细的回答,或者是特定任务格式的回答(如思维链,代码注释),这有助于学生模型更好地理解和学习复杂任务。
4. 模型多轮优化迭代:通过多轮训练,利用裁判模型得到学生模型的回答质量反馈奖励分数,采样得到新的蒸馏种子数据集。逐步增加新一轮蒸馏种子数据集中挑战性指令的比例,实现从易到难的泛化。
TAPIR 框架通过这种逐步提升任务难度和均衡任务类型的策略,使学生模型能够在较少的训练数据下超越更大的模型,显示出更好的性能,并在多个基准测试中取得了显著的性能提升。
image.png

难度重采样

image.png

任务重采样

在 TAPIR 框架中,任务重采样旨在解决训练集中任务分布不均的问题。其目的是提升训练集的多样性。在均衡的任务配比下为微调学生模型,以缓解微调过程中的能力冲突和灾难性遗忘问题。
首先,我们训练了一个指令任务分类模型(Deberta v3)识别和分类训练集中的任务类型,给每条指令打上显示的任务标签。然后通过任务标签重采样,使数据集中的任务分布更均衡,并且增强逻辑推理和编程任务的占比。基于我们的采样概率,教师模型扩展种子数据生成了新指令问答对,这些新数据与原有数据在难度上相近。
image.png

我们针对任务特点增强了教师模型标注的回答格式。如下所示:
image.png

多轮迭代优化

image.png

3. 实验结果

实验结果表明,使用 TAPIR 框架训练的学生语言模型在较少的训练数据下,其性能超过了更大的指令调整模型和其他蒸馏基线方法。具体地说,TAPIR 训练的模型在 AlpacaEval 2.0基准测试中取得了7.80的胜率,优于 Vicuna 13B 和 LLaMA2-Chat 13B,即便其培训数据和参数量仅为后者的一半。此外,在 MT-Bench 基准测试中,该模型在角色扮演、推理、数学、编程和人文学科等子任务中,表现优于 LLaMA2 7B Chat 基线模型。为验证 TAPIR 框架在不同规模模型上的一致性,我们在 Qwen1.5-Chat 系列模型上做了实验,结果显示 TAPIR 能有效提升模型的指令遵循能力。
image.png
image.png

TAPIR-7B 模型例子如下所示。在角色扮演任务中,语言模型扮演体育解说评论员。TAPIR-7B 生动地描述了比赛的最后胜利时刻并表现出色,而 Lion-7B 只是提供了如何评论的分析,没有完全执行任务,LLaMA2-Chat 则误解了指令。
image.png

参考文献

  • Li, M., Chen, L., Chen, J., He, S., Huang, H., Gu, J., & Zhou, T. Reflection-Tuning: Data Recycling Improves LLM Instruction-Tuning. ArXiv, abs/2310.11716.

  • Song, C., Zhou, Z., Yan, J., Fei, Y., Lan, Z., & Zhang, Y. Dynamics of Instruction Tuning: Each Ability of Large Language Models Has Its Own Growth Pace. ArXiv, abs/2310.19651.

  • Jiang, Y., Chan, C., Chen, M., & Wang, W. Lion: Adversarial Distillation of Proprietary Large Language Models. EMNLP 2023.

论文信息

论文名字:Distilling Instruction-following Abilities of Large Language Models with Task-aware Curriculum Planning
论文作者:岳元浩、汪诚愚、黄俊、王鹏
论文pdf链接https://arxiv.org/pdf/2405.13448

阿里云人工智能平台 PAI 长期招聘研究实习生。团队专注于深度学习算法研究与应用,重点聚焦大语言模型和多模态 AIGC 大模型的应用算法研究和应用。简历投递和咨询:chengyu.wcy@alibaba-inc.com。

相关实践学习
使用PAI-EAS一键部署ChatGLM及LangChain应用
本场景中主要介绍如何使用模型在线服务(PAI-EAS)部署ChatGLM的AI-Web应用以及启动WebUI进行模型推理,并通过LangChain集成自己的业务数据。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
8天前
|
存储 算法 安全
2024重生之回溯数据结构与算法系列学习之串(12)【无论是王道考研人还是IKUN都能包会的;不然别给我家鸽鸽丟脸好嘛?】
数据结构与算法系列学习之串的定义和基本操作、串的储存结构、基本操作的实现、朴素模式匹配算法、KMP算法等代码举例及图解说明;【含常见的报错问题及其对应的解决方法】你个小黑子;这都学不会;能不能不要给我家鸽鸽丢脸啊~除了会黑我家鸽鸽还会干嘛?!!!
2024重生之回溯数据结构与算法系列学习之串(12)【无论是王道考研人还是IKUN都能包会的;不然别给我家鸽鸽丟脸好嘛?】
|
24天前
|
缓存 算法 Java
JVM知识体系学习六:JVM垃圾是什么、GC常用垃圾清除算法、堆内存逻辑分区、栈上分配、对象何时进入老年代、有关老年代新生代的两个问题、常见的垃圾回收器、CMS
这篇文章详细介绍了Java虚拟机(JVM)中的垃圾回收机制,包括垃圾的定义、垃圾回收算法、堆内存的逻辑分区、对象的内存分配和回收过程,以及不同垃圾回收器的工作原理和参数设置。
48 4
JVM知识体系学习六:JVM垃圾是什么、GC常用垃圾清除算法、堆内存逻辑分区、栈上分配、对象何时进入老年代、有关老年代新生代的两个问题、常见的垃圾回收器、CMS
|
25天前
|
算法
动态规划算法学习三:0-1背包问题
这篇文章是关于0-1背包问题的动态规划算法详解,包括问题描述、解决步骤、最优子结构性质、状态表示和递推方程、算法设计与分析、计算最优值、算法实现以及对算法缺点的思考。
55 2
动态规划算法学习三:0-1背包问题
|
8天前
|
算法 安全 搜索推荐
2024重生之回溯数据结构与算法系列学习(8)【无论是王道考研人还是IKUN都能包会的;不然别给我家鸽鸽丢脸好嘛?】
数据结构王道第2.3章之IKUN和I原达人之数据结构与算法系列学习x单双链表精题详解、数据结构、C++、排序算法、java、动态规划你个小黑子;这都学不会;能不能不要给我家鸽鸽丢脸啊~除了会黑我家鸽鸽还会干嘛?!!!
|
8天前
|
存储 算法 安全
2024重生之回溯数据结构与算法系列学习之顺序表【无论是王道考研人还真爱粉都能包会的;不然别给我家鸽鸽丢脸好嘛?】
顺序表的定义和基本操作之插入;删除;按值查找;按位查找等具体详解步骤以及举例说明
|
8天前
|
算法 安全 搜索推荐
2024重生之回溯数据结构与算法系列学习之单双链表精题详解(9)【无论是王道考研人还是IKUN都能包会的;不然别给我家鸽鸽丢脸好嘛?】
数据结构王道第2.3章之IKUN和I原达人之数据结构与算法系列学习x单双链表精题详解、数据结构、C++、排序算法、java、动态规划你个小黑子;这都学不会;能不能不要给我家鸽鸽丢脸啊~除了会黑我家鸽鸽还会干嘛?!!!
|
8天前
|
存储 Web App开发 算法
2024重生之回溯数据结构与算法系列学习之单双链表【无论是王道考研人还是IKUN都能包会的;不然别给我家鸽鸽丢脸好嘛?】
数据结构之单双链表按位、值查找;[前后]插入;删除指定节点;求表长、静态链表等代码及具体思路详解步骤;举例说明、注意点及常见报错问题所对应的解决方法
|
8天前
|
算法 安全 NoSQL
2024重生之回溯数据结构与算法系列学习之栈和队列精题汇总(10)【无论是王道考研人还是IKUN都能包会的;不然别给我家鸽鸽丢脸好嘛?】
数据结构王道第3章之IKUN和I原达人之数据结构与算法系列学习栈与队列精题详解、数据结构、C++、排序算法、java、动态规划你个小黑子;这都学不会;能不能不要给我家鸽鸽丢脸啊~除了会黑我家鸽鸽还会干嘛?!!!
|
8天前
|
算法 安全 NoSQL
2024重生之回溯数据结构与算法系列学习之顺序表习题精讲【无论是王道考研人还真爱粉都能包会的;不然别给我家鸽鸽丢脸好嘛?】
顺序表的定义和基本操作之插入;删除;按值查找;按位查找习题精讲等具体详解步骤以及举例说明
|
8天前
|
存储 算法 安全
2024重生之回溯数据结构与算法系列学习【无论是王道考研人还真爱粉都能包会的;不然别给我家鸽鸽丢脸好嘛?】
数据结构的基本概念;算法的基本概念、特性以及时间复杂度、空间复杂度等举例说明;【含常见的报错问题及其对应的解决方法】