Meta开发System 2蒸馏技术,Llama 2对话模型任务准确率接近100%

简介: 【8月更文挑战第1天】Meta开发的System 2蒸馏技术可将大型语言模型从System 2模式转换至System 1模式, 实现直接生成最终答案而非中间推理步骤。此技术显著提升了性能, 如Llama 2对话模型准确率接近100%。通过自监督学习及方法如Rephrase and Respond、System 2注意力(S2A) 和 Branch-Solve-Merge(BSM), 模型在多项任务上取得优异成绩。[论文](https://arxiv.org/pdf/2407.06023v2)

Meta的研究人员最近提出了一种名为System 2蒸馏的技术,该技术旨在将大型语言模型(LLM)的推理能力从System 2模式(需要生成中间推理步骤)转化为System 1模式(直接生成最终答案)。这种技术在多个任务上取得了显著的成果,其中Llama 2对话模型在一项任务上的准确率甚至接近100%。

System 2蒸馏技术的核心思想是,通过在训练数据上应用System 2方法(如Chain-of-Thought、Rephrase and Respond等)生成高质量的输出,然后将这些输出蒸馏回LLM的直接生成能力,从而提高LLM的性能。这种技术的关键在于,它能够将System 2方法的推理能力转化为LLM的直接生成能力,从而在保持性能的同时减少推理成本。

在论文中,研究人员首先介绍了System 2蒸馏技术的基本原理和方法。他们将LLM的直接生成能力定义为System 1模式,将需要生成中间推理步骤的能力定义为System 2模式。然后,他们提出了一种基于自监督学习的方法,通过在无标注数据上应用System 2方法生成高质量的输出,并将这些输出作为训练数据来微调LLM的参数。

为了验证System 2蒸馏技术的有效性,研究人员在多个任务上进行了实验。首先,他们考虑了Rephrase and Respond方法,该方法通过让LLM重新表述问题并生成答案来提高性能。研究人员在两个任务上评估了该方法:最后一个字母连接任务和硬币翻转推理任务。在最后一个字母连接任务中,LLM需要连接给定单词的最后一个字母。通过应用Rephrase and Respond方法,研究人员发现LLM的准确率从30%提高到98%。在硬币翻转推理任务中,LLM需要根据给定的翻转序列预测最终的结果。通过应用Rephrase and Respond方法,研究人员发现LLM的准确率从56%提高到75%。

接下来,研究人员考虑了System 2注意力(S2A)方法,该方法通过让LLM在生成答案之前关注输入中的特定信息来减少推理错误。他们使用SycophancyEval数据集评估了该方法,该数据集包含有偏见的信息,已知会对LLM的性能产生负面影响。通过应用S2A方法,研究人员发现LLM在有偏见输入上的准确率从51%提高到81%,在无偏见输入上的准确率从73%提高到78%。

最后,研究人员考虑了Branch-Solve-Merge(BSM)方法,该方法通过将任务分解为多个子任务并并行解决它们来提高性能。他们使用Open Assistant数据集评估了该方法,该数据集包含用户查询和候选答案。通过应用BSM方法,研究人员发现LLM在两个评估集上的准确率都得到了显著提高。

除了这些实验结果,研究人员还讨论了System 2蒸馏技术的局限性。他们指出,并非所有任务都适合蒸馏,特别是那些需要复杂推理的任务,如Chain-of-Thought方法。此外,他们还指出,由于自监督学习的性质,模型的性能可能受到所应用的过滤器的影响。

论文地址:https://arxiv.org/pdf/2407.06023v2

目录
相关文章
|
5月前
|
自然语言处理 开发者
衡量大语言模型表现的 AlpacaEval 指标
衡量大语言模型表现的 AlpacaEval 指标
|
17天前
|
人工智能 自然语言处理 算法
魔搭上新啦! 智源千万级指令微调数据集Infinity-Instruct,Llama3.1仅微调即可接近GPT-4
智源研究院在今年6月推出了千万级指令微调数据集Infinity Instruct。Infinity Instruct在 Huggingface等平台发布后,快速到达了Huggingface Dataset的Trending第一
魔搭上新啦! 智源千万级指令微调数据集Infinity-Instruct,Llama3.1仅微调即可接近GPT-4
|
2月前
|
人工智能 自然语言处理 测试技术
权重、代码、数据集全开源,性能超越Mistral-7B,苹果小模型来了
【8月更文挑战第12天】DCLM是由多家机构联合推出的全新测试平台,旨在通过优化数据集增强语言模型性能。其核心贡献包括一个含240万亿token的标准化语料库及有效的预训练方案。DCLM-BASELINE数据集成功训练出7B参数模型,在MMLU上5-shot准确率达64%,超越Mistral-7B,且计算成本降低40%。尽管存在局限,但该项目已全开源,为社区提供宝贵资源,推动语言模型发展。[论文链接](https://arxiv.org/pdf/2406.11794)
157 60
|
2月前
|
数据采集 人工智能
4轮暴训,Llama 7B击败GPT-4!Meta等让LLM分饰三角自评自进化
【8月更文挑战第20天】近期,Meta等机构提出了一项让大型语言模型(LLM)自我评估与改进的研究,通过“Meta-Rewarding”方法,使模型分饰生成、评估及改进三角色,实现了高效自我迭代。实验证明,经四轮强化训练后,Llama 7B模型性能大幅提升,在多项任务上超越GPT-4等先进模型,展示了LLM自我优化的巨大潜力。详情参阅论文:https://arxiv.org/abs/2407.19594。
38 7
|
2月前
|
机器学习/深度学习 数据采集 人工智能
【机器学习】QLoRA:基于PEFT亲手量化微调Qwen2大模型
【机器学习】QLoRA:基于PEFT亲手量化微调Qwen2大模型
171 0
【机器学习】QLoRA:基于PEFT亲手量化微调Qwen2大模型
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
【AI大模型】Transformers大模型库(九):大模型微调之计算微调参数占比
【AI大模型】Transformers大模型库(九):大模型微调之计算微调参数占比
41 0
|
4月前
|
自然语言处理 测试技术 人工智能
Meta等最新研究:多token预测,提升大模型推理效率
【6月更文挑战第2天】Meta等机构的研究人员提出了一种新的大型语言模型训练方法——多token预测,以提高样本效率和推理速度。该方法要求模型同时预测多个接下来的token,而非传统的单一token预测,从而减少局部模式依赖,提高模型的宏观决策能力。实验表明,这种方法在提升模型性能和推理速度方面效果显著,尤其在编程任务中表现出色。然而,多token预测可能需要更多计算资源,并不适用于所有NLP任务,其在自然语言处理领域的应用仍有待深入研究。论文链接:https://arxiv.org/abs/2404.19737
107 7
|
5月前
|
机器学习/深度学习 人工智能 Oracle
System 2 Attention:可以提高不同LLM问题的推理能力
推理正在成为大型语言模型(llm)关注的下一个主要领域。尽管llm拥有先进的能力,但大多数llm经常被简单的错误绊倒,显示出他们在推理方面的局限性。这些模型可能会被上下文中的不相关细节所误导,或者受到输入提示中的偏差的影响。而后一种倾向被称为谄媚,也就是说模型会更偏向与输入一致,而不管准确性如何。人们已经做出了各种努力来解决这些缺点,包括增加监督训练数据或应用强化学习方法。
118 2
|
机器学习/深度学习 人工智能 物联网
快速玩转 Llama2!机器学习 PAI 最佳实践(二)—全参数微调训练
本实践将采用阿里云机器学习平台PAI-DSW模块针对 Llama-2-7B-Chat 进行全参数微调。PAI-DSW是交互式建模平台,该实践适合需要定制化微调模型,并追求模型调优效果的开发者。
2128 1
|
人工智能 JSON 自然语言处理
基于中文金融知识的 LLaMA 系微调模型的智能问答系统:LLaMA大模型训练微调推理等详细教学
基于中文金融知识的 LLaMA 系微调模型的智能问答系统:LLaMA大模型训练微调推理等详细教学
 基于中文金融知识的 LLaMA 系微调模型的智能问答系统:LLaMA大模型训练微调推理等详细教学