Meta开发System 2蒸馏技术,Llama 2对话模型任务准确率接近100%

简介: 【8月更文挑战第1天】Meta开发的System 2蒸馏技术可将大型语言模型从System 2模式转换至System 1模式, 实现直接生成最终答案而非中间推理步骤。此技术显著提升了性能, 如Llama 2对话模型准确率接近100%。通过自监督学习及方法如Rephrase and Respond、System 2注意力(S2A) 和 Branch-Solve-Merge(BSM), 模型在多项任务上取得优异成绩。[论文](https://arxiv.org/pdf/2407.06023v2)

Meta的研究人员最近提出了一种名为System 2蒸馏的技术,该技术旨在将大型语言模型(LLM)的推理能力从System 2模式(需要生成中间推理步骤)转化为System 1模式(直接生成最终答案)。这种技术在多个任务上取得了显著的成果,其中Llama 2对话模型在一项任务上的准确率甚至接近100%。

System 2蒸馏技术的核心思想是,通过在训练数据上应用System 2方法(如Chain-of-Thought、Rephrase and Respond等)生成高质量的输出,然后将这些输出蒸馏回LLM的直接生成能力,从而提高LLM的性能。这种技术的关键在于,它能够将System 2方法的推理能力转化为LLM的直接生成能力,从而在保持性能的同时减少推理成本。

在论文中,研究人员首先介绍了System 2蒸馏技术的基本原理和方法。他们将LLM的直接生成能力定义为System 1模式,将需要生成中间推理步骤的能力定义为System 2模式。然后,他们提出了一种基于自监督学习的方法,通过在无标注数据上应用System 2方法生成高质量的输出,并将这些输出作为训练数据来微调LLM的参数。

为了验证System 2蒸馏技术的有效性,研究人员在多个任务上进行了实验。首先,他们考虑了Rephrase and Respond方法,该方法通过让LLM重新表述问题并生成答案来提高性能。研究人员在两个任务上评估了该方法:最后一个字母连接任务和硬币翻转推理任务。在最后一个字母连接任务中,LLM需要连接给定单词的最后一个字母。通过应用Rephrase and Respond方法,研究人员发现LLM的准确率从30%提高到98%。在硬币翻转推理任务中,LLM需要根据给定的翻转序列预测最终的结果。通过应用Rephrase and Respond方法,研究人员发现LLM的准确率从56%提高到75%。

接下来,研究人员考虑了System 2注意力(S2A)方法,该方法通过让LLM在生成答案之前关注输入中的特定信息来减少推理错误。他们使用SycophancyEval数据集评估了该方法,该数据集包含有偏见的信息,已知会对LLM的性能产生负面影响。通过应用S2A方法,研究人员发现LLM在有偏见输入上的准确率从51%提高到81%,在无偏见输入上的准确率从73%提高到78%。

最后,研究人员考虑了Branch-Solve-Merge(BSM)方法,该方法通过将任务分解为多个子任务并并行解决它们来提高性能。他们使用Open Assistant数据集评估了该方法,该数据集包含用户查询和候选答案。通过应用BSM方法,研究人员发现LLM在两个评估集上的准确率都得到了显著提高。

除了这些实验结果,研究人员还讨论了System 2蒸馏技术的局限性。他们指出,并非所有任务都适合蒸馏,特别是那些需要复杂推理的任务,如Chain-of-Thought方法。此外,他们还指出,由于自监督学习的性质,模型的性能可能受到所应用的过滤器的影响。

论文地址:https://arxiv.org/pdf/2407.06023v2

目录
相关文章
|
11月前
|
人工智能 边缘计算 自然语言处理
DistilQwen2:通义千问大模型的知识蒸馏实践
DistilQwen2 是基于 Qwen2大模型,通过知识蒸馏进行指令遵循效果增强的、参数较小的语言模型。本文将介绍DistilQwen2 的技术原理、效果评测,以及DistilQwen2 在阿里云人工智能平台 PAI 上的使用方法,和在各开源社区的下载使用教程。
|
3月前
|
机器学习/深度学习 人工智能 API
AI-Compass LLM训练框架生态:整合ms-swift、Unsloth、Megatron-LM等核心框架,涵盖全参数/PEFT训练与分布式优化
AI-Compass LLM训练框架生态:整合ms-swift、Unsloth、Megatron-LM等核心框架,涵盖全参数/PEFT训练与分布式优化
|
7月前
|
人工智能 边缘计算 自然语言处理
DistilQwen2.5-R1:蒸馏黑科技!32B推理能力塞进3B小模型,推理速度狂飙300%
阿里巴巴最新发布的DistilQwen2.5-R1系列模型通过知识蒸馏技术,在保持高性能的同时大幅降低计算资源需求,7B模型性能甚至可媲美32B大模型。
247 11
DistilQwen2.5-R1:蒸馏黑科技!32B推理能力塞进3B小模型,推理速度狂飙300%
|
SQL 关系型数据库 MySQL
mysql下出现Unknown column ‘xx‘ in ‘on clause‘的完全解决方法
mysql下出现Unknown column ‘xx‘ in ‘on clause‘的完全解决方法
848 0
|
12月前
|
IDE Java 测试技术
Java“NoSuchMethodFoundError”问题解决
Java中“NoSuchMethodError”错误通常发生在运行时,方法存在但在运行时找不到。解决方法包括:确保所有类文件版本一致、检查方法签名和访问权限、清理和重新编译项目。
397 2
|
运维 Devops 测试技术
CICD与DevOps的详解与比较
CICD与DevOps的详解与比较
1071 1
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
深度学习在自然语言处理中的突破与未来展望###
本文深入探讨了深度学习技术在自然语言处理(NLP)领域的最新进展,重点分析了其在该领域实现的重大突破及面临的挑战。通过对比传统方法与深度学习模型的差异,阐述了深度学习如何推动NLP领域的边界拓展,并对未来发展趋势进行了展望。 ###
|
人工智能 资源调度 Kubernetes
Koordinator 异构资源/任务调度实践
Koordinator 异构资源/任务调度实践
16031 10
|
前端开发 JavaScript 程序员
10个适合后端程序员的前端框架
10个适合后端程序员的前端框架
711 0