Meta开发System 2蒸馏技术,Llama 2对话模型任务准确率接近100%

简介: 【8月更文挑战第1天】Meta开发的System 2蒸馏技术可将大型语言模型从System 2模式转换至System 1模式, 实现直接生成最终答案而非中间推理步骤。此技术显著提升了性能, 如Llama 2对话模型准确率接近100%。通过自监督学习及方法如Rephrase and Respond、System 2注意力(S2A) 和 Branch-Solve-Merge(BSM), 模型在多项任务上取得优异成绩。[论文](https://arxiv.org/pdf/2407.06023v2)

Meta的研究人员最近提出了一种名为System 2蒸馏的技术,该技术旨在将大型语言模型(LLM)的推理能力从System 2模式(需要生成中间推理步骤)转化为System 1模式(直接生成最终答案)。这种技术在多个任务上取得了显著的成果,其中Llama 2对话模型在一项任务上的准确率甚至接近100%。

System 2蒸馏技术的核心思想是,通过在训练数据上应用System 2方法(如Chain-of-Thought、Rephrase and Respond等)生成高质量的输出,然后将这些输出蒸馏回LLM的直接生成能力,从而提高LLM的性能。这种技术的关键在于,它能够将System 2方法的推理能力转化为LLM的直接生成能力,从而在保持性能的同时减少推理成本。

在论文中,研究人员首先介绍了System 2蒸馏技术的基本原理和方法。他们将LLM的直接生成能力定义为System 1模式,将需要生成中间推理步骤的能力定义为System 2模式。然后,他们提出了一种基于自监督学习的方法,通过在无标注数据上应用System 2方法生成高质量的输出,并将这些输出作为训练数据来微调LLM的参数。

为了验证System 2蒸馏技术的有效性,研究人员在多个任务上进行了实验。首先,他们考虑了Rephrase and Respond方法,该方法通过让LLM重新表述问题并生成答案来提高性能。研究人员在两个任务上评估了该方法:最后一个字母连接任务和硬币翻转推理任务。在最后一个字母连接任务中,LLM需要连接给定单词的最后一个字母。通过应用Rephrase and Respond方法,研究人员发现LLM的准确率从30%提高到98%。在硬币翻转推理任务中,LLM需要根据给定的翻转序列预测最终的结果。通过应用Rephrase and Respond方法,研究人员发现LLM的准确率从56%提高到75%。

接下来,研究人员考虑了System 2注意力(S2A)方法,该方法通过让LLM在生成答案之前关注输入中的特定信息来减少推理错误。他们使用SycophancyEval数据集评估了该方法,该数据集包含有偏见的信息,已知会对LLM的性能产生负面影响。通过应用S2A方法,研究人员发现LLM在有偏见输入上的准确率从51%提高到81%,在无偏见输入上的准确率从73%提高到78%。

最后,研究人员考虑了Branch-Solve-Merge(BSM)方法,该方法通过将任务分解为多个子任务并并行解决它们来提高性能。他们使用Open Assistant数据集评估了该方法,该数据集包含用户查询和候选答案。通过应用BSM方法,研究人员发现LLM在两个评估集上的准确率都得到了显著提高。

除了这些实验结果,研究人员还讨论了System 2蒸馏技术的局限性。他们指出,并非所有任务都适合蒸馏,特别是那些需要复杂推理的任务,如Chain-of-Thought方法。此外,他们还指出,由于自监督学习的性质,模型的性能可能受到所应用的过滤器的影响。

论文地址:https://arxiv.org/pdf/2407.06023v2

目录
相关文章
|
4月前
|
人工智能 自然语言处理 测试技术
权重、代码、数据集全开源,性能超越Mistral-7B,苹果小模型来了
【8月更文挑战第12天】DCLM是由多家机构联合推出的全新测试平台,旨在通过优化数据集增强语言模型性能。其核心贡献包括一个含240万亿token的标准化语料库及有效的预训练方案。DCLM-BASELINE数据集成功训练出7B参数模型,在MMLU上5-shot准确率达64%,超越Mistral-7B,且计算成本降低40%。尽管存在局限,但该项目已全开源,为社区提供宝贵资源,推动语言模型发展。[论文链接](https://arxiv.org/pdf/2406.11794)
171 60
|
3月前
|
搜索推荐 算法
模型小,还高效!港大最新推荐系统EasyRec:零样本文本推荐能力超越OpenAI、Bert
【9月更文挑战第21天】香港大学研究者开发了一种名为EasyRec的新推荐系统,利用语言模型的强大文本理解和生成能力,解决了传统推荐算法在零样本学习场景中的局限。EasyRec通过文本-行为对齐框架,结合对比学习和协同语言模型调优,提升了推荐准确性。实验表明,EasyRec在多个真实世界数据集上的表现优于现有模型,但其性能依赖高质量文本数据且计算复杂度较高。论文详见:http://arxiv.org/abs/2408.08821
78 7
|
4月前
|
数据采集 人工智能
4轮暴训,Llama 7B击败GPT-4!Meta等让LLM分饰三角自评自进化
【8月更文挑战第20天】近期,Meta等机构提出了一项让大型语言模型(LLM)自我评估与改进的研究,通过“Meta-Rewarding”方法,使模型分饰生成、评估及改进三角色,实现了高效自我迭代。实验证明,经四轮强化训练后,Llama 7B模型性能大幅提升,在多项任务上超越GPT-4等先进模型,展示了LLM自我优化的巨大潜力。详情参阅论文:https://arxiv.org/abs/2407.19594。
50 7
|
6月前
|
机器学习/深度学习 人工智能
可解释性研究新突破:OpenAI成功训练1600万个特征的自动编码器
【6月更文挑战第13天】OpenAI团队在可解释性研究上取得进展,训练出拥有1600万特征的自动编码器来解析GPT-4。此模型旨在揭示语言模型的工作原理,提高AI透明度。自动编码器从低维度特征空间重建输入数据,研究通过稀疏特征增强可解释性。虽然规模扩大带来解释性提升,但计算资源需求大,且评估指标的全面性仍受质疑。[论文链接](https://cdn.openai.com/papers/sparse-autoencoders.pdf)
81 1
|
7月前
|
机器学习/深度学习 自然语言处理 计算机视觉
【大模型】小样本学习的概念及其在微调 LLM 中的应用
【5月更文挑战第5天】【大模型】小样本学习的概念及其在微调 LLM 中的应用
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
LLM资料大全:文本多模态大模型、垂直领域微调模型、STF数据集、训练微调部署框架、提示词工程等
LLM资料大全:文本多模态大模型、垂直领域微调模型、STF数据集、训练微调部署框架、提示词工程等
LLM资料大全:文本多模态大模型、垂直领域微调模型、STF数据集、训练微调部署框架、提示词工程等
|
机器学习/深度学习 人工智能 物联网
快速玩转 Llama2!机器学习 PAI 最佳实践(二)—全参数微调训练
本实践将采用阿里云机器学习平台PAI-DSW模块针对 Llama-2-7B-Chat 进行全参数微调。PAI-DSW是交互式建模平台,该实践适合需要定制化微调模型,并追求模型调优效果的开发者。
2272 1
|
机器学习/深度学习 自然语言处理 算法
Gzip+ kNN文本分类竟然击败Transformers:无需预训练、14行代码实现
Gzip+ kNN文本分类竟然击败Transformers:无需预训练、14行代码实现
137 0
|
机器学习/深度学习 资源调度 自然语言处理
深度学习进阶篇-国内预训练模型[6]:ERNIE-Doc、THU-ERNIE、K-Encoder融合文本信息和KG知识;原理和模型结构详解。
深度学习进阶篇-国内预训练模型[6]:ERNIE-Doc、THU-ERNIE、K-Encoder融合文本信息和KG知识;原理和模型结构详解。
11396 0
深度学习进阶篇-国内预训练模型[6]:ERNIE-Doc、THU-ERNIE、K-Encoder融合文本信息和KG知识;原理和模型结构详解。
|
机器学习/深度学习 人工智能 安全
没有RLHF,一样媲美GPT-4、Bard,Meta发布650亿参数语言模型LIMA
没有RLHF,一样媲美GPT-4、Bard,Meta发布650亿参数语言模型LIMA
119 0

热门文章

最新文章