公理训练让LLM学会因果推理:6700万参数模型比肩万亿参数级GPT-4

简介: 【8月更文挑战第3天】新论文提出“公理训练”法,使仅有6700万参数的语言模型掌握因果推理,性能媲美万亿级GPT-4。研究通过大量合成数据示例教授模型因果公理,实现有效推理并泛化至复杂图结构。尽管面临合成数据需求大及复杂关系处理限制,此法仍为语言模型的因果理解开辟新途径。[链接: https://arxiv.org/pdf/2407.07612]

最近,一篇关于语言模型(LLM)的论文引起了广泛关注。该论文提出了一种名为"公理训练"的新方法,通过该方法,一个只有6700万参数的LLM能够学会因果推理,并在多个任务上表现出与万亿参数级的GPT-4相媲美的性能。

论文中,研究人员首先指出了因果推理在现实世界中的重要性。他们指出,对于基于文本的AI系统来说,因果推理是一项基本技能,因为它涉及到理解和预测现实世界中事件之间的因果关系。然而,由于干预性数据的获取成本较高,研究人员开始探索是否可以通过被动数据来教授因果推理。

为了解决这个问题,研究人员提出了一种名为"公理训练"的新方法。在这种方法中,研究人员首先定义了一系列因果公理,然后通过向模型提供这些公理的多个示例,让模型学会应用这些公理。具体来说,他们将每个因果公理表示为一个三元组,其中包含前提、假设和结论。然后,他们通过改变变量名称、数量和顺序等方式,生成了大量的合成数据,用于训练模型。

在实验中,研究人员使用了一种基于Transformer的模型,该模型具有6700万参数。他们首先在简单的因果链上训练模型,然后在更复杂的图结构上进行测试,包括更长的因果链、具有分支的图等。结果显示,经过公理训练的模型能够很好地泛化到新的图结构上,并在多个任务上表现出与GPT-4相媲美的性能。

然而,研究人员也指出了公理训练的一些局限性。首先,公理训练需要大量的合成数据,这可能会增加训练的计算成本。其次,公理训练可能无法处理一些复杂的因果关系,例如那些涉及多个变量之间的相互作用的关系。最后,公理训练可能无法处理那些在训练数据中没有明确表示的因果关系。

尽管如此,研究人员认为,公理训练为教授LLM因果推理提供了一种有前途的方法。他们指出,通过将因果公理表示为自然语言,并使用合成数据进行训练,可以有效地教授模型因果推理的能力。此外,由于公理训练可以应用于任何可以表示为自然语言的因果公理,因此它具有广泛的应用潜力。

论文地址:https://arxiv.org/pdf/2407.07612

目录
相关文章
|
23天前
|
知识图谱
ARTIST的中文文图生成模型问题之通过GPT生成图像序列的问题如何解决
ARTIST的中文文图生成模型问题之通过GPT生成图像序列的问题如何解决
|
7天前
|
数据可视化 Swift
小钢炮进化,MiniCPM 3.0 开源!4B参数超GPT3.5性能,无限长文本,超强RAG三件套!模型推理、微调实战来啦!
旗舰端侧模型面壁「小钢炮」系列进化为全新 MiniCPM 3.0 基座模型,再次以小博大,以 4B 参数,带来超越 GPT-3.5 的性能。并且,量化后仅 2GB 内存,端侧友好。
小钢炮进化,MiniCPM 3.0 开源!4B参数超GPT3.5性能,无限长文本,超强RAG三件套!模型推理、微调实战来啦!
|
1月前
长上下文能力只是吹牛?最强GPT-4o正确率仅55.8%,开源模型不如瞎蒙
【8月更文挑战第10天】新研究NoCha挑战显示,即使是顶级的大型语言模型GPT-4o,在处理长篇幅文本时正确率仅55.8%,低于人类直观水平。该挑战基于近作英文小说,检验模型对整本书信息的理解与推理能力。结果显示,模型在全局推理上的表现不佳,倾向于依赖局部信息而非整体上下文,尤其是在复杂推理需求高的科幻小说上表现更弱。这一发现揭示了当前模型在处理长上下文任务上的局限性。论文链接: [https://arxiv.org/pdf/2406.16264](https://arxiv.org/pdf/2406.16264)。
115 65
|
1月前
|
人工智能
ECCV 2024:让GPT-4图像理解更易出错,全新策略增强VLP模型对抗迁移性
【8月更文挑战第13天】在AI领域,视觉语言预训练(VLP)模型展现出了强大的图像与文本理解能力,但也易受多模态对抗样本攻击。为此,研究者提出了Cross-Clean-Adversarial Regional Diversification (CCAR-Div)策略,通过增强对抗样本多样性以提升VLP模型的对抗迁移性。此策略在对抗轨迹交集区域采样,增加样本多样性,并利用模态交互作用。经Flickr30K和MSCOCO数据集验证,CCAR-Div能有效提高跨模型与跨任务场景下的对抗迁移性,如使用ALBEF生成的对抗样本攻击TCL时,成功率高达95.58%。
110 60
|
6天前
|
人工智能 自然语言处理 数据挖掘
【通义】AI视界|性能超越GPT-4o?最强大的开源AI模型来了……
本文介绍了五项最新AI技术动态,包括性能超越GPT-4o的开源AI模型Reflection70B、智谱清言App限时免费的视频通话功能、哈佛医学院研发的癌症诊断AI模型CHIEF、Replit推出的AI编程助手,以及英特尔与日本AIST合作设立的芯片制造研发中心。这些进展展示了AI领域的快速创新与广泛应用。更多详情,请访问通义官网体验。
|
11天前
|
编解码 定位技术 计算机视觉
多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准
【9月更文挑战第2天】浙江大学领衔的研究团队针对多模态大型模型(MLLM)在抽象图像理解和视觉推理上的不足,提出了一种利用GPT-4合成数据构建多模态基准的方法。该研究通过合成数据提高了MLLM处理图表、文档等复杂图像的能力,并构建了一个包含11,193条指令的基准,涵盖8种视觉场景。实验表明,这种方法能显著提升模型性能,但依赖闭源模型和高计算成本是其局限。论文详细内容见:https://arxiv.org/pdf/2407.07053
40 10
|
24天前
|
数据采集 人工智能
4轮暴训,Llama 7B击败GPT-4!Meta等让LLM分饰三角自评自进化
【8月更文挑战第20天】近期,Meta等机构提出了一项让大型语言模型(LLM)自我评估与改进的研究,通过“Meta-Rewarding”方法,使模型分饰生成、评估及改进三角色,实现了高效自我迭代。实验证明,经四轮强化训练后,Llama 7B模型性能大幅提升,在多项任务上超越GPT-4等先进模型,展示了LLM自我优化的巨大潜力。详情参阅论文:https://arxiv.org/abs/2407.19594。
31 7
|
23天前
|
机器学习/深度学习 自然语言处理 测试技术
87.8%准确率赶超GPT-4o登顶!谷歌DeepMind发布自动评估模型FLAMe
【8月更文挑战第21天】谷歌DeepMind推出的FLAMe(Foundational Large Autorater Models)是一种基于深度学习的自动评估模型,旨在通过分析输入文本与参考答案的差异来评估大型语言模型(LLMs)的输出质量。FLAMe采用多任务学习方法,在涵盖500万个手工评分的100多种质量评估任务上训练,展现出强大的泛化能力。在RewardBench基准测试中,FLAMe以87.8%的准确率超越GPT-4等先进模型。这一突破不仅降低了人工评估成本,还提高了评估效率,为自然语言处理等领域带来革新。
28 1
|
30天前
|
人工智能 安全 测试技术
Google DeepMind推出大模型 Gemini (vs GPT4):规模最大、能力最强的人工智能模型
Google DeepMind推出大模型 Gemini (vs GPT4):规模最大、能力最强的人工智能模型
55 4
|
15天前
|
数据采集 SQL 人工智能
如何基于gpt模型抢先打造成功的产品
如何基于gpt模型抢先打造成功的产品

热门文章

最新文章