公理训练让LLM学会因果推理:6700万参数模型比肩万亿参数级GPT-4

简介: 【8月更文挑战第3天】新论文提出“公理训练”法,使仅有6700万参数的语言模型掌握因果推理,性能媲美万亿级GPT-4。研究通过大量合成数据示例教授模型因果公理,实现有效推理并泛化至复杂图结构。尽管面临合成数据需求大及复杂关系处理限制,此法仍为语言模型的因果理解开辟新途径。[链接: https://arxiv.org/pdf/2407.07612]

最近,一篇关于语言模型(LLM)的论文引起了广泛关注。该论文提出了一种名为"公理训练"的新方法,通过该方法,一个只有6700万参数的LLM能够学会因果推理,并在多个任务上表现出与万亿参数级的GPT-4相媲美的性能。

论文中,研究人员首先指出了因果推理在现实世界中的重要性。他们指出,对于基于文本的AI系统来说,因果推理是一项基本技能,因为它涉及到理解和预测现实世界中事件之间的因果关系。然而,由于干预性数据的获取成本较高,研究人员开始探索是否可以通过被动数据来教授因果推理。

为了解决这个问题,研究人员提出了一种名为"公理训练"的新方法。在这种方法中,研究人员首先定义了一系列因果公理,然后通过向模型提供这些公理的多个示例,让模型学会应用这些公理。具体来说,他们将每个因果公理表示为一个三元组,其中包含前提、假设和结论。然后,他们通过改变变量名称、数量和顺序等方式,生成了大量的合成数据,用于训练模型。

在实验中,研究人员使用了一种基于Transformer的模型,该模型具有6700万参数。他们首先在简单的因果链上训练模型,然后在更复杂的图结构上进行测试,包括更长的因果链、具有分支的图等。结果显示,经过公理训练的模型能够很好地泛化到新的图结构上,并在多个任务上表现出与GPT-4相媲美的性能。

然而,研究人员也指出了公理训练的一些局限性。首先,公理训练需要大量的合成数据,这可能会增加训练的计算成本。其次,公理训练可能无法处理一些复杂的因果关系,例如那些涉及多个变量之间的相互作用的关系。最后,公理训练可能无法处理那些在训练数据中没有明确表示的因果关系。

尽管如此,研究人员认为,公理训练为教授LLM因果推理提供了一种有前途的方法。他们指出,通过将因果公理表示为自然语言,并使用合成数据进行训练,可以有效地教授模型因果推理的能力。此外,由于公理训练可以应用于任何可以表示为自然语言的因果公理,因此它具有广泛的应用潜力。

论文地址:https://arxiv.org/pdf/2407.07612

目录
相关文章
|
17天前
|
机器学习/深度学习 人工智能 监控
X-R1:3090也能训7B模型!开源框架X-R1把训练成本打下来了:10美元训出企业级LLM
X-R1 是一个基于强化学习的低成本训练框架,能够加速大规模语言模型的后训练开发。仅需4块3090或4090 GPU,1小时内完成训练,成本低于10美元。
95 5
X-R1:3090也能训7B模型!开源框架X-R1把训练成本打下来了:10美元训出企业级LLM
|
20天前
|
机器学习/深度学习 人工智能 测试技术
仅7B的模型数学推理能力完虐70B?MIT哈佛推出行动思维链COAT让LLM实现自我反思并探索新策略
Satori 是由 MIT 和哈佛大学等机构联合推出的 7B 参数大型语言模型,专注于提升推理能力,具备强大的自回归搜索和自我纠错功能。
89 6
仅7B的模型数学推理能力完虐70B?MIT哈佛推出行动思维链COAT让LLM实现自我反思并探索新策略
|
6天前
|
存储 Kubernetes 测试技术
企业级LLM推理部署新范式:基于ACK的DeepSeek蒸馏模型生产环境落地指南
企业级LLM推理部署新范式:基于ACK的DeepSeek蒸馏模型生产环境落地指南
29 12
|
1天前
|
Web App开发 人工智能 自然语言处理
GPT-5涌现能力可预测?UC伯克利仅使用当前模型检查点预测未来模型
加州大学伯克利分校的一项新研究提出了一种基于微调大型语言模型(LLM)的方法,以预测未来模型的涌现能力。通过在特定任务上微调现有模型并拟合参数化函数,研究团队能够在四个NLP基准测试中准确预测未来模型的能力。该方法为模型开发者和政策制定者提供了重要工具,但也存在局限性,如仅能预测4倍计算资源内的涌现现象。论文地址:https://arxiv.org/pdf/2411.16035。
15 1
|
6天前
|
机器学习/深度学习 搜索推荐 异构计算
LLM模型添加自定义Token代码示例:为Llama 3.2模型添加思考与回答标记
本文将介绍如何为大型语言模型(LLM)添加自定义token并进行训练,使模型能够有效地利用这些新增token。以Llama 3.2模型为基础,实现了类似DeepSeek R1中think和answer标记功能的扩展方法,通过监督微调使模型学习使用这些标记进行推理过程与答案输出的区分
19 0
LLM模型添加自定义Token代码示例:为Llama 3.2模型添加思考与回答标记
|
13天前
|
数据采集 人工智能 监控
Crawl4LLM:你的模型还在吃垃圾数据?CMU博士开源AI爬虫,自动筛选高价值网页,数据抓取质量飙升300%
Crawl4LLM 是清华大学和卡内基梅隆大学联合开发的智能爬虫系统,通过网页价值评估和优先级队列技术,显著提升大语言模型预训练数据采集效率。
86 4
|
2月前
|
自然语言处理 算法 JavaScript
面向长文本的多模型协作摘要架构:多LLM文本摘要方法
多LLM摘要框架通过生成和评估两个步骤处理长文档,支持集中式和分散式两种策略。每个LLM独立生成文本摘要,集中式方法由单一LLM评估并选择最佳摘要,而分散式方法则由多个LLM共同评估,达成共识。论文提出两阶段流程:先分块摘要,再汇总生成最终摘要。实验结果显示,多LLM框架显著优于单LLM基准,性能提升最高达3倍,且仅需少量LLM和一轮生成评估即可获得显著效果。
83 10
面向长文本的多模型协作摘要架构:多LLM文本摘要方法
|
26天前
|
存储 Kubernetes 测试技术
企业级LLM推理部署新范式:基于ACK的DeepSeek蒸馏模型生产环境落地指南
本教程演示如何在ACK中使用vLLM框架快速部署DeepSeek R1模型推理服务。
174 18
|
24天前
|
自然语言处理 自动驾驶 机器人
续命Scaling Law?世界模型GPT-4o让智能体超级规划,OSU华人一作
GPT-4o是OpenAI推出的先进语言模型,不仅在自然语言处理上表现出色,更在智能体规划领域展现了巨大潜力。它能模拟预测行动结果,提供决策支持,实现高效智能规划。适用于自动驾驶、机器人等领域,助力复杂任务的优化执行。尽管面临计算资源和环境一致性等挑战,GPT-4o仍为智能体规划带来新机遇。论文地址:https://arxiv.org/abs/2411.06559
30 2
|
8月前
|
存储 SQL 数据库
Python 金融编程第二版(GPT 重译)(四)(4)
Python 金融编程第二版(GPT 重译)(四)
77 3

热门文章

最新文章