MIT等首次深度研究集成LLM预测能力:可媲美人类群体准确率

简介: 【4月更文挑战第16天】研究人员集成12个大型语言模型(LLM)组成“硅基群体”,在预测比赛中与925名人类预测者对比。研究发现,LLM群体的预测准确性与人类群体无显著差异,且通过集成可抵消个体模型的偏差,提高预测准确。GPT-4和Claude 2等模型结合人类预测后,准确度提升17%至28%。然而,个别LLM预测精度不一,模型选择和校准度是提升预测性能的关键,同时LLM在时间跨度和现实场景适应性方面仍有挑战。

20.jpeg
在人工智能领域,大型语言模型(LLM)的预测能力一直是研究的热点。近期,由MIT、伦敦政治经济学院和宾夕法尼亚大学的研究人员共同开展的一项研究,首次深入探讨了集成多个LLM的预测能力,并与人类群体的预测准确性进行了比较。这项研究不仅验证了LLM在预测领域的潜力,也为未来的应用提供了新的思路。

研究团队通过构建一个由十二个不同LLM组成的“硅基群体”,并在一个为期三个月的预测比赛中,将这些模型的预测结果与925名人类预测者的预测结果进行了比较。研究的主要分析结果显示,LLM群体的预测准确性不仅超越了无信息基准,而且与人类群体的预测准确性没有统计学上的显著差异。这一发现表明,通过集成多个LLM的预测结果,可以实现与人类群体相媲美的预测准确性。

此外,研究还发现,尽管LLM群体的预测倾向于肯定的结果,但这种“ acquiescence bias”(顺从偏差)并未影响其整体的预测表现。这表明,即使存在个别模型的偏差,集成的方法仍然能够有效地平衡和减少这些偏差,从而提高整体的预测准确性。

在探索性分析中,研究团队还测试了将人类认知产出融入LLM预测更新过程的可能性。结果显示,通过接触人类群体的中位数预测,GPT-4和Claude 2两种前沿模型的预测准确性得到了提升,准确度提高了17%至28%。这一发现进一步证实了人类预测与LLM预测之间的互补性,以及集成方法在提高预测准确性方面的潜力。

然而,研究也指出了一些局限性和改进空间。首先,尽管LLM群体的预测准确性与人类群体相当,但在个别模型的预测准确性上仍存在显著差异。例如,Coral (Command)模型的表现就明显低于其他模型和人类群体。这表明,并非所有的LLM都同样适合于预测任务,模型的选择和优化仍然是提高预测准确性的关键因素。

其次,研究中的LLM群体虽然表现出了较好的预测准确性,但其预测的校准度却不尽如人意。大多数模型显示出过度自信的倾向,即它们对结果的预测概率高于实际发生的概率。这一点在未来的研究和应用中需要得到改进,因为长期的可靠性和准确性需要建立在良好的校准基础之上。

此外,研究还提出了关于LLM预测能力的一些开放性问题。例如,随着训练数据与预测时期的时间跨度增加,模型的预测准确性可能会下降,因为必要的背景知识可能不再容易获得。此外,研究中使用的预测问题都是精心策划的,而在现实世界中,可能无法获得同样中立和详细的背景信息和问题描述,这可能会对模型的表现产生影响。

论文链接:https://arxiv.org/pdf/2402.19379.pdf

目录
相关文章
|
2月前
|
机器学习/深度学习 人工智能 测试技术
仅7B的模型数学推理能力完虐70B?MIT哈佛推出行动思维链COAT让LLM实现自我反思并探索新策略
Satori 是由 MIT 和哈佛大学等机构联合推出的 7B 参数大型语言模型,专注于提升推理能力,具备强大的自回归搜索和自我纠错功能。
137 6
仅7B的模型数学推理能力完虐70B?MIT哈佛推出行动思维链COAT让LLM实现自我反思并探索新策略
|
2月前
|
物联网
LLM破局泛化诊断难题,MSSP刊登北航PHM实验室健康管理大模型交叉研究
北航PHM实验室提出了一种基于大型语言模型(LLM)的轴承故障诊断框架,结合传统诊断技术,解决了跨条件适应性、小样本学习和跨数据集泛化等问题。该框架通过信号特征量化方法提取振动数据的语义信息,并采用LoRA和QLoRA微调预训练模型,显著提升了诊断模型的泛化能力。实验结果显示,在跨数据集训练中,模型准确性提升了约10%,相关成果发表于《Mechanical Systems and Signal Processing》期刊。尽管存在计算资源需求高等挑战,该研究为旋转机械的高效维护提供了新思路。
75 2
|
3月前
|
人工智能 数据可视化 开发者
FlowiseAI:34K Star!集成多种模型和100+组件的 LLM 应用低代码开发平台,拖拽组件轻松构建程序
FlowiseAI 是一款开源的低代码工具,通过拖拽可视化组件,用户可以快速构建自定义的 LLM 应用程序,支持多模型集成和记忆功能。
300 14
FlowiseAI:34K Star!集成多种模型和100+组件的 LLM 应用低代码开发平台,拖拽组件轻松构建程序
|
2月前
|
人工智能 自然语言处理 算法
LLM为何频频翻车算术题?最新研究追踪单个神经元,大脑短路才是根源
最新研究揭示,大型语言模型(LLM)在解决算术问题时依赖于一组稀疏的重要神经元,这些神经元实现简单的启发式算法,而非稳健的算法或记忆训练数据。通过因果分析,研究人员发现这些启发式算法的组合是LLM产生正确算术答案的主要机制,并在训练早期就已形成。这为改进LLM的算术能力提供了新方向。论文地址:https://arxiv.org/abs/2410.21272
67 10
|
2月前
|
人工智能 机器人
D1net阅闻 | 谷歌DeepMind研究发现LLM新特性
D1net阅闻 | 谷歌DeepMind研究发现LLM新特性
|
4月前
|
存储 JavaScript 开发工具
基于HarmonyOS 5.0(NEXT)与SpringCloud架构的跨平台应用开发与服务集成研究【实战】
本次的.HarmonyOS Next ,ArkTS语言,HarmonyOS的元服务和DevEco Studio 开发工具,为开发者提供了构建现代化、轻量化、高性能应用的便捷方式。这些技术和工具将帮助开发者更好地适应未来的智能设备和服务提供方式。
121 8
基于HarmonyOS 5.0(NEXT)与SpringCloud架构的跨平台应用开发与服务集成研究【实战】
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
AI自己长出了类似大脑的脑叶?新研究揭示LLM特征的惊人几何结构
近年来,大型语言模型(LLM)的内部运作机制备受关注。麻省理工学院的研究人员在论文《The Geometry of Concepts: Sparse Autoencoder Feature Structure》中,利用稀疏自编码器(SAE)分析LLM的激活空间,揭示了其丰富的几何结构。研究发现,特征在原子、大脑和星系三个尺度上展现出不同的结构,包括晶体结构、中尺度模块化结构和大尺度点云结构。这些发现不仅有助于理解LLM的工作原理,还可能对模型优化和其他领域产生重要影响。
122 25
|
4月前
|
缓存 算法 关系型数据库
MIT韩松团队长上下文LLM推理高效框架DuoAttention:单GPU实现330万Token上下文推理
麻省理工学院韩松团队提出DuoAttention框架,旨在提高大型语言模型(LLM)处理长上下文的效率。该框架通过区分检索头和流式头,仅对检索头应用全键值缓存,减少内存消耗和计算时间,同时保持模型长上下文处理能力。实验结果显示,DuoAttention在多种模型架构上显著提升了推理效率,为LLM的实际应用提供了新可能。
137 14
|
5月前
|
自然语言处理 算法
RAG真能提升LLM推理能力?人大最新研究:数据有噪声,RAG性能不升反降
随着大型语言模型(LLM)在自然语言处理领域的广泛应用,检索增强生成(RAG)技术因能引入新知识和减少幻觉而受到关注。然而,RAG对LLM推理能力的实际提升效果仍存争议。中国人民大学的一项研究表明,RAG虽能辅助LLM推理,但在处理含噪信息和深度推理时面临挑战。为此,研究团队提出了DPrompt tuning方法,旨在解决噪声问题并提升RAG性能。
123 12
|
6月前
|
Java Maven Docker
gitlab-ci 集成 k3s 部署spring boot 应用
gitlab-ci 集成 k3s 部署spring boot 应用

热门文章

最新文章