MIT等首次深度研究集成LLM预测能力:可媲美人类群体准确率

简介: 【4月更文挑战第16天】研究人员集成12个大型语言模型(LLM)组成“硅基群体”,在预测比赛中与925名人类预测者对比。研究发现,LLM群体的预测准确性与人类群体无显著差异,且通过集成可抵消个体模型的偏差,提高预测准确。GPT-4和Claude 2等模型结合人类预测后,准确度提升17%至28%。然而,个别LLM预测精度不一,模型选择和校准度是提升预测性能的关键,同时LLM在时间跨度和现实场景适应性方面仍有挑战。

20.jpeg
在人工智能领域,大型语言模型(LLM)的预测能力一直是研究的热点。近期,由MIT、伦敦政治经济学院和宾夕法尼亚大学的研究人员共同开展的一项研究,首次深入探讨了集成多个LLM的预测能力,并与人类群体的预测准确性进行了比较。这项研究不仅验证了LLM在预测领域的潜力,也为未来的应用提供了新的思路。

研究团队通过构建一个由十二个不同LLM组成的“硅基群体”,并在一个为期三个月的预测比赛中,将这些模型的预测结果与925名人类预测者的预测结果进行了比较。研究的主要分析结果显示,LLM群体的预测准确性不仅超越了无信息基准,而且与人类群体的预测准确性没有统计学上的显著差异。这一发现表明,通过集成多个LLM的预测结果,可以实现与人类群体相媲美的预测准确性。

此外,研究还发现,尽管LLM群体的预测倾向于肯定的结果,但这种“ acquiescence bias”(顺从偏差)并未影响其整体的预测表现。这表明,即使存在个别模型的偏差,集成的方法仍然能够有效地平衡和减少这些偏差,从而提高整体的预测准确性。

在探索性分析中,研究团队还测试了将人类认知产出融入LLM预测更新过程的可能性。结果显示,通过接触人类群体的中位数预测,GPT-4和Claude 2两种前沿模型的预测准确性得到了提升,准确度提高了17%至28%。这一发现进一步证实了人类预测与LLM预测之间的互补性,以及集成方法在提高预测准确性方面的潜力。

然而,研究也指出了一些局限性和改进空间。首先,尽管LLM群体的预测准确性与人类群体相当,但在个别模型的预测准确性上仍存在显著差异。例如,Coral (Command)模型的表现就明显低于其他模型和人类群体。这表明,并非所有的LLM都同样适合于预测任务,模型的选择和优化仍然是提高预测准确性的关键因素。

其次,研究中的LLM群体虽然表现出了较好的预测准确性,但其预测的校准度却不尽如人意。大多数模型显示出过度自信的倾向,即它们对结果的预测概率高于实际发生的概率。这一点在未来的研究和应用中需要得到改进,因为长期的可靠性和准确性需要建立在良好的校准基础之上。

此外,研究还提出了关于LLM预测能力的一些开放性问题。例如,随着训练数据与预测时期的时间跨度增加,模型的预测准确性可能会下降,因为必要的背景知识可能不再容易获得。此外,研究中使用的预测问题都是精心策划的,而在现实世界中,可能无法获得同样中立和详细的背景信息和问题描述,这可能会对模型的表现产生影响。

论文链接:https://arxiv.org/pdf/2402.19379.pdf

目录
相关文章
|
2月前
|
供应链 安全 Linux
简单、透明、安全、高度集成!龙蜥可信 SBOM 能力探索与实践
从攻击面管理的角度解决软件供应链SBOM复杂体系的安全可信问题。
|
6月前
|
分布式计算 测试技术 API
为集成LLM到测试平台提供更便捷的方式:为讯飞的LLM星火创建接入LangChain类(全部源代码)
为集成LLM到测试平台提供更便捷的方式:为讯飞的LLM星火创建接入LangChain类(全部源代码)
338 0
|
7月前
|
API 开发工具 Android开发
AppsFlyer 研究(一)AppsFlyer SDK 集成(1)
AppsFlyer 研究(一)AppsFlyer SDK 集成
885 0
|
3月前
|
移动开发 小程序 数据管理
9月开发者日回顾|小程序跳转接口等多个JSAPI更新,能力集成提供场景化排查工具
9月开发者日回顾|小程序跳转接口等多个JSAPI更新,能力集成提供场景化排查工具
28 0
|
3月前
|
小程序 IDE API
如何用“AIT”解决能力集成难题——以商家券为例
如何用“AIT”解决能力集成难题——以商家券为例
28 0
|
5月前
|
监控 安全 大数据
Dataphin V3.10升级速览丨集成能力提升、15个应用场景、数据治理能力优化……
Dataphin V3.10升级速览丨集成能力提升、15个应用场景、数据治理能力优化……
|
7月前
|
开发工具 Android开发 iOS开发
AppsFlyer 研究(一)AppsFlyer SDK 集成(2)
AppsFlyer 研究(一)AppsFlyer SDK 集成
162 0
|
7月前
|
JSON Java 关系型数据库
Spring Boot 学习研究笔记(十三) Spring Data JPA与PostgreSQL的jsonb类型集成
Spring Boot 学习研究笔记(十三) Spring Data JPA与PostgreSQL的jsonb类型集成
|
7月前
|
Java API 网络架构
Spring Boot 学习研究笔记(六) -使用 Swagger 集成文档
Spring Boot 学习研究笔记(六) -使用 Swagger 集成文档
|
7月前
|
Java 测试技术 Spring
Spring Boot 学习研究笔记(五) -SpringBoot集成单元测试
Spring Boot 学习研究笔记(五) -SpringBoot集成单元测试

热门文章

最新文章