MIT等首次深度研究集成LLM预测能力：可媲美人类群体准确率-阿里云开发者社区

MIT等首次深度研究集成LLM预测能力：可媲美人类群体准确率

2024-04-16 118

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【4月更文挑战第16天】研究人员集成12个大型语言模型（LLM）组成“硅基群体”，在预测比赛中与925名人类预测者对比。研究发现，LLM群体的预测准确性与人类群体无显著差异，且通过集成可抵消个体模型的偏差，提高预测准确。GPT-4和Claude 2等模型结合人类预测后，准确度提升17%至28%。然而，个别LLM预测精度不一，模型选择和校准度是提升预测性能的关键，同时LLM在时间跨度和现实场景适应性方面仍有挑战。

在人工智能领域，大型语言模型（LLM）的预测能力一直是研究的热点。近期，由MIT、伦敦政治经济学院和宾夕法尼亚大学的研究人员共同开展的一项研究，首次深入探讨了集成多个LLM的预测能力，并与人类群体的预测准确性进行了比较。这项研究不仅验证了LLM在预测领域的潜力，也为未来的应用提供了新的思路。

研究团队通过构建一个由十二个不同LLM组成的“硅基群体”，并在一个为期三个月的预测比赛中，将这些模型的预测结果与925名人类预测者的预测结果进行了比较。研究的主要分析结果显示，LLM群体的预测准确性不仅超越了无信息基准，而且与人类群体的预测准确性没有统计学上的显著差异。这一发现表明，通过集成多个LLM的预测结果，可以实现与人类群体相媲美的预测准确性。

此外，研究还发现，尽管LLM群体的预测倾向于肯定的结果，但这种“ acquiescence bias”（顺从偏差）并未影响其整体的预测表现。这表明，即使存在个别模型的偏差，集成的方法仍然能够有效地平衡和减少这些偏差，从而提高整体的预测准确性。

在探索性分析中，研究团队还测试了将人类认知产出融入LLM预测更新过程的可能性。结果显示，通过接触人类群体的中位数预测，GPT-4和Claude 2两种前沿模型的预测准确性得到了提升，准确度提高了17%至28%。这一发现进一步证实了人类预测与LLM预测之间的互补性，以及集成方法在提高预测准确性方面的潜力。

然而，研究也指出了一些局限性和改进空间。首先，尽管LLM群体的预测准确性与人类群体相当，但在个别模型的预测准确性上仍存在显著差异。例如，Coral (Command)模型的表现就明显低于其他模型和人类群体。这表明，并非所有的LLM都同样适合于预测任务，模型的选择和优化仍然是提高预测准确性的关键因素。

其次，研究中的LLM群体虽然表现出了较好的预测准确性，但其预测的校准度却不尽如人意。大多数模型显示出过度自信的倾向，即它们对结果的预测概率高于实际发生的概率。这一点在未来的研究和应用中需要得到改进，因为长期的可靠性和准确性需要建立在良好的校准基础之上。

此外，研究还提出了关于LLM预测能力的一些开放性问题。例如，随着训练数据与预测时期的时间跨度增加，模型的预测准确性可能会下降，因为必要的背景知识可能不再容易获得。此外，研究中使用的预测问题都是精心策划的，而在现实世界中，可能无法获得同样中立和详细的背景信息和问题描述，这可能会对模型的表现产生影响。

论文链接：https://arxiv.org/pdf/2402.19379.pdf

MIT等首次深度研究集成LLM预测能力：可媲美人类群体准确率

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

MIT等首次深度研究集成LLM预测能力：可媲美人类群体准确率

热门文章

最新文章

相关课程

相关电子书

相关实验场景