在人工智能领域,大型语言模型(LLM)的预测能力一直是研究的热点。近期,由MIT、伦敦政治经济学院和宾夕法尼亚大学的研究人员共同开展的一项研究,首次深入探讨了集成多个LLM的预测能力,并与人类群体的预测准确性进行了比较。这项研究不仅验证了LLM在预测领域的潜力,也为未来的应用提供了新的思路。
研究团队通过构建一个由十二个不同LLM组成的“硅基群体”,并在一个为期三个月的预测比赛中,将这些模型的预测结果与925名人类预测者的预测结果进行了比较。研究的主要分析结果显示,LLM群体的预测准确性不仅超越了无信息基准,而且与人类群体的预测准确性没有统计学上的显著差异。这一发现表明,通过集成多个LLM的预测结果,可以实现与人类群体相媲美的预测准确性。
此外,研究还发现,尽管LLM群体的预测倾向于肯定的结果,但这种“ acquiescence bias”(顺从偏差)并未影响其整体的预测表现。这表明,即使存在个别模型的偏差,集成的方法仍然能够有效地平衡和减少这些偏差,从而提高整体的预测准确性。
在探索性分析中,研究团队还测试了将人类认知产出融入LLM预测更新过程的可能性。结果显示,通过接触人类群体的中位数预测,GPT-4和Claude 2两种前沿模型的预测准确性得到了提升,准确度提高了17%至28%。这一发现进一步证实了人类预测与LLM预测之间的互补性,以及集成方法在提高预测准确性方面的潜力。
然而,研究也指出了一些局限性和改进空间。首先,尽管LLM群体的预测准确性与人类群体相当,但在个别模型的预测准确性上仍存在显著差异。例如,Coral (Command)模型的表现就明显低于其他模型和人类群体。这表明,并非所有的LLM都同样适合于预测任务,模型的选择和优化仍然是提高预测准确性的关键因素。
其次,研究中的LLM群体虽然表现出了较好的预测准确性,但其预测的校准度却不尽如人意。大多数模型显示出过度自信的倾向,即它们对结果的预测概率高于实际发生的概率。这一点在未来的研究和应用中需要得到改进,因为长期的可靠性和准确性需要建立在良好的校准基础之上。
此外,研究还提出了关于LLM预测能力的一些开放性问题。例如,随着训练数据与预测时期的时间跨度增加,模型的预测准确性可能会下降,因为必要的背景知识可能不再容易获得。此外,研究中使用的预测问题都是精心策划的,而在现实世界中,可能无法获得同样中立和详细的背景信息和问题描述,这可能会对模型的表现产生影响。