一篇关于GPT-4在心智理论任务中表现的论文最近登上了《自然》杂志。这篇论文通过一系列心理测试,比较了GPT-4、GPT-3.5以及LLaMA2-Chat等大型语言模型在心智理论能力上的表现,并与人类进行了对比。
心智理论是指个体理解和推测他人心理状态的能力,包括信念、意图、情感等。这项能力被认为是人类社交互动的基础,对于沟通、同理心和社会决策至关重要。然而,对于人工智能模型是否具备类似的能力,一直存在争议。
该论文采用了一种全面的方法来测试大型语言模型的心智理论能力。他们选择了一组经过充分研究的心智理论测试,包括暗示任务、错误信念任务、失礼行为识别和奇怪故事等。这些测试涵盖了不同的心智理论能力,从对人类而言相对简单的理解间接请求,到对人类而言更具认知挑战性的识别和表达复杂心理状态,如误导或讽刺。
在错误信念任务中,无论是人类参与者还是大型语言模型都表现出了近乎完美的表现。这表明它们能够理解一个人的信念可能与现实不符,并能够预测这个人在面对这种信念时的行为。然而,值得注意的是,大型语言模型的这种表现可能可以通过比信念追踪更低级的机制来解释。
在讽刺理解测试中,GPT-4的表现显著优于人类水平,而GPT-3.5和LLaMA2-Chat则表现较差。这表明GPT-4在理解讽刺方面具有先进的能力,而其他模型则需要改进。
然而,在失礼行为测试中,GPT-4的表现明显低于人类水平,而LLaMA2-Chat则表现得更好。这个测试要求参与者识别一个人是否说了不该说的话,并理解这个人可能不知道或没有意识到他们的话是冒犯性的。尽管GPT-4能够正确识别受害者会感到被冒犯或伤害,但当被问及说话者是否意识到使他们的陈述冒犯性的背景时,它们却无法给出正确的答案。
为了进一步探索这些模型在失礼行为测试中的失败原因,研究人员设计了一个新的测试变体,即失礼行为可能性测试。在这个测试中,他们要求模型评估说话者知道或不知道相关背景信息的可能性。结果显示,GPT-4在这个测试中表现出了完美的表现,这表明它能够理解说话者的心理状态并选择最可能的解释。
此外,研究人员还进行了一个信念可能性测试,以操纵说话者知道或不知道的可能性。他们为每个测试项目创建了三个变体:失礼行为变体、中立变体和知识暗示变体。结果显示,GPT-4能够根据故事内容准确解释说话者的心理状态,而LLaMA2-Chat则没有表现出这种能力。