GPT-4被证实具有人类心智登Nature！AI比人类更好察觉讽刺和暗示-阿里云开发者社区

GPT-4被证实具有人类心智登Nature！AI比人类更好察觉讽刺和暗示

2024-06-05 138 发布于新疆

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

视觉智能开放平台，视频通用资源包5000点

视觉智能开放平台，分割抠图1万点

NLP 自学习平台，3个模型定制额度 1个月

简介： 【6月更文挑战第5天】Nature发表的论文显示，GPT-4在心智理论任务中表现出色，特别是在识别讽刺上超越了人类。然而，在理解失礼行为和相关社会意识方面，GPT-4逊于人类，而LLaMA2-Chat在此类情境中表现更佳。尽管如此，GPT-4在失礼行为可能性测试中展现出高超的理解力。该研究强调了AI在模拟人类心理状态方面的进步与局限性。[链接](https://www.nature.com/articles/s41562-024-01882-z)

一篇关于GPT-4在心智理论任务中表现的论文最近登上了《自然》杂志。这篇论文通过一系列心理测试，比较了GPT-4、GPT-3.5以及LLaMA2-Chat等大型语言模型在心智理论能力上的表现，并与人类进行了对比。

心智理论是指个体理解和推测他人心理状态的能力，包括信念、意图、情感等。这项能力被认为是人类社交互动的基础，对于沟通、同理心和社会决策至关重要。然而，对于人工智能模型是否具备类似的能力，一直存在争议。

该论文采用了一种全面的方法来测试大型语言模型的心智理论能力。他们选择了一组经过充分研究的心智理论测试，包括暗示任务、错误信念任务、失礼行为识别和奇怪故事等。这些测试涵盖了不同的心智理论能力，从对人类而言相对简单的理解间接请求，到对人类而言更具认知挑战性的识别和表达复杂心理状态，如误导或讽刺。

在错误信念任务中，无论是人类参与者还是大型语言模型都表现出了近乎完美的表现。这表明它们能够理解一个人的信念可能与现实不符，并能够预测这个人在面对这种信念时的行为。然而，值得注意的是，大型语言模型的这种表现可能可以通过比信念追踪更低级的机制来解释。

在讽刺理解测试中，GPT-4的表现显著优于人类水平，而GPT-3.5和LLaMA2-Chat则表现较差。这表明GPT-4在理解讽刺方面具有先进的能力，而其他模型则需要改进。

然而，在失礼行为测试中，GPT-4的表现明显低于人类水平，而LLaMA2-Chat则表现得更好。这个测试要求参与者识别一个人是否说了不该说的话，并理解这个人可能不知道或没有意识到他们的话是冒犯性的。尽管GPT-4能够正确识别受害者会感到被冒犯或伤害，但当被问及说话者是否意识到使他们的陈述冒犯性的背景时，它们却无法给出正确的答案。

为了进一步探索这些模型在失礼行为测试中的失败原因，研究人员设计了一个新的测试变体，即失礼行为可能性测试。在这个测试中，他们要求模型评估说话者知道或不知道相关背景信息的可能性。结果显示，GPT-4在这个测试中表现出了完美的表现，这表明它能够理解说话者的心理状态并选择最可能的解释。

此外，研究人员还进行了一个信念可能性测试，以操纵说话者知道或不知道的可能性。他们为每个测试项目创建了三个变体：失礼行为变体、中立变体和知识暗示变体。结果显示，GPT-4能够根据故事内容准确解释说话者的心理状态，而LLaMA2-Chat则没有表现出这种能力。

论文地址：https://www.nature.com/articles/s41562-024-01882-z

GPT-4被证实具有人类心智登Nature！AI比人类更好察觉讽刺和暗示

通义大模型

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

GPT-4被证实具有人类心智登Nature！AI比人类更好察觉讽刺和暗示

通义大模型

热门文章

最新文章

相关课程

相关电子书

相关实验场景