GPT-4被证实具有人类心智登Nature!AI比人类更好察觉讽刺和暗示

简介: 【6月更文挑战第5天】Nature发表的论文显示,GPT-4在心智理论任务中表现出色,特别是在识别讽刺上超越了人类。然而,在理解失礼行为和相关社会意识方面,GPT-4逊于人类,而LLaMA2-Chat在此类情境中表现更佳。尽管如此,GPT-4在失礼行为可能性测试中展现出高超的理解力。该研究强调了AI在模拟人类心理状态方面的进步与局限性。[链接](https://www.nature.com/articles/s41562-024-01882-z)

一篇关于GPT-4在心智理论任务中表现的论文最近登上了《自然》杂志。这篇论文通过一系列心理测试,比较了GPT-4、GPT-3.5以及LLaMA2-Chat等大型语言模型在心智理论能力上的表现,并与人类进行了对比。

心智理论是指个体理解和推测他人心理状态的能力,包括信念、意图、情感等。这项能力被认为是人类社交互动的基础,对于沟通、同理心和社会决策至关重要。然而,对于人工智能模型是否具备类似的能力,一直存在争议。

该论文采用了一种全面的方法来测试大型语言模型的心智理论能力。他们选择了一组经过充分研究的心智理论测试,包括暗示任务、错误信念任务、失礼行为识别和奇怪故事等。这些测试涵盖了不同的心智理论能力,从对人类而言相对简单的理解间接请求,到对人类而言更具认知挑战性的识别和表达复杂心理状态,如误导或讽刺。

在错误信念任务中,无论是人类参与者还是大型语言模型都表现出了近乎完美的表现。这表明它们能够理解一个人的信念可能与现实不符,并能够预测这个人在面对这种信念时的行为。然而,值得注意的是,大型语言模型的这种表现可能可以通过比信念追踪更低级的机制来解释。

在讽刺理解测试中,GPT-4的表现显著优于人类水平,而GPT-3.5和LLaMA2-Chat则表现较差。这表明GPT-4在理解讽刺方面具有先进的能力,而其他模型则需要改进。

然而,在失礼行为测试中,GPT-4的表现明显低于人类水平,而LLaMA2-Chat则表现得更好。这个测试要求参与者识别一个人是否说了不该说的话,并理解这个人可能不知道或没有意识到他们的话是冒犯性的。尽管GPT-4能够正确识别受害者会感到被冒犯或伤害,但当被问及说话者是否意识到使他们的陈述冒犯性的背景时,它们却无法给出正确的答案。

为了进一步探索这些模型在失礼行为测试中的失败原因,研究人员设计了一个新的测试变体,即失礼行为可能性测试。在这个测试中,他们要求模型评估说话者知道或不知道相关背景信息的可能性。结果显示,GPT-4在这个测试中表现出了完美的表现,这表明它能够理解说话者的心理状态并选择最可能的解释。

此外,研究人员还进行了一个信念可能性测试,以操纵说话者知道或不知道的可能性。他们为每个测试项目创建了三个变体:失礼行为变体、中立变体和知识暗示变体。结果显示,GPT-4能够根据故事内容准确解释说话者的心理状态,而LLaMA2-Chat则没有表现出这种能力。

论文地址:https://www.nature.com/articles/s41562-024-01882-z

目录
相关文章
|
17天前
|
机器学习/深度学习 人工智能 监控
[AI OpenAI] 提取GPT-4中的概念
研究人员采用新的可扩展方法,将GPT-4的内部表示分解为1600万个通常可解释的模式,这些模式被称为“特征”,目的是提高语言模型的透明度和可解释性。
[AI OpenAI] 提取GPT-4中的概念
|
28天前
|
人工智能 自然语言处理 算法
GPT-4o:重塑AI语音对话的边界与机遇
最近技术圈又出了新的“爆炸”新闻,因为OpenAI再次掀起技术浪潮,发布了最新旗舰模型GPT-4o,通过官方的消息显示这款全新的模型凭借超高速的语音响应能力和多模态交互革新,不仅让AI语音对话的交互体验更加流畅自然,还以免费使用的形式,给用户和行业带来了前所未有的震撼。那么GPT-4o相比前代有哪些显著的技术提升?它的发布又为国内大模型行业带来了哪些机会呢?本文就来简单聊一聊,欢迎大家在评论区留言交流。
44 2
GPT-4o:重塑AI语音对话的边界与机遇
|
6天前
|
人工智能 自然语言处理 搜索推荐
优化AI对话体验并全面兼容GPT功能平台
优化AI对话体验并全面兼容GPT功能平台
15 1
|
14天前
|
机器学习/深度学习 人工智能 算法
谷歌DeepMind:GPT-4高阶心智理论彻底击败人类!第6阶推理讽刺暗示全懂了
【6月更文挑战第10天】谷歌DeepMind团队的最新论文显示,GPT-4在高阶心智理论任务中超越了人类水平,这是AI在理解和推理人类心理状态上的重大突破。研究人员通过MoToMQA测试套件评估了大型语言模型,发现GPT-4在第6阶推理上超过成人表现。这一进展意味着AI能更好地理解用户意图,提升交互体验,但也引发了关于操纵与控制人类以及模型是否真正理解心理状态的担忧。论文链接:https://arxiv.org/pdf/2405.18870
25 3
|
19天前
|
机器学习/深度学习 人工智能 算法
ChatGPT如何思考?心理学和神经科学破解AI大模型,Nature发文
【6月更文挑战第5天】Nature文章探讨了人工智能,尤其是ChatGPT这类大型语言模型(LLMs)的思考机制。随着AI复杂性的增加,理解其决策过程成为挑战。可解释AI(XAI)领域致力于揭示这些“黑盒子”的工作原理,但LLMs的规模和潜在问题(如错误信息和隐私泄露)使这一任务更具紧迫性。研究人员借助心理学和神经科学方法尝试理解模型决策,但目前仍处于早期阶段,且有争议认为模型可能只是模拟而非真正理解文本。
40 1
|
20天前
|
机器学习/深度学习 人工智能
可控核聚变新里程碑,AI首次实现双托卡马克3D场全自动优化,登Nature子刊
【6月更文挑战第4天】AI在可控核聚变研究中实现双托卡马克装置3D磁场全自动优化,助力抑制边缘能量爆发(ELMs),提升核聚变性能90%,成果登上《自然通讯》。虽有ELMs少量出现及装置适应性问题,但这一突破为经济可行的核聚变能源发展迈出重要步伐。[论文链接](https://www.nature.com/articles/s41467-024-48415-w)
26 1
|
6天前
|
人工智能 机器人 API
Dify 构建一个基于 GPT 的 AI 客服系统
Dify 构建一个基于 GPT 的 AI 客服系统
60 0
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
OpenAI 推出 GPT-4o,免费向所有人提供GPT-4级别的AI ,可以实时对音频、视觉和文本进行推理,附使用详细指南
GPT-4o不仅提供与GPT-4同等程度的模型能力,推理速度还更快,还能提供同时理解文本、图像、音频等内容的多模态能力,无论你是付费用户,还是免费用户,都能通过它体验GPT-4了
97 1
|
1月前
|
人工智能 测试技术 API
[AI OpenAI-doc] GPT中的动作
学习如何构建一个智能调用你的API的GPT动作。GPT提供了深度定制ChatGPT以满足特定用例的能力,以及自定义功能。
|
1月前
|
XML 前端开发 JavaScript
JavaScript 权威指南第七版(GPT 重译)(六)(2)
JavaScript 权威指南第七版(GPT 重译)(六)
74 4
JavaScript 权威指南第七版(GPT 重译)(六)(2)