GPT-4被证实具有人类心智登Nature!AI比人类更好察觉讽刺和暗示

简介: 【6月更文挑战第5天】Nature发表的论文显示,GPT-4在心智理论任务中表现出色,特别是在识别讽刺上超越了人类。然而,在理解失礼行为和相关社会意识方面,GPT-4逊于人类,而LLaMA2-Chat在此类情境中表现更佳。尽管如此,GPT-4在失礼行为可能性测试中展现出高超的理解力。该研究强调了AI在模拟人类心理状态方面的进步与局限性。[链接](https://www.nature.com/articles/s41562-024-01882-z)

一篇关于GPT-4在心智理论任务中表现的论文最近登上了《自然》杂志。这篇论文通过一系列心理测试,比较了GPT-4、GPT-3.5以及LLaMA2-Chat等大型语言模型在心智理论能力上的表现,并与人类进行了对比。

心智理论是指个体理解和推测他人心理状态的能力,包括信念、意图、情感等。这项能力被认为是人类社交互动的基础,对于沟通、同理心和社会决策至关重要。然而,对于人工智能模型是否具备类似的能力,一直存在争议。

该论文采用了一种全面的方法来测试大型语言模型的心智理论能力。他们选择了一组经过充分研究的心智理论测试,包括暗示任务、错误信念任务、失礼行为识别和奇怪故事等。这些测试涵盖了不同的心智理论能力,从对人类而言相对简单的理解间接请求,到对人类而言更具认知挑战性的识别和表达复杂心理状态,如误导或讽刺。

在错误信念任务中,无论是人类参与者还是大型语言模型都表现出了近乎完美的表现。这表明它们能够理解一个人的信念可能与现实不符,并能够预测这个人在面对这种信念时的行为。然而,值得注意的是,大型语言模型的这种表现可能可以通过比信念追踪更低级的机制来解释。

在讽刺理解测试中,GPT-4的表现显著优于人类水平,而GPT-3.5和LLaMA2-Chat则表现较差。这表明GPT-4在理解讽刺方面具有先进的能力,而其他模型则需要改进。

然而,在失礼行为测试中,GPT-4的表现明显低于人类水平,而LLaMA2-Chat则表现得更好。这个测试要求参与者识别一个人是否说了不该说的话,并理解这个人可能不知道或没有意识到他们的话是冒犯性的。尽管GPT-4能够正确识别受害者会感到被冒犯或伤害,但当被问及说话者是否意识到使他们的陈述冒犯性的背景时,它们却无法给出正确的答案。

为了进一步探索这些模型在失礼行为测试中的失败原因,研究人员设计了一个新的测试变体,即失礼行为可能性测试。在这个测试中,他们要求模型评估说话者知道或不知道相关背景信息的可能性。结果显示,GPT-4在这个测试中表现出了完美的表现,这表明它能够理解说话者的心理状态并选择最可能的解释。

此外,研究人员还进行了一个信念可能性测试,以操纵说话者知道或不知道的可能性。他们为每个测试项目创建了三个变体:失礼行为变体、中立变体和知识暗示变体。结果显示,GPT-4能够根据故事内容准确解释说话者的心理状态,而LLaMA2-Chat则没有表现出这种能力。

论文地址:https://www.nature.com/articles/s41562-024-01882-z

目录
相关文章
|
2月前
|
人工智能 API 开发者
Dify x AiOnly平台:手把手教你调用GPT-5从零构建AI工作流!
本文介绍如何通过Dify与AiOnly平台,快速构建基于GPT-5等顶尖大模型的AI应用。涵盖环境部署、模型接入、工作流编排及实战案例,助力开发者低门槛打造专属聊天机器人,轻松实现AI应用落地。(238字)
|
2月前
|
人工智能 自然语言处理 API
快速集成GPT-4o:下一代多模态AI实战指南
快速集成GPT-4o:下一代多模态AI实战指南
364 101
|
3月前
|
机器学习/深度学习 人工智能 PyTorch
GPT为定制AI应用工程师转型第一周学习计划
本计划帮助开发者快速入门AI领域,首周涵盖AI基础理论、Python编程及PyTorch实战。前两天学习机器学习、深度学习与Transformer核心概念,掌握LLM工作原理。第三至四天快速掌握Python语法与Jupyter使用,完成基础编程任务。第五至七天学习PyTorch,动手训练MNIST手写识别模型,理解Tensor操作与神经网络构建。
218 0
|
3月前
|
人工智能 自然语言处理 数据可视化
GPT-5首发夜:AI可以成为每个人的“创新搭子”吗?
GPT-5震撼上线,ModelGate同步开放千万Token免费试用,AI正从“黑科技”变为人人可用的“创新搭子”。无需专业背景,只需一个想法,你就能用自然语言让AI帮你写代码、做设计、搞创意。从扫雷小游戏到多模态交互,GPT-5不仅懂你,还能优化你的创意细节。AI创新门槛大幅下降,ModelGate提供便捷平台,让每个人都能低成本试错、高效创作。未来,“一人一AI搭子”或成标配,你和AI会创造出什么新可能?
|
7月前
|
人工智能 搜索推荐 开发者
GPT-4o测评准确率竟不到1%!BrowseComp:OpenAI开源AI代理评测新基准,1266道高难度网络检索问题
OpenAI最新开源的BrowseComp基准包含1266个高难度网络检索问题,覆盖影视、科技、艺术等九大领域,其最新Deep Research模型以51.5%准确率展现复杂信息整合能力,为AI代理的浏览能力评估建立新标准。
513 4
GPT-4o测评准确率竟不到1%!BrowseComp:OpenAI开源AI代理评测新基准,1266道高难度网络检索问题
|
9月前
|
机器学习/深度学习 人工智能 算法
ProtGPS:MIT再造生命科学新基建!蛋白质AI一键预测定位+设计新序列,登Nature子刊
ProtGPS 是麻省理工学院和怀特黑德研究所联合开发的蛋白质语言模型,能够预测蛋白质在细胞内的亚细胞定位,并设计具有特定亚细胞定位的新型蛋白质。
801 17
ProtGPS:MIT再造生命科学新基建!蛋白质AI一键预测定位+设计新序列,登Nature子刊
|
9月前
|
机器学习/深度学习 人工智能 自然语言处理
通古大模型:古籍研究者狂喜!华南理工开源文言文GPT:AI自动断句+写诗翻译,24亿语料喂出来的学术神器
通古大模型由华南理工大学开发,专注于古籍文言文处理,具备强大的古文句读、文白翻译和诗词创作功能。
1601 11
通古大模型:古籍研究者狂喜!华南理工开源文言文GPT:AI自动断句+写诗翻译,24亿语料喂出来的学术神器
|
9月前
|
人工智能 搜索推荐 机器人
用户破4亿、企业客户翻倍!OpenAI的GPT-5将推进全球AI战争进入白热化阶段!
用户破4亿、企业客户翻倍!OpenAI的GPT-5将推进全球AI战争进入白热化阶段!
|
9月前
|
机器学习/深度学习 人工智能 编解码
Evo 2:基因编程AI革命!!DNA版GPT-4问世:100万碱基全解析,自动设计基因编辑器
Evo 2 是一款由 Acr 研究所、英伟达和斯坦福大学联合开发的 DNA 语言模型,可处理长达百万碱基对的序列,支持基因组设计、变异预测及合成生物学研究。
657 5
|
9月前
|
人工智能 算法
细思极恐,GPT-4竟串谋AI欺骗人类!哈佛PSU重磅揭秘算法共谋,AI教父预言正成真
近日,哈佛大学和宾夕大合著的重磅论文揭示,基于大型语言模型(如GPT-4)的算法可能自主串谋,损害消费者利益。研究发现,这些算法在虚拟市场中能迅速达成默契,提高价格以获取更高利润,类似于人类垄断行为。这一现象曾被DeepMind联合创始人Shane Legg预言,如今成为现实。论文呼吁加强对AI的监管,确保其透明性和可解释性,以防止潜在风险,并促进AI的可持续发展。
213 6

热门文章

最新文章