GPT-4被证实具有人类心智登Nature!AI比人类更好察觉讽刺和暗示

本文涉及的产品
NLP自然语言处理_高级版,每接口累计50万次
视觉智能开放平台,分割抠图1万点
NLP自然语言处理_基础版,每接口每天50万次
简介: 【6月更文挑战第5天】Nature发表的论文显示,GPT-4在心智理论任务中表现出色,特别是在识别讽刺上超越了人类。然而,在理解失礼行为和相关社会意识方面,GPT-4逊于人类,而LLaMA2-Chat在此类情境中表现更佳。尽管如此,GPT-4在失礼行为可能性测试中展现出高超的理解力。该研究强调了AI在模拟人类心理状态方面的进步与局限性。[链接](https://www.nature.com/articles/s41562-024-01882-z)

一篇关于GPT-4在心智理论任务中表现的论文最近登上了《自然》杂志。这篇论文通过一系列心理测试,比较了GPT-4、GPT-3.5以及LLaMA2-Chat等大型语言模型在心智理论能力上的表现,并与人类进行了对比。

心智理论是指个体理解和推测他人心理状态的能力,包括信念、意图、情感等。这项能力被认为是人类社交互动的基础,对于沟通、同理心和社会决策至关重要。然而,对于人工智能模型是否具备类似的能力,一直存在争议。

该论文采用了一种全面的方法来测试大型语言模型的心智理论能力。他们选择了一组经过充分研究的心智理论测试,包括暗示任务、错误信念任务、失礼行为识别和奇怪故事等。这些测试涵盖了不同的心智理论能力,从对人类而言相对简单的理解间接请求,到对人类而言更具认知挑战性的识别和表达复杂心理状态,如误导或讽刺。

在错误信念任务中,无论是人类参与者还是大型语言模型都表现出了近乎完美的表现。这表明它们能够理解一个人的信念可能与现实不符,并能够预测这个人在面对这种信念时的行为。然而,值得注意的是,大型语言模型的这种表现可能可以通过比信念追踪更低级的机制来解释。

在讽刺理解测试中,GPT-4的表现显著优于人类水平,而GPT-3.5和LLaMA2-Chat则表现较差。这表明GPT-4在理解讽刺方面具有先进的能力,而其他模型则需要改进。

然而,在失礼行为测试中,GPT-4的表现明显低于人类水平,而LLaMA2-Chat则表现得更好。这个测试要求参与者识别一个人是否说了不该说的话,并理解这个人可能不知道或没有意识到他们的话是冒犯性的。尽管GPT-4能够正确识别受害者会感到被冒犯或伤害,但当被问及说话者是否意识到使他们的陈述冒犯性的背景时,它们却无法给出正确的答案。

为了进一步探索这些模型在失礼行为测试中的失败原因,研究人员设计了一个新的测试变体,即失礼行为可能性测试。在这个测试中,他们要求模型评估说话者知道或不知道相关背景信息的可能性。结果显示,GPT-4在这个测试中表现出了完美的表现,这表明它能够理解说话者的心理状态并选择最可能的解释。

此外,研究人员还进行了一个信念可能性测试,以操纵说话者知道或不知道的可能性。他们为每个测试项目创建了三个变体:失礼行为变体、中立变体和知识暗示变体。结果显示,GPT-4能够根据故事内容准确解释说话者的心理状态,而LLaMA2-Chat则没有表现出这种能力。

论文地址:https://www.nature.com/articles/s41562-024-01882-z

目录
相关文章
|
2天前
|
机器学习/深度学习 人工智能 自然语言处理
算法金 | 秒懂 AI - 深度学习五大模型:RNN、CNN、Transformer、BERT、GPT 简介
**RNN**,1986年提出,用于序列数据,如语言模型和语音识别,但原始模型有梯度消失问题。**LSTM**和**GRU**通过门控解决了此问题。 **CNN**,1989年引入,擅长图像处理,卷积层和池化层提取特征,经典应用包括图像分类和物体检测,如LeNet-5。 **Transformer**,2017年由Google推出,自注意力机制实现并行计算,优化了NLP效率,如机器翻译。 **BERT**,2018年Google的双向预训练模型,通过掩码语言模型改进上下文理解,适用于问答和文本分类。
22 9
|
4天前
|
数据采集 机器学习/深度学习 人工智能
AI小分子药物发现的百科全书,康奈尔、剑桥、EPFL等研究者综述登Nature子刊
【7月更文挑战第12天】康奈尔、剑桥及EPFL科学家合作,详述AI在药物发现中的突破与挑战[^1]。AI现用于新化合物生成、现有药物优化及再利用,加速研发进程。尽管取得进展,可解释性不足、数据质量和伦理监管仍是待解难题。 [^1]: [论文链接](https://www.nature.com/articles/s42256-024-00843-5)
13 3
|
14天前
|
人工智能
语言≠思维,大模型学不了推理:一篇Nature让AI社区炸锅了
【7月更文挑战第3天】新研究表明语言和思维是分离的,引发AI社区激烈讨论。论文通过fMRI实验显示语言处理与思维在大脑中独立,即使无语言人们仍能推理。这质疑了AI仅通过语言学习高级智能的可能性,暗示应更关注模拟人类思维。[[1](https://www.nature.com/articles/s41586-024-07522-w)]
30 1
|
1月前
|
机器学习/深度学习 人工智能 监控
[AI OpenAI] 提取GPT-4中的概念
研究人员采用新的可扩展方法,将GPT-4的内部表示分解为1600万个通常可解释的模式,这些模式被称为“特征”,目的是提高语言模型的透明度和可解释性。
[AI OpenAI] 提取GPT-4中的概念
|
1月前
|
人工智能 自然语言处理 搜索推荐
优化AI对话体验并全面兼容GPT功能平台
优化AI对话体验并全面兼容GPT功能平台
28 1
|
9天前
|
机器学习/深度学习 人工智能 自然语言处理
Midjourney是一个基于GPT-3.5系列接口开发的免费AI机器人
Midjourney是一个基于GPT-3.5系列接口开发的免费AI机器人
14 0
|
1月前
|
机器学习/深度学习 人工智能 算法
谷歌DeepMind:GPT-4高阶心智理论彻底击败人类!第6阶推理讽刺暗示全懂了
【6月更文挑战第10天】谷歌DeepMind团队的最新论文显示,GPT-4在高阶心智理论任务中超越了人类水平,这是AI在理解和推理人类心理状态上的重大突破。研究人员通过MoToMQA测试套件评估了大型语言模型,发现GPT-4在第6阶推理上超过成人表现。这一进展意味着AI能更好地理解用户意图,提升交互体验,但也引发了关于操纵与控制人类以及模型是否真正理解心理状态的担忧。论文链接:https://arxiv.org/pdf/2405.18870
31 3
|
1月前
|
机器学习/深度学习 人工智能 算法
ChatGPT如何思考?心理学和神经科学破解AI大模型,Nature发文
【6月更文挑战第5天】Nature文章探讨了人工智能,尤其是ChatGPT这类大型语言模型(LLMs)的思考机制。随着AI复杂性的增加,理解其决策过程成为挑战。可解释AI(XAI)领域致力于揭示这些“黑盒子”的工作原理,但LLMs的规模和潜在问题(如错误信息和隐私泄露)使这一任务更具紧迫性。研究人员借助心理学和神经科学方法尝试理解模型决策,但目前仍处于早期阶段,且有争议认为模型可能只是模拟而非真正理解文本。
50 1
|
1月前
|
机器学习/深度学习 人工智能
可控核聚变新里程碑,AI首次实现双托卡马克3D场全自动优化,登Nature子刊
【6月更文挑战第4天】AI在可控核聚变研究中实现双托卡马克装置3D磁场全自动优化,助力抑制边缘能量爆发(ELMs),提升核聚变性能90%,成果登上《自然通讯》。虽有ELMs少量出现及装置适应性问题,但这一突破为经济可行的核聚变能源发展迈出重要步伐。[论文链接](https://www.nature.com/articles/s41467-024-48415-w)
45 1
|
1月前
|
人工智能 机器人 API
Dify 构建一个基于 GPT 的 AI 客服系统
Dify 构建一个基于 GPT 的 AI 客服系统
287 0