GPT-4被证实具有人类心智登Nature!AI比人类更好察觉讽刺和暗示

本文涉及的产品
NLP自然语言处理_高级版,每接口累计50万次
视觉智能开放平台,视频资源包5000点
NLP 自学习平台,3个模型定制额度 1个月
简介: 【6月更文挑战第5天】Nature发表的论文显示,GPT-4在心智理论任务中表现出色,特别是在识别讽刺上超越了人类。然而,在理解失礼行为和相关社会意识方面,GPT-4逊于人类,而LLaMA2-Chat在此类情境中表现更佳。尽管如此,GPT-4在失礼行为可能性测试中展现出高超的理解力。该研究强调了AI在模拟人类心理状态方面的进步与局限性。[链接](https://www.nature.com/articles/s41562-024-01882-z)

一篇关于GPT-4在心智理论任务中表现的论文最近登上了《自然》杂志。这篇论文通过一系列心理测试,比较了GPT-4、GPT-3.5以及LLaMA2-Chat等大型语言模型在心智理论能力上的表现,并与人类进行了对比。

心智理论是指个体理解和推测他人心理状态的能力,包括信念、意图、情感等。这项能力被认为是人类社交互动的基础,对于沟通、同理心和社会决策至关重要。然而,对于人工智能模型是否具备类似的能力,一直存在争议。

该论文采用了一种全面的方法来测试大型语言模型的心智理论能力。他们选择了一组经过充分研究的心智理论测试,包括暗示任务、错误信念任务、失礼行为识别和奇怪故事等。这些测试涵盖了不同的心智理论能力,从对人类而言相对简单的理解间接请求,到对人类而言更具认知挑战性的识别和表达复杂心理状态,如误导或讽刺。

在错误信念任务中,无论是人类参与者还是大型语言模型都表现出了近乎完美的表现。这表明它们能够理解一个人的信念可能与现实不符,并能够预测这个人在面对这种信念时的行为。然而,值得注意的是,大型语言模型的这种表现可能可以通过比信念追踪更低级的机制来解释。

在讽刺理解测试中,GPT-4的表现显著优于人类水平,而GPT-3.5和LLaMA2-Chat则表现较差。这表明GPT-4在理解讽刺方面具有先进的能力,而其他模型则需要改进。

然而,在失礼行为测试中,GPT-4的表现明显低于人类水平,而LLaMA2-Chat则表现得更好。这个测试要求参与者识别一个人是否说了不该说的话,并理解这个人可能不知道或没有意识到他们的话是冒犯性的。尽管GPT-4能够正确识别受害者会感到被冒犯或伤害,但当被问及说话者是否意识到使他们的陈述冒犯性的背景时,它们却无法给出正确的答案。

为了进一步探索这些模型在失礼行为测试中的失败原因,研究人员设计了一个新的测试变体,即失礼行为可能性测试。在这个测试中,他们要求模型评估说话者知道或不知道相关背景信息的可能性。结果显示,GPT-4在这个测试中表现出了完美的表现,这表明它能够理解说话者的心理状态并选择最可能的解释。

此外,研究人员还进行了一个信念可能性测试,以操纵说话者知道或不知道的可能性。他们为每个测试项目创建了三个变体:失礼行为变体、中立变体和知识暗示变体。结果显示,GPT-4能够根据故事内容准确解释说话者的心理状态,而LLaMA2-Chat则没有表现出这种能力。

论文地址:https://www.nature.com/articles/s41562-024-01882-z

目录
相关文章
|
2月前
|
数据采集 人工智能
Nature封面:AI训练AI,越训越离谱
【8月更文挑战第16天】新发表于《自然》杂志的论文显示,当AI模型基于其他AI生成的数据训练时,会出现“模型崩溃”现象,即模型逐渐遗忘真实数据分布细节,偏向生成更常见模式而非罕见模式。这一研究由牛津、剑桥等高校合作完成,通过实验验证了不同AI模型均可能出现此问题,尤其是在低质或少量数据训练下更为显著。但通过数据增强或模型正则化可缓解该现象。研究强调了训练数据质量和来源的重要性,并引发了关于AI发展和应用的讨论。
188 58
|
2月前
|
机器学习/深度学习 人工智能
AI训AI惨遭投毒9次大崩溃,牛津剑桥等惊天发现登Nature封面!
【8月更文挑战第11天】牛津与剑桥大学研究揭示,AI模型若反复在自身生成的数据上训练,将遭遇“模型崩溃”,即性能严重退化,甚至遗忘真实世界的数据分布。此现象在《自然》杂志刊出,警示AI进化之路暗藏风险。实验显示,随着训练代际增加,模型倾向于生成更简单内容,丢失稀有信息,最终可能导致对现实世界的误解加深。此发现对AI领域的持续发展及模型可靠性提出了新的挑战。
168 60
|
11天前
|
人工智能 安全 测试技术
忘掉GPT-5!OpenAI推出全新AI模型系列o1,声称性能达到博士级
忘掉GPT-5!OpenAI推出全新AI模型系列o1,声称性能达到博士级
|
19天前
|
人工智能 自然语言处理 算法
GPT-4无师自通预测蛋白质结构登Nature子刊!LLM全面进军生物学,AlphaFold被偷家?
【9月更文挑战第17天】近日,《自然》子刊发表的一篇论文展示了GPT-4在预测蛋白质结构方面的惊人能力,这一突破不仅揭示了大型语言模型在生物学领域的巨大潜力,还可能影响传统预测工具如AlphaFold的地位。研究人员发现,GPT-4仅通过自然语言处理就能准确预测蛋白质的三维结构,包括常见的氨基酸序列和复杂的α-螺旋结构。实验结果显示,其预测精度与实际结构非常接近。这一成果意味着自然语言处理技术也可应用于生物学研究,但同时也引发了关于其局限性和对现有工具影响的讨论。论文详情见:https://www.nature.com/articles/s41598-024-69021-2
39 8
|
20天前
|
人工智能 数据处理
Nature:AI让抄袭问题更加复杂,科学家该如何应对?
【9月更文挑战第16天】《自然》杂志一篇文章指出,AI在科研领域的应用日益增长,带来了加速数据处理、提升计算效率等益处,同时也引发了对科学标准、数据偏见及研究诚信的挑战。一项针对1600多名研究人员的调查显示,超半数认为未来十年AI将成为其研究领域不可或缺的工具。AI能够显著提升科研效率,但也可能增加对模式识别的依赖,加剧数据偏见,并引发研究不可重复性等问题。尤其是大型语言模型如ChatGPT,虽有助于改进论文语法和翻译,但也可能传播错误信息。此外,部分科学家面临计算资源和高质量数据不足等使用障碍。
23 3
|
28天前
|
人工智能 开发者
Nature曝惊人内幕:论文被天价卖出喂AI!出版商狂赚上亿,作者0收入
【9月更文挑战第8天】《自然》杂志近日揭露,学术出版商如泰勒·弗朗西斯与微软签订千万美元合约,及威利获高额报酬,将论文提供给科技巨头训练AI模型,引发学界对版权与收益分配的热议。此现象反映了AI对高质量数据的渴求,但亦使研究人员担忧成果被无偿商用,且可能影响学术独立性。尽管AI训练使用学术资源能提升模型科学性,助力科研进展,但如何保障作者权益及维持学术纯粹性仍是亟待解决的问题。https://www.nature.com/articles/d41586-024-02599-9
33 4
|
28天前
|
机器学习/深度学习 人工智能 算法
首个像人类一样思考的网络!Nature子刊:AI模拟人类感知决策
【9月更文挑战第8天】近日,《自然》子刊发表的一篇关于RTNet神经网络的论文引起广泛关注。RTNet能模拟人类感知决策思维,其表现与人类相近,在反应时间和准确率上表现出色。这项研究证明了神经网络可模拟人类思维方式,为人工智能发展带来新启示。尽管存在争议,如是否真正理解人类思维机制以及潜在的伦理问题,但RTNet为人工智能技术突破及理解人类思维机制提供了新途径。论文详细内容见《自然》官网。
36 3
|
6天前
|
存储 人工智能 开发框架
蚂蚁集团开源项目 DB-GPT 和 VSAG 惊艳亮相,引领 AI 数据革命!
9月5日,在2024 Inclusion·外滩大会“从DATA for AI到AI for DATA”见解论坛上,由蚂蚁集团发起的,旨在提高数据库与大模型应用开发效率的“星辰智能社区”新发布了两个项目:AI原生数据应用开发框架DB-GPT新版本与向量索引库VSAG。
|
2月前
|
人工智能 自然语言处理 小程序
【AI】Gemini:听说GPT-4你小子挺厉害
谷歌推出新AI模型Gemini Pro,支持中文并具备多模态处理能力,涵盖文本、图像、音频、视频和代码。本文通过五个问题对比Gemini Pro与ChatGPT-4的表现,包括绘画、数学题解答、成语解释、天气查询及奥运冠军名单。结果显示两者各有优势,Gemini Pro在成语解释和天气查询方面略胜一筹,而ChatGPT-4在绘画方面表现更好
31 0
【AI】Gemini:听说GPT-4你小子挺厉害
|
2月前
|
机器学习/深度学习 人工智能
谷歌AI天气神算登Nature:30秒模拟22天天气,效率暴涨10万倍!
【8月更文挑战第9天】NeuralGCM是由谷歌AI团队开发的革命性天气预测模型,结合机器学习与传统大气物理模型,大幅提高了预测效率与准确性。它能在30秒内完成22天的天气模拟,效率比传统模型提升10万倍。NeuralGCM通过学习大量历史数据,其1至10天内的预测精度媲美甚至超过顶级模型,在极端天气预测方面也有出色表现。尽管尚存局限,如长期气候预测的精确度待提升,但NeuralGCM展现了在应对气候变化及气象挑战中的巨大潜力。【论文链接:https://www.nature.com/articles/s41586-024-07744-y】
40 7
下一篇
无影云桌面