【大语言模型-论文速读】GPT的不确定性判断

简介: 【大语言模型-论文速读】GPT的不确定性判断

【大语言模型-论文精读】GPT’s Judgements Under Uncertainty

Authors: Payam Saeedi and Mahsa Goodarzi

论文:https://arxiv.org/pdf/2410.02820

文章标题翻译

GPT的不确定性判断

Payam Saeedi Rochester Institute of Technology

Mahsa Goodarzi The State University of New York at Albany

摘要

本文研究了人类认知中的固有偏见(例如损失厌恶、框架效应和合取谬误)是否体现在GPT-4o在概率场景中的判断和决策中。通过在九种认知偏见上进行1350次实验,并分析统计与启发式推理的回答,我们展示了GPT-4o在回应具有相似底层概率表示的提示时的矛盾方法。研究结果还揭示了AI的表现参差不齐,它既展示了类似人类的启发式错误,也做出了统计上合理的决策,尽管它经历了相同提示的相同迭代。

创新点

  • 认知偏见的AI体现: 研究了人类认知偏见是否以及如何体现在大型语言模型(LLMs)的决策和判断中。
  • 大规模实验: 在九种不同的认知偏见上进行了1350次实验,以评估GPT-4o的反应。
  • 统计与启发式推理的对比: 分析了GPT-4o的回答是属于统计推理还是启发式推理。

算法模型

  • GPT-4o: 使用OpenAI的API进行实验,GPT-4o是目前为止OpenAI提供的速度最快、效率最高的模型。
  • 零次推理链: 在实验中使用了零次推理链提示技术,让AI以“参与社会实验的人类”的角色进行回答。

实验效果

  • 实验总数: 1350次
  • 详细数据:
  • 合取谬误: GPT-4o在所有实验中几乎总是提供了统计上合理且正确的回答。
  • 概率忽视: 在某些概率忽视实验中,GPT-4o能够正确理解并应用概率概念。
  • 框架效应: GPT-4o在正负框架的同一场景中给出了矛盾的回答。
  • 损失厌恶和展望理论: GPT-4o在大多数实验中未能考虑基于硬币翻转结果的预期价值。
  • 结论: GPT-4o在处理某些类型的认知偏见时表现出了较高的性能,但在特定条件下仍然容易受到认知偏见的影响。

文章中提到的GPT-4o模型在处理认知偏见方面的表现呈现出一种混合的模式,它在某些领域做得较好,而在其他领域则存在明显的不足。具体而言,如下

做得好的方面:

  1. 合取谬误(Conjunction Fallacy)
  • GPT-4o在处理合取谬误方面表现出色,始终提供了统计上合理且正确的回答。它能够理解并且正确地应用概率原则,即两个集合的交集总是小于任一集合的大小。
  1. 某些概率忽视(Probability Neglect)
  • 在某些概率忽视的实验中,GPT-4o能够正确地识别事件的独立性,并据此做出反应。例如,当询问一系列硬币投掷中出现正面的概率时,GPT-4o能够坚持每次投掷的概率是独立的。

有待改进的方面:

  1. 偏见相似性(Bias of Resemblence)
  • GPT-4o在识别和处理偏见相似性方面表现不佳,几乎在所有情况下都依赖于简化的启发式方法,而不是基于基础概率进行判断。
  1. 框架效应(Framing Effect)
  • 在框架效应的实验中,GPT-4o对于同一场景的不同表述给出了矛盾的回答,表现出了与人类类似的启发式错误。
  1. 损失厌恶(Loss Aversion)和展望理论(Prospect Theory)
  • GPT-4o在处理损失厌恶和展望理论相关的实验时,往往忽略了基于硬币投掷结果的预期价值,倾向于选择风险较小的选项,而不是根据概率计算预期价值。
  1. 沉没成本谬误(Sunk Cost Fallacy)
  • 尽管GPT-4o能够识别沉没成本谬误并正确引用这一概念,但在实验中它在82%的情况下正确回答,仍有18%的情况未能正确处理。

推荐阅读指数

★★★★☆

推荐理由:

  • 研究的创新性: 该研究探讨了AI在模拟人类决策过程中的认知偏见,这是一个相对较新且重要的研究领域。

扣分理由:

  • 模型的泛化能力: 研究仅在GPT-4o上进行,可能无法完全泛化到其他模型。
  • 实验设计的局限性: 使用零次推理链提示技术可能不能完全代表现实世界中LLM的应用情境。

后记

如果您对我的博客内容感兴趣,欢迎三连击(点赞,关注和评论),我将持续为您带来计算机人工智能前沿技术(尤其是AI相关的大语言模型,深度学习,计算机视觉相关方向)最新学术论文及工程实践方面的内容分享,助力您更快更准更系统地了解 AI前沿技术

目录
相关文章
|
6月前
|
弹性计算 自然语言处理 Linux
部署GPT-2大语言模型到基于ECS Intel实例的过程可以分为以下步骤
部署GPT-2大语言模型到基于ECS Intel实例的过程可以分为以下步骤
89 3
|
6月前
|
人工智能 自然语言处理 Linux
|
4月前
|
数据采集 人工智能 自然语言处理
GPT被封锁了怎么办?轻松获取高质量的数据,训练自己的人工智能和大语言模型。
2023年标志着AI大模型时代的到来,GPT-4等模型在多个领域展现巨大潜力。然而,OpenAI对中国区服务的限制提出了挑战。本文探讨如何使用亮数据代理获取训练大模型所需的数据,包括确定目标、选择代理、数据抓取、清洗,并以西方历史为例,展示如何使用亮数据的静态住宅代理稳定获取DE区域数据,最终在国产AI平台上训练模型,提升知识库的丰富度和准确性。尽管面临外部障碍,但自主获取和训练数据能增强本土AI能力。
|
4月前
|
人工智能 自然语言处理 计算机视觉
推荐收藏!2024年新版GPT详细论文润色指南【更新至2024年4月30日】
推荐收藏!2024年新版GPT详细论文润色指南【更新至2024年4月30日】
215 0
|
6月前
|
人工智能 自然语言处理 监控
GPT-4整治学术不端!人大/浙大团队实测7000篇论文,撤稿预测与人类95%一致
【4月更文挑战第15天】中国人民大学和浙江大学的研究团队利用GPT-4模型预测论文撤稿,研究基于3,505篇撤稿及未撤稿论文的推特数据,发现16%的撤稿论文提及含有预警信号,预测准确度高达92.86%。GPT-4预测一致性达95%,为学术诚信监控提供新途径。但研究受限于主观偏见、撤稿原因区分及推特互动等因素。
97 1
GPT-4整治学术不端!人大/浙大团队实测7000篇论文,撤稿预测与人类95%一致
|
自然语言处理 数据库 C++
Table-GPT:让大语言模型理解表格数据
llm对文本指令非常有用,但是如果我们尝试向模型提供某种文本格式的表格数据和该表格上的问题,LLM更有可能产生不准确的响应。
460 0
|
6月前
|
机器学习/深度学习 数据采集 自然语言处理
[GPT-2]论文解读:Language Models are Unsupervised Multitask Learners
[GPT-2]论文解读:Language Models are Unsupervised Multitask Learners
210 1
|
6月前
|
机器学习/深度学习 JSON 自然语言处理
[GPT-1]论文实现:Improving Language Understanding by Generative Pre-Training
[GPT-1]论文实现:Improving Language Understanding by Generative Pre-Training
112 1
|
机器学习/深度学习 人工智能 自然语言处理
大语言模型的预训练[2]:GPT、GPT2、GPT3、GPT3.5、GPT4相关理论知识和模型实现、模型应用以及各个版本之间的区别详解
大语言模型的预训练[2]:GPT、GPT2、GPT3、GPT3.5、GPT4相关理论知识和模型实现、模型应用以及各个版本之间的区别详解
大语言模型的预训练[2]:GPT、GPT2、GPT3、GPT3.5、GPT4相关理论知识和模型实现、模型应用以及各个版本之间的区别详解
|
6月前
|
Web App开发 人工智能 安全
谷歌炸场:全新大语言模型 Gemini 1.0 正式亮相,近乎全面领先于 OpenAI GPT-4
根据谷歌给出的基准测试结果,Gemini 在许多测试中都表现出了“最先进的性能”,甚至在大部分基准测试中完全击败了 OpenAI 的 GPT-4。

热门文章

最新文章