大型语言模型为何产生幻觉

本文涉及的产品
多模态交互后付费免费试用,全链路、全Agent
简介: 语言模型为何会产生幻觉?OpenAI 最新研究指出,幻觉源于模型在训练和评估中被鼓励猜测而非承认“不知道”。即使强大如 GPT-5,也无法完全避免幻觉。改进评估方式、奖励模型表达不确定性,是减少幻觉的关键。

title: Why language models hallucinate
by: openai
date: September 5, 2025

在 OpenAI,我们正努力让 AI 系统变得更加有用和可靠。即使语言模型变得越来越强大,有一个难题依然顽固难以彻底解决:幻觉现象。所谓幻觉,指的是模型自信地生成了一个并不真实的答案。我们的最新研究论文提出,语言模型之所以会产生幻觉,是因为标准的训练和评估流程更鼓励模型去猜测,而不是承认自己不确定。

ChatGPT 也会出现幻觉。GPT‑5 出现幻觉的频率明显降低,尤其是在推理时更是如此,但幻觉仍然会发生。对于所有大型语言模型来说,幻觉仍然是一个重大挑战,不过我们正努力进一步减少这种情况。

什么是幻觉

幻觉是语言模型生成的看似可信但实际上错误的陈述。它们可能以令人吃惊的方式出现,甚至在看似非常简单的问题上也会发生。
举个例子:我们曾询问一个广泛使用的聊天机器人,Adam Tauman Kalai(本论文的一位作者)的博士论文题目是什么。结果机器人非常自信地给出了三个不同的答案——没有一个是正确的。当我们问他的生日时,它又给出了三个不同的日期,同样全都答错了。

应试倾向

幻觉之所以挥之不去,部分原因在于当前的评估方法设置了错误的激励机制。评估本身并不会直接导致幻觉,但大多数评估衡量模型表现的方式会鼓励模型去猜测,而不是如实地表明不确定性。

可以用选择题考试来打比方。如果你不知道答案却随便蒙一个,运气好的话可能正好答对;而空着不答则肯定是 0 分。类似地,当模型只根据准确率(即答对问题的比例)来评分时,它就更倾向于猜测,而不是老实地回答“我不知道”。
再举个例子,假设一个语言模型被问到某人的生日,但它并不知道正确答案。如果它猜“9 月 10 日”,那么猜对的概率是 1/365;而回答“我不知道”则肯定得 0 分。在成千上万道测试题中,爱猜的模型最终在排行榜上的成绩会比谨慎承认不确定性的模型更好看。

对于只有唯一正确答案的问题,可以将模型的回答分为三类:正确、错误,以及放弃作答(模型不贸然猜测)。选择不回答体现了一种谦逊态度,而谦逊是 OpenAI 的核心价值观之一。多数排行榜根据准确率对模型进行排名,但实际上错误回答比放弃作答更糟糕。我们的 Model Spec(模型规范)指出,与其自信地给出可能错误的信息,最好表明不确定性或请求澄清。
举例来说,可以参考 GPT-5 System Card 文档中的一个示例:SimpleQA 评测。
G0S1mLZbkAADTZZ.png
从准确率来看,较旧的 OpenAI o4-mini 模型表现略好。然而,它的错误率(也就是幻觉发生率)高得多。在不确定时进行策略性猜测可以提高准确率,但也会增加错误和幻觉。

在对数十项评测结果取平均时,大多数基准测试只看准确率这一指标,但这实际上造成了对与错之间的虚假二分。在像 SimpleQA 这样简单的评测中,一些模型可以达到接近 100% 的准确率,从而几乎不出现幻觉。然而,在更具挑战性的评测以及实际使用中,准确率不可能达到 100%,因为有些问题由于各种原因无法确定答案,例如信息不可获、较小模型的思维能力有限,或问题本身存在需要澄清的模糊之处。

尽管如此,只以准确率为标准的评分机制依然主导着模型排行榜和模型卡片,这驱使开发者倾向于打造那些在不确定情况下宁可猜也不愿沉默的模型。这也是为什么即便模型越来越先进,它们仍然会产生幻觉:在不确定时,模型宁可自信地给出错误答案,也不愿承认自己不知道。

更优的评测评分方式

其实有一个直接的解决方法。对于过于自信却答错的情况,比对于不确定的回答扣更多分,并且对恰当表达不确定性的情况给予部分分数。这并不是什么新想法。一些标准化考试早就采取类似措施:对错误答案进行扣分,或者对空白未答给予部分分,以此来阻止盲目猜测。也有一些研究团队探索过在评估中纳入对不确定性和校准的考量。

但我们的侧重点不同。仅仅额外增加几项考虑不确定性的测试还不够。那些广泛使用的、基于准确率的评测需要更新其计分方式,以便不再助长模型盲目猜测。如果主流的排行榜继续奖励侥幸猜对的情况,模型就会继续学着去猜。修正这些评分机制可以扩大减少幻觉技术的采用范围——无论是新开发的方法还是以往研究中的成果。

幻觉是如何从下一词预测中产生的

我们已经谈过为什么幻觉如此难以消除,但这些非常具体的事实错误最初是从何而来的呢?毕竟,大型预训练模型很少犯拼写错误或括号不匹配之类的错误。这种差异归根结底在于数据中存在什么样的模式。

语言模型首先通过预训练阶段来学习——也就是在海量文本中预测下一个词。不像传统的机器学习任务,这里的每句话都没有贴上“真/假”的标签。模型只能看到语言流畅的正面示例,并且必须据此近似整个语言分布。

在完全没有被标记为“无效”的示例时,要区分有效陈述和无效陈述就更是难上加难。不过,即使有了标签,某些错误仍然无法避免。为什么会这样呢?我们可以考虑一个更简单的类比:在图像识别中,如果数百万张猫和狗的照片被标注为“猫”或“狗”,算法就能可靠地学会将它们分类。但试想如果改为给每张宠物照片标注宠物的生日。由于生日基本上是随机的,无论算法多么先进,这个任务总会产生错误。

同样的原理也适用于预训练阶段。像拼写和括号配对这样遵循一致模式的内容,随着规模增大错误就消失了。但一些任意的低频事实(比如宠物的生日)无法仅凭模式来预测,因此就会导致幻觉的产生。我们的分析解释了哪些类型的幻觉会源自下一词预测。理想情况下,预训练后的进一步阶段应该能够消除它们,但由于上一节所述的原因,这一目标尚未完全实现。

结论

我们希望我们论文中的统计视角能够阐明幻觉的本质,并澄清一些常见的误解:
误解:通过提高准确率可以消除幻觉,因为一个 100% 准确的模型永远不会产生幻觉。
发现:准确率永远不可能达到 100%。无论模型规模多大、搜索和推理能力多强,总有一些现实问题的答案从根本上来说是无解的。
误解:幻觉是不可避免的
发现:并非如此,因为语言模型在不确定时可以选择不作答。
误解:避免幻觉需要一定程度的智能,而这种智能只有更大的模型才能实现。
发现:对于小模型而言,认识到自己的局限反而更容易。举例来说,当被要求回答一个毛利语(Māori)问题时,一个完全不懂毛利语的小模型可以直接回答“我不知道”,而懂一些毛利语的模型则必须先判断自己有多大把握。正如论文中讨论的,“校准”(指模型评估自身确定性的能力)所需的计算量远远小于追求绝对准确所需的计算量。
误解:幻觉是现代语言模型中一种神秘的故障。
发现:我们已经理解了幻觉产生的统计机制,以及为什么它们会在评估中被“奖励”。
误解:要评估幻觉,我们只需要一个好的幻觉评测。
发现:针对幻觉的评测方案已经发布。然而,在面对上百种传统的基于准确率的评测时,再好的幻觉评测也几乎起不了作用——这些传统评测会惩罚谦逊、奖励乱猜。因此,所有主要的评测指标都需要重新设计,以奖励表达不确定性的行为。

我们最新的模型已经将幻觉发生率降得更低,我们也将继续努力,进一步减少语言模型自信输出错误答案的情况。

目录
相关文章
|
21天前
|
人工智能 安全 程序员
RAG系统大脑调教指南:模型选择、提示设计与质量控保一本通
本文用轻松幽默的方式解密如何在RAG系统中选择、调教和监督生成模型,让它成为一个既聪明又靠谱的知识助手。从模型选择到提示工程再到质量控制,手把手教你如何避开AI的「胡言乱语」陷阱。
106 11
|
1月前
|
缓存 自然语言处理 API
阿里云百炼产品月刊【2025年8月】
阿里云百炼平台8月推出多项更新与活动。通义千问系列重磅升级,新增多款图像、语音及研究模型,如Qwen-Image、Qwen-Image-Edit、Qwen-MT-Image、Wan2.2-S2V等,全面增强图文生成与编辑能力。推出Qwen-Flash轻量模型,优化代码与推理性能,支持高并发低延迟场景。平台服务稳定性提升,部分模型计费策略调整,上下文缓存价格降低至input_token的20%,并提供100万免费token额度。同步上线“实训Agent创客”活动,助力用户快速上手新模型,提升实践能力。
257 5
|
29天前
|
存储 人工智能 测试技术
手把手带你入门AI智能体:从核心概念到第一个能跑的Agent
AI智能体是一种能感知环境、自主决策并执行任务的人工智能系统。它不仅能生成回应,还可通过工具使用、计划制定和记忆管理完成复杂工作,如自动化测试、脚本编写、缺陷分析等。核心包括大语言模型(LLM)、任务规划、工具调用和记忆系统。通过实践可逐步构建高效智能体,提升软件测试效率与质量。
|
11天前
|
机器学习/深度学习 传感器 分布式计算
数据才是真救命的:聊聊如何用大数据提升灾难预警的精准度
数据才是真救命的:聊聊如何用大数据提升灾难预警的精准度
78 14
|
29天前
|
数据采集 存储 机器学习/深度学习
数据融合是什么?进行数据融合的4大关键环节!
当业务数据分散、格式不一,难以统一分析时,数据融合成为关键。它通过整合多源数据,形成统一、高质量的数据集,为AI模型提供精准输入。本文详解数据融合的定义、类型、挑战及应对方法,助你打破数据壁垒,挖掘深层价值,推动业务创新。
数据融合是什么?进行数据融合的4大关键环节!
|
2月前
|
人工智能 Kubernetes 监控
初探:从0开始的AI-Agent开发踩坑实录
本文主要阐述作者通过亲身实践,探索利用AI Agent实现开源应用Helm Chart自动化生成的实践历程。
370 17
初探:从0开始的AI-Agent开发踩坑实录
|
1月前
|
算法 关系型数据库 文件存储
ProxylessNAS:直接在目标任务和硬件上进行神经架构搜索——论文解读
ProxylessNAS是一种直接在目标任务和硬件上进行神经架构搜索的方法,有效降低了传统NAS的计算成本。通过路径二值化和两路径采样策略,减少内存占用并提升搜索效率。相比代理任务方法,ProxylessNAS在ImageNet等大规模任务中展现出更优性能,兼顾准确率与延迟,支持针对不同硬件(如GPU、CPU、移动端)定制高效网络架构。
258 126
ProxylessNAS:直接在目标任务和硬件上进行神经架构搜索——论文解读
|
2月前
|
机器学习/深度学习 缓存 算法
解密Qwen3三连发:强化学习新算法GSPO!
强化学习(RL)是提升语言模型推理与问题求解能力的关键技术。然而,现有算法如 GRPO 在长期训练中存在严重不稳定性,限制了性能提升。为此,我们提出 **Group Sequence Policy Optimization (GSPO)**,通过在序列层面定义重要性比率并进行优化,显著提升了训练效率与稳定性。GSPO 在 MoE 模型训练中表现出色,无需依赖复杂策略即可实现高效训练,简化了 RL 基础设施。该算法已成功应用于 Qwen3 系列模型,推动 RL scaling 边界,释放模型潜能。
272 0
|
2月前
|
文字识别 算法 语音技术
基于模型蒸馏的大模型文案生成最佳实践
本文介绍了基于模型蒸馏技术优化大语言模型在文案生成中的应用。针对大模型资源消耗高、部署困难的问题,采用EasyDistill算法框架与PAI产品,通过SFT和DPO算法将知识从大型教师模型迁移至轻量级学生模型,在保证生成质量的同时显著降低计算成本。内容涵盖教师模型部署、训练数据构建及学生模型蒸馏优化全过程,助力企业在资源受限场景下实现高效文案生成,提升用户体验与业务增长。
375 23