title: Why language models hallucinate
by: openai
date: September 5, 2025
在 OpenAI,我们正努力让 AI 系统变得更加有用和可靠。即使语言模型变得越来越强大,有一个难题依然顽固难以彻底解决:幻觉现象。所谓幻觉,指的是模型自信地生成了一个并不真实的答案。我们的最新研究论文提出,语言模型之所以会产生幻觉,是因为标准的训练和评估流程更鼓励模型去猜测,而不是承认自己不确定。
ChatGPT 也会出现幻觉。GPT‑5 出现幻觉的频率明显降低,尤其是在推理时更是如此,但幻觉仍然会发生。对于所有大型语言模型来说,幻觉仍然是一个重大挑战,不过我们正努力进一步减少这种情况。
什么是幻觉
幻觉是语言模型生成的看似可信但实际上错误的陈述。它们可能以令人吃惊的方式出现,甚至在看似非常简单的问题上也会发生。
举个例子:我们曾询问一个广泛使用的聊天机器人,Adam Tauman Kalai(本论文的一位作者)的博士论文题目是什么。结果机器人非常自信地给出了三个不同的答案——没有一个是正确的。当我们问他的生日时,它又给出了三个不同的日期,同样全都答错了。
应试倾向
幻觉之所以挥之不去,部分原因在于当前的评估方法设置了错误的激励机制。评估本身并不会直接导致幻觉,但大多数评估衡量模型表现的方式会鼓励模型去猜测,而不是如实地表明不确定性。
可以用选择题考试来打比方。如果你不知道答案却随便蒙一个,运气好的话可能正好答对;而空着不答则肯定是 0 分。类似地,当模型只根据准确率(即答对问题的比例)来评分时,它就更倾向于猜测,而不是老实地回答“我不知道”。
再举个例子,假设一个语言模型被问到某人的生日,但它并不知道正确答案。如果它猜“9 月 10 日”,那么猜对的概率是 1/365;而回答“我不知道”则肯定得 0 分。在成千上万道测试题中,爱猜的模型最终在排行榜上的成绩会比谨慎承认不确定性的模型更好看。
对于只有唯一正确答案的问题,可以将模型的回答分为三类:正确、错误,以及放弃作答(模型不贸然猜测)。选择不回答体现了一种谦逊态度,而谦逊是 OpenAI 的核心价值观之一。多数排行榜根据准确率对模型进行排名,但实际上错误回答比放弃作答更糟糕。我们的 Model Spec(模型规范)指出,与其自信地给出可能错误的信息,最好表明不确定性或请求澄清。
举例来说,可以参考 GPT-5 System Card 文档中的一个示例:SimpleQA 评测。
从准确率来看,较旧的 OpenAI o4-mini 模型表现略好。然而,它的错误率(也就是幻觉发生率)高得多。在不确定时进行策略性猜测可以提高准确率,但也会增加错误和幻觉。
在对数十项评测结果取平均时,大多数基准测试只看准确率这一指标,但这实际上造成了对与错之间的虚假二分。在像 SimpleQA 这样简单的评测中,一些模型可以达到接近 100% 的准确率,从而几乎不出现幻觉。然而,在更具挑战性的评测以及实际使用中,准确率不可能达到 100%,因为有些问题由于各种原因无法确定答案,例如信息不可获、较小模型的思维能力有限,或问题本身存在需要澄清的模糊之处。
尽管如此,只以准确率为标准的评分机制依然主导着模型排行榜和模型卡片,这驱使开发者倾向于打造那些在不确定情况下宁可猜也不愿沉默的模型。这也是为什么即便模型越来越先进,它们仍然会产生幻觉:在不确定时,模型宁可自信地给出错误答案,也不愿承认自己不知道。
更优的评测评分方式
其实有一个直接的解决方法。对于过于自信却答错的情况,比对于不确定的回答扣更多分,并且对恰当表达不确定性的情况给予部分分数。这并不是什么新想法。一些标准化考试早就采取类似措施:对错误答案进行扣分,或者对空白未答给予部分分,以此来阻止盲目猜测。也有一些研究团队探索过在评估中纳入对不确定性和校准的考量。
但我们的侧重点不同。仅仅额外增加几项考虑不确定性的测试还不够。那些广泛使用的、基于准确率的评测需要更新其计分方式,以便不再助长模型盲目猜测。如果主流的排行榜继续奖励侥幸猜对的情况,模型就会继续学着去猜。修正这些评分机制可以扩大减少幻觉技术的采用范围——无论是新开发的方法还是以往研究中的成果。
幻觉是如何从下一词预测中产生的
我们已经谈过为什么幻觉如此难以消除,但这些非常具体的事实错误最初是从何而来的呢?毕竟,大型预训练模型很少犯拼写错误或括号不匹配之类的错误。这种差异归根结底在于数据中存在什么样的模式。
语言模型首先通过预训练阶段来学习——也就是在海量文本中预测下一个词。不像传统的机器学习任务,这里的每句话都没有贴上“真/假”的标签。模型只能看到语言流畅的正面示例,并且必须据此近似整个语言分布。
在完全没有被标记为“无效”的示例时,要区分有效陈述和无效陈述就更是难上加难。不过,即使有了标签,某些错误仍然无法避免。为什么会这样呢?我们可以考虑一个更简单的类比:在图像识别中,如果数百万张猫和狗的照片被标注为“猫”或“狗”,算法就能可靠地学会将它们分类。但试想如果改为给每张宠物照片标注宠物的生日。由于生日基本上是随机的,无论算法多么先进,这个任务总会产生错误。
同样的原理也适用于预训练阶段。像拼写和括号配对这样遵循一致模式的内容,随着规模增大错误就消失了。但一些任意的低频事实(比如宠物的生日)无法仅凭模式来预测,因此就会导致幻觉的产生。我们的分析解释了哪些类型的幻觉会源自下一词预测。理想情况下,预训练后的进一步阶段应该能够消除它们,但由于上一节所述的原因,这一目标尚未完全实现。
结论
我们希望我们论文中的统计视角能够阐明幻觉的本质,并澄清一些常见的误解:
误解:通过提高准确率可以消除幻觉,因为一个 100% 准确的模型永远不会产生幻觉。
发现:准确率永远不可能达到 100%。无论模型规模多大、搜索和推理能力多强,总有一些现实问题的答案从根本上来说是无解的。
误解:幻觉是不可避免的
发现:并非如此,因为语言模型在不确定时可以选择不作答。
误解:避免幻觉需要一定程度的智能,而这种智能只有更大的模型才能实现。
发现:对于小模型而言,认识到自己的局限反而更容易。举例来说,当被要求回答一个毛利语(Māori)问题时,一个完全不懂毛利语的小模型可以直接回答“我不知道”,而懂一些毛利语的模型则必须先判断自己有多大把握。正如论文中讨论的,“校准”(指模型评估自身确定性的能力)所需的计算量远远小于追求绝对准确所需的计算量。
误解:幻觉是现代语言模型中一种神秘的故障。
发现:我们已经理解了幻觉产生的统计机制,以及为什么它们会在评估中被“奖励”。
误解:要评估幻觉,我们只需要一个好的幻觉评测。
发现:针对幻觉的评测方案已经发布。然而,在面对上百种传统的基于准确率的评测时,再好的幻觉评测也几乎起不了作用——这些传统评测会惩罚谦逊、奖励乱猜。因此,所有主要的评测指标都需要重新设计,以奖励表达不确定性的行为。
我们最新的模型已经将幻觉发生率降得更低,我们也将继续努力,进一步减少语言模型自信输出错误答案的情况。