最近,一篇关于大型语言模型(LLMs)的论文在人工智能领域引起了广泛关注。这篇论文以经典文学作品《爱丽丝梦游仙境》为背景,通过简单的任务展示了目前最先进的大型语言模型在逻辑推理方面的严重缺陷。
论文首先指出,大型语言模型通常被描述为具有强大的泛化能力,能够在各种任务和条件下进行有效的迁移学习,并且随着预训练规模的增加,其性能也会相应提高。然而,这些模型的优秀表现主要依赖于在各种标准化基准测试中的高分,而这些测试可能无法全面评估模型的逻辑推理能力。
为了揭示大型语言模型的局限性,论文设计了一个简单的常识问题,这个问题以简洁自然的语言形式呈现,对于人类来说是很容易解决的。然而,当这个问题被提交给目前最先进的大型语言模型时,如GPT、Claude等,它们不仅给出了错误的答案,而且在解释其推理过程时也表现出了强烈的过度自信。
具体来说,论文提出了两个问题,旨在测试模型的逻辑推理和常识理解能力。第一个问题是:“如果爱丽丝在仙境中喝了一种使她变小的药水,那么她会如何影响周围的世界?”对于这个问题,人类可以很容易地推断出,变小的爱丽丝会对周围的世界产生更小的影响,因为她的体型变小了。然而,大型语言模型却给出了各种荒谬的答案,比如说爱丽丝会改变时间的流逝速度,或者她会引发一场革命。
第二个问题是:“如果爱丽丝在仙境中遇到了一个总是说反话的生物,那么当这个生物说‘我现在说的是真话’时,它是否在说真话?”对于这个问题,人类可以运用逻辑推理来得出结论:如果这个生物总是说反话,那么当它说“我现在说的是真话”时,它实际上在说谎。然而,大型语言模型却陷入了循环推理的陷阱,无法得出正确的结论。
更令人惊讶的是,当被要求重新考虑其错误答案时,大型语言模型仍然坚持其错误观点,并提供了一些非理性的“推理”来支持其立场。这种行为被论文作者描述为类似于人类的虚构行为,即在没有合理解释的情况下,为了维护自己的观点而编造理由。
为了验证这些观察结果的普遍性,论文还尝试了各种干预措施,如使用不同类型的提示或鼓励模型进行多步重新评估。然而,这些努力都未能改变模型的错误推理。
基于这些发现,论文呼吁科学和技术界对当前一代大型语言模型的能力进行重新评估。它指出,现有的评估程序和基准测试可能无法检测到模型在基本逻辑推理方面的缺陷,因此需要共同努力来创建能够准确评估模型推理能力的新基准测试。