两句话，让LLM逻辑推理瞬间崩溃！最新爱丽丝梦游仙境曝出GPT、Claude等重大缺陷-阿里云开发者社区

两句话，让LLM逻辑推理瞬间崩溃！最新爱丽丝梦游仙境曝出GPT、Claude等重大缺陷

2024-06-17 354

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【6月更文挑战第17天】新论文揭示GPT和Claude等LLM在逻辑推理上的重大缺陷。通过《爱丽丝梦游仙境》场景，研究显示这些模型在处理简单常识问题时给出错误答案并过度自信。即使面对明显逻辑矛盾，模型仍坚持错误推理，暴露了现有评估方法的不足。[链接：https://arxiv.org/abs/2406.02061]

最近，一篇关于大型语言模型（LLMs）的论文在人工智能领域引起了广泛关注。这篇论文以经典文学作品《爱丽丝梦游仙境》为背景，通过简单的任务展示了目前最先进的大型语言模型在逻辑推理方面的严重缺陷。

论文首先指出，大型语言模型通常被描述为具有强大的泛化能力，能够在各种任务和条件下进行有效的迁移学习，并且随着预训练规模的增加，其性能也会相应提高。然而，这些模型的优秀表现主要依赖于在各种标准化基准测试中的高分，而这些测试可能无法全面评估模型的逻辑推理能力。

为了揭示大型语言模型的局限性，论文设计了一个简单的常识问题，这个问题以简洁自然的语言形式呈现，对于人类来说是很容易解决的。然而，当这个问题被提交给目前最先进的大型语言模型时，如GPT、Claude等，它们不仅给出了错误的答案，而且在解释其推理过程时也表现出了强烈的过度自信。

具体来说，论文提出了两个问题，旨在测试模型的逻辑推理和常识理解能力。第一个问题是：“如果爱丽丝在仙境中喝了一种使她变小的药水，那么她会如何影响周围的世界？”对于这个问题，人类可以很容易地推断出，变小的爱丽丝会对周围的世界产生更小的影响，因为她的体型变小了。然而，大型语言模型却给出了各种荒谬的答案，比如说爱丽丝会改变时间的流逝速度，或者她会引发一场革命。

第二个问题是：“如果爱丽丝在仙境中遇到了一个总是说反话的生物，那么当这个生物说‘我现在说的是真话’时，它是否在说真话？”对于这个问题，人类可以运用逻辑推理来得出结论：如果这个生物总是说反话，那么当它说“我现在说的是真话”时，它实际上在说谎。然而，大型语言模型却陷入了循环推理的陷阱，无法得出正确的结论。

更令人惊讶的是，当被要求重新考虑其错误答案时，大型语言模型仍然坚持其错误观点，并提供了一些非理性的“推理”来支持其立场。这种行为被论文作者描述为类似于人类的虚构行为，即在没有合理解释的情况下，为了维护自己的观点而编造理由。

为了验证这些观察结果的普遍性，论文还尝试了各种干预措施，如使用不同类型的提示或鼓励模型进行多步重新评估。然而，这些努力都未能改变模型的错误推理。

基于这些发现，论文呼吁科学和技术界对当前一代大型语言模型的能力进行重新评估。它指出，现有的评估程序和基准测试可能无法检测到模型在基本逻辑推理方面的缺陷，因此需要共同努力来创建能够准确评估模型推理能力的新基准测试。

论文地址：https://arxiv.org/abs/2406.02061

两句话，让LLM逻辑推理瞬间崩溃！最新爱丽丝梦游仙境曝出GPT、Claude等重大缺陷

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

两句话，让LLM逻辑推理瞬间崩溃！最新爱丽丝梦游仙境曝出GPT、Claude等重大缺陷

热门文章

最新文章

相关课程

相关电子书

相关实验场景