LLM仍然不能规划,刷屏的OpenAI o1远未达到饱和

简介: 【10月更文挑战第19天】在人工智能研究中,智能体的规划能力被视为核心竞争力。2022年,PlanBench基准用于评估大型语言模型(LLM)的规划能力,但进展缓慢。近期,OpenAI发布的o1模型在PlanBench上表现出显著改进,特别是在Blocksworld和Mystery Blocksworld领域中,准确率达到97.8%,但成本较高且缺乏正确性保证。研究还探讨了LLM与外部验证器结合的方法,以提高准确性和降低成本。

在人工智能研究中,智能体能够规划行动以实现期望状态的能力一直被视为核心竞争力。随着大型语言模型(LLM)的出现,人们开始关注它们是否具备这种规划能力。2022年,研究人员开发了PlanBench,一个可扩展的基准,用于评估LLM的规划能力。然而,尽管出现了许多新的私有和开源LLM,但在这个基准上的进步却出人意料地缓慢。

最近,OpenAI发布了他们的o1(Strawberry)模型,该模型被专门设计和训练以克服传统自回归LLM的局限性。o1被归类为一种大型推理模型(LRM),与之前的LLM相比,它在架构、操作和能力方面都有所不同。

o1模型的发布为评估LLM和LRM在PlanBench上的表现提供了新的契机。研究人员对o1的性能进行了全面评估,并与其他LLM进行了比较。

在PlanBench的评估中,o1的性能表现出显著的改进。它能够解决更多的问题,并在一些情况下表现出比其他LLM更好的性能。然而,尽管有这些改进,o1仍然远未达到PlanBench的饱和水平。

在Blocksworld和Mystery Blocksworld领域中,o1能够正确回答97.8%的实例,而其他LLM只能达到62.6%的准确率。然而,当问题变得更加复杂时,o1的性能开始下降。在需要20个或更多步骤来解决的问题中,o1只能正确回答23.63%的实例。

此外,o1在处理不可解的问题时也存在问题。尽管它能够正确识别一些不可解的问题,但它也经常错误地声称可解的问题是不可解的。

o1的性能改进也引发了对效率、成本和保证的考虑。与之前的LLM相比,o1的成本更高,因为它使用了大量的推理令牌,这些令牌在推断过程中生成但不向用户显示。

研究人员指出,o1的成本结构可能对用户不透明,因为它没有提供对推理令牌数量的控制。这可能导致用户在使用o1时面临意外的高成本。

此外,o1也没有提供任何正确性的保证。尽管它能够解决更多的问题,但它仍然可能产生错误的答案,而没有提供任何机制来验证这些答案的正确性。

研究人员还将o1与其他LLM和经典规划器进行了比较。与之前的最佳LLM相比,o1在Blocksworld和Mystery Blocksworld领域中表现出更好的性能。然而,与经典规划器相比,o1在效率和成本方面仍然存在差距。

研究人员还考虑了将LLM与外部验证器结合使用的方法,如LLM-Modulo系统。这些方法可以提供更高的准确性和更低的成本,同时提供正确性的保证。

论文地址:https://arxiv.org/pdf/2409.13373

目录
相关文章
|
人工智能 自然语言处理 开发工具
AI2 开源新 LLM,重新定义 open AI
艾伦人工智能研究所(Allen Institute for AI,简称 AI2)宣布推出一个名为 OLMo 7B 的新大语言模型,并开源发布了预训练数据和训练代码。OLMo 7B 被描述为 “一个真正开放的、最先进的大型语言模型”。
|
10月前
|
机器学习/深度学习 人工智能 自然语言处理
DeepSeek 开源 R1 系列推理模型,性能对标 OpenAI o1,基于纯强化学习完成自我进化,无需监督微调
DeepSeek R1-Zero 是一款基于纯强化学习的开源推理模型,无需监督微调数据,支持多任务泛化与自我进化,适用于数学推理、代码生成等场景。
1042 21
DeepSeek 开源 R1 系列推理模型,性能对标 OpenAI o1,基于纯强化学习完成自我进化,无需监督微调
|
10月前
|
机器学习/深度学习 人工智能 算法
NeurIPS 2024:自我纠错如何使OpenAI o1推理能力大大加强?北大、MIT团队给出理论解释
在人工智能领域,大型语言模型(LLMs)的自我纠错能力正成为研究热点。北京大学和麻省理工学院的研究团队在NeurIPS 2024上发表的研究,通过基于上下文学习的理论分析,揭示了Transformer模型中关键设计在自我纠错中的作用,并提出了“Checking as Context”策略,应用于缓解社会偏见和防御LLM越狱攻击,显著提升了模型性能。然而,研究主要基于简化设置和合成数据集,存在局限性。
243 26
|
机器学习/深度学习 人工智能 UED
OpenAI o1模型:AI通用复杂推理的新篇章
OpenAI发布了其最新的AI模型——o1,这款模型以其独特的复杂推理能力和全新的训练方式,引起了业界的广泛关注。今天,我们就来深入剖析o1模型的特点、背后的原理,以及一些有趣的八卦信息。
700 73
|
11月前
|
人工智能 安全 开发者
OpenAI o1强推理能提升安全性?长对话诱导干翻o1
最近,一项名为《Derail Yourself: Multi-turn LLM Jailbreak Attack through Self-discovered Clues》的研究揭示了大型语言模型(LLM)在多轮交互中的安全漏洞。该研究提出了一种基于行动者网络理论的新型攻击方法ActorAttack,通过构建语义相关行动者网络,生成多样化攻击路径,隐藏有害意图并利用LLM知识发现通向有害目标的路径。研究表明,ActorAttack在多轮攻击中表现优于现有方法,引发了对LLM安全性的担忧。研究团队计划发布SafeMTData数据集,以帮助训练更安全的LLM,并强调跨学科合作的重要性。
259 8
|
11月前
|
人工智能 自然语言处理 机器人
OpenAI推出具有图像上传和分析功能的完整o1模型,并首次推出ChatGPT Pro
OpenAI推出具有图像上传和分析功能的完整o1模型,并首次推出ChatGPT Pro
|
机器学习/深度学习 人工智能 自然语言处理
280页PDF,全方位评估OpenAI o1,Leetcode刷题准确率竟这么高
【10月更文挑战第24天】近年来,OpenAI的o1模型在大型语言模型(LLMs)中脱颖而出,展现出卓越的推理能力和知识整合能力。基于Transformer架构,o1模型采用了链式思维和强化学习等先进技术,显著提升了其在编程竞赛、医学影像报告生成、数学问题解决、自然语言推理和芯片设计等领域的表现。本文将全面评估o1模型的性能及其对AI研究和应用的潜在影响。
332 1
|
人工智能 安全 测试技术
忘掉GPT-5!OpenAI推出全新AI模型系列o1,声称性能达到博士级
忘掉GPT-5!OpenAI推出全新AI模型系列o1,声称性能达到博士级
|
SQL 机器学习/深度学习 人工智能
LLM系列 | 14: 实测OpenAI函数调用功能:以数据库问答为例
今天这篇小作文以数据库问答(Text2SQL)为例进一步介绍ChatGPT的函数调用。本文将介绍如何将模型生成的结果输入到自定义的函数中,并利用该功能实现数据库问答功能。
LLM系列 | 14: 实测OpenAI函数调用功能:以数据库问答为例
|
人工智能 自然语言处理 开发者
LLM最全怪癖首曝光!马里兰OpenAI等30+学者祭出75页提示报告
【6月更文挑战第28天】《The Prompt Report》——马里兰大学等机构的学者发布了一份75页的系统综述,详尽探讨了GenAI的提示技术。报告建立了33个术语的词汇表,分类了58种文本和40种其他模态的提示技术,为AI交互提供了清晰框架。尽管受到赞誉,但也面临技术性及关键问题解决不足的批评。报告提醒,需关注提示可能带来的不准确性和偏见问题。[[1](https://arxiv.org/abs/2406.06608)]**
203 5

热门文章

最新文章