LLM仍然不能规划,刷屏的OpenAI o1远未达到饱和

简介: 【10月更文挑战第19天】在人工智能研究中,智能体的规划能力被视为核心竞争力。2022年,PlanBench基准用于评估大型语言模型(LLM)的规划能力,但进展缓慢。近期,OpenAI发布的o1模型在PlanBench上表现出显著改进,特别是在Blocksworld和Mystery Blocksworld领域中,准确率达到97.8%,但成本较高且缺乏正确性保证。研究还探讨了LLM与外部验证器结合的方法,以提高准确性和降低成本。

在人工智能研究中,智能体能够规划行动以实现期望状态的能力一直被视为核心竞争力。随着大型语言模型(LLM)的出现,人们开始关注它们是否具备这种规划能力。2022年,研究人员开发了PlanBench,一个可扩展的基准,用于评估LLM的规划能力。然而,尽管出现了许多新的私有和开源LLM,但在这个基准上的进步却出人意料地缓慢。

最近,OpenAI发布了他们的o1(Strawberry)模型,该模型被专门设计和训练以克服传统自回归LLM的局限性。o1被归类为一种大型推理模型(LRM),与之前的LLM相比,它在架构、操作和能力方面都有所不同。

o1模型的发布为评估LLM和LRM在PlanBench上的表现提供了新的契机。研究人员对o1的性能进行了全面评估,并与其他LLM进行了比较。

在PlanBench的评估中,o1的性能表现出显著的改进。它能够解决更多的问题,并在一些情况下表现出比其他LLM更好的性能。然而,尽管有这些改进,o1仍然远未达到PlanBench的饱和水平。

在Blocksworld和Mystery Blocksworld领域中,o1能够正确回答97.8%的实例,而其他LLM只能达到62.6%的准确率。然而,当问题变得更加复杂时,o1的性能开始下降。在需要20个或更多步骤来解决的问题中,o1只能正确回答23.63%的实例。

此外,o1在处理不可解的问题时也存在问题。尽管它能够正确识别一些不可解的问题,但它也经常错误地声称可解的问题是不可解的。

o1的性能改进也引发了对效率、成本和保证的考虑。与之前的LLM相比,o1的成本更高,因为它使用了大量的推理令牌,这些令牌在推断过程中生成但不向用户显示。

研究人员指出,o1的成本结构可能对用户不透明,因为它没有提供对推理令牌数量的控制。这可能导致用户在使用o1时面临意外的高成本。

此外,o1也没有提供任何正确性的保证。尽管它能够解决更多的问题,但它仍然可能产生错误的答案,而没有提供任何机制来验证这些答案的正确性。

研究人员还将o1与其他LLM和经典规划器进行了比较。与之前的最佳LLM相比,o1在Blocksworld和Mystery Blocksworld领域中表现出更好的性能。然而,与经典规划器相比,o1在效率和成本方面仍然存在差距。

研究人员还考虑了将LLM与外部验证器结合使用的方法,如LLM-Modulo系统。这些方法可以提供更高的准确性和更低的成本,同时提供正确性的保证。

论文地址:https://arxiv.org/pdf/2409.13373

目录
相关文章
|
6月前
|
人工智能 自然语言处理 开发工具
AI2 开源新 LLM,重新定义 open AI
艾伦人工智能研究所(Allen Institute for AI,简称 AI2)宣布推出一个名为 OLMo 7B 的新大语言模型,并开源发布了预训练数据和训练代码。OLMo 7B 被描述为 “一个真正开放的、最先进的大型语言模型”。
|
2月前
|
机器学习/深度学习 人工智能 UED
OpenAI o1模型:AI通用复杂推理的新篇章
OpenAI发布了其最新的AI模型——o1,这款模型以其独特的复杂推理能力和全新的训练方式,引起了业界的广泛关注。今天,我们就来深入剖析o1模型的特点、背后的原理,以及一些有趣的八卦信息。
314 73
|
17天前
|
机器学习/深度学习 人工智能 自然语言处理
280页PDF,全方位评估OpenAI o1,Leetcode刷题准确率竟这么高
【10月更文挑战第24天】近年来,OpenAI的o1模型在大型语言模型(LLMs)中脱颖而出,展现出卓越的推理能力和知识整合能力。基于Transformer架构,o1模型采用了链式思维和强化学习等先进技术,显著提升了其在编程竞赛、医学影像报告生成、数学问题解决、自然语言推理和芯片设计等领域的表现。本文将全面评估o1模型的性能及其对AI研究和应用的潜在影响。
16 1
|
2月前
|
人工智能 安全 测试技术
忘掉GPT-5!OpenAI推出全新AI模型系列o1,声称性能达到博士级
忘掉GPT-5!OpenAI推出全新AI模型系列o1,声称性能达到博士级
|
5月前
|
人工智能 自然语言处理 开发者
LLM最全怪癖首曝光!马里兰OpenAI等30+学者祭出75页提示报告
【6月更文挑战第28天】《The Prompt Report》——马里兰大学等机构的学者发布了一份75页的系统综述,详尽探讨了GenAI的提示技术。报告建立了33个术语的词汇表,分类了58种文本和40种其他模态的提示技术,为AI交互提供了清晰框架。尽管受到赞誉,但也面临技术性及关键问题解决不足的批评。报告提醒,需关注提示可能带来的不准确性和偏见问题。[[1](https://arxiv.org/abs/2406.06608)]**
72 5
|
6月前
|
存储 安全 机器人
【LLM】智能学生顾问构建技术学习(Lyrz SDK + OpenAI API )
【5月更文挑战第13天】智能学生顾问构建技术学习(Lyrz SDK + OpenAI API )
105 1
|
SQL 机器学习/深度学习 人工智能
LLM系列 | 14: 实测OpenAI函数调用功能:以数据库问答为例
今天这篇小作文以数据库问答(Text2SQL)为例进一步介绍ChatGPT的函数调用。本文将介绍如何将模型生成的结果输入到自定义的函数中,并利用该功能实现数据库问答功能。
LLM系列 | 14: 实测OpenAI函数调用功能:以数据库问答为例
|
弹性计算 API 数据库
大模型规模化落地,企业AIGC应用支持多个大语言模型(LLM)切换及GPU规划化管理(PAI-EAS + ADB-PG)
随着年初的ChatGPT引爆大语言模型市场, LLM的集中爆发,大部分企业已经完成了AIGC产品的调研,并进入第二阶段, 即寻求大规模落地的AIGC产品解决方案。本文介绍了如何企业规模化大语言模型落地,支持多个模型的快速使用,包括通义千问-7b,ChatGLM-6b,Llama2-7b ,Llama2-13b,百川-13b和Falcon-7b。
大模型规模化落地,企业AIGC应用支持多个大语言模型(LLM)切换及GPU规划化管理(PAI-EAS + ADB-PG)
|
弹性计算 API 数据库
规模化落地AIGC应用,支持多个大语言模型(LLM)切换及GPU规划化管理(PAI-EAS + ADB-PG)
随着年初的ChatGPT引爆大语言模型市场, LLM的集中爆发,大部分企业已经完成了AIGC产品的调研,并进入第二阶段, 即寻求大规模落地的AIGC产品解决方案。本文介绍了如何企业规模化大语言模型落地,支持多个模型的快速使用,包括通义千问-7b,ChatGLM-6b,Llama2-7b 和 Llama2-13b。
2160 0
|
28天前
|
机器学习/深度学习 人工智能 并行计算
"震撼!CLIP模型:OpenAI的跨模态奇迹,让图像与文字共舞,解锁AI理解新纪元!"
【10月更文挑战第14天】CLIP是由OpenAI在2021年推出的一种图像和文本联合表示学习模型,通过对比学习方法预训练,能有效理解图像与文本的关系。该模型由图像编码器和文本编码器组成,分别处理图像和文本数据,通过共享向量空间实现信息融合。CLIP利用大规模图像-文本对数据集进行训练,能够实现zero-shot图像分类、文本-图像检索等多种任务,展现出强大的跨模态理解能力。
77 2