在人工智能研究中,智能体能够规划行动以实现期望状态的能力一直被视为核心竞争力。随着大型语言模型(LLM)的出现,人们开始关注它们是否具备这种规划能力。2022年,研究人员开发了PlanBench,一个可扩展的基准,用于评估LLM的规划能力。然而,尽管出现了许多新的私有和开源LLM,但在这个基准上的进步却出人意料地缓慢。
最近,OpenAI发布了他们的o1(Strawberry)模型,该模型被专门设计和训练以克服传统自回归LLM的局限性。o1被归类为一种大型推理模型(LRM),与之前的LLM相比,它在架构、操作和能力方面都有所不同。
o1模型的发布为评估LLM和LRM在PlanBench上的表现提供了新的契机。研究人员对o1的性能进行了全面评估,并与其他LLM进行了比较。
在PlanBench的评估中,o1的性能表现出显著的改进。它能够解决更多的问题,并在一些情况下表现出比其他LLM更好的性能。然而,尽管有这些改进,o1仍然远未达到PlanBench的饱和水平。
在Blocksworld和Mystery Blocksworld领域中,o1能够正确回答97.8%的实例,而其他LLM只能达到62.6%的准确率。然而,当问题变得更加复杂时,o1的性能开始下降。在需要20个或更多步骤来解决的问题中,o1只能正确回答23.63%的实例。
此外,o1在处理不可解的问题时也存在问题。尽管它能够正确识别一些不可解的问题,但它也经常错误地声称可解的问题是不可解的。
o1的性能改进也引发了对效率、成本和保证的考虑。与之前的LLM相比,o1的成本更高,因为它使用了大量的推理令牌,这些令牌在推断过程中生成但不向用户显示。
研究人员指出,o1的成本结构可能对用户不透明,因为它没有提供对推理令牌数量的控制。这可能导致用户在使用o1时面临意外的高成本。
此外,o1也没有提供任何正确性的保证。尽管它能够解决更多的问题,但它仍然可能产生错误的答案,而没有提供任何机制来验证这些答案的正确性。
研究人员还将o1与其他LLM和经典规划器进行了比较。与之前的最佳LLM相比,o1在Blocksworld和Mystery Blocksworld领域中表现出更好的性能。然而,与经典规划器相比,o1在效率和成本方面仍然存在差距。
研究人员还考虑了将LLM与外部验证器结合使用的方法,如LLM-Modulo系统。这些方法可以提供更高的准确性和更低的成本,同时提供正确性的保证。