大语言模型(LLM)在科学、编程和数学等领域解决复杂推理任务时,需要花费更多时间进行思考和反思。然而,自我反思和自我纠正等机制的有效性,取决于模型准确评估自身性能的能力。这种能力可能受到初始准确性、问题难度和缺乏外部反馈等因素的限制。为了突破这一瓶颈,复旦大学的研究团队提出了一种名为Two-Player的新颖架构,该架构通过分离推理和批评模型的角色,利用批评模型在测试时间和训练时间提供逐步反馈,以监督推理(演员)模型。
研究团队首先开发了AutoMathCritique,这是一个自动化且可扩展的框架,用于收集批评数据。通过这个框架,他们创建了一个包含76,321个响应和逐步反馈的数据集。使用这个数据集对语言模型进行微调,使其能够为数学推理生成自然语言反馈。研究结果表明,批评模型在测试时间一致地提高了演员模型在困难查询上的性能,尤其是在扩展推理时间计算时。
基于这些发现,研究团队将基于批评的监督引入演员模型的自我训练过程,并提出了一种批评循环自我改进方法。实验表明,该方法提高了演员模型的探索效率和解决方案多样性,特别是在具有挑战性的查询上,从而产生了一个更强的推理模型。最后,研究团队初步探索了通过批评监督训练自我对话推理模型,并展示了其潜力。
这项研究为大语言模型的推理能力提升提供了新的思路。通过引入批评模型,可以为推理模型提供更准确的反馈,从而提高其在复杂推理任务上的性能。这种Two-Player架构不仅在测试时间有效,还可以在训练时间帮助推理模型进行自我改进。
然而,这项研究也存在一些挑战和限制。首先,批评模型的准确性和可靠性是一个关键问题。如果批评模型无法提供准确的反馈,那么它可能无法有效地帮助推理模型进行改进。其次,这种Two-Player架构可能需要更多的计算资源和时间来训练和运行。最后,如何将这种架构应用于其他领域和任务,也是一个需要进一步研究的问题。