最近,微软研究院亚洲研究院和哈佛大学的研究人员提出了一种名为rStar的新型方法,该方法通过自我对弈的相互推理过程,显著提高了小型语言模型(SLMs)的推理能力,而无需微调或使用更强大的模型。
rStar方法的核心思想是将推理过程解耦为自我对弈的相互生成-判别过程。首先,目标SLM通过增强蒙特卡洛树搜索(MCTS)算法,使用丰富的类人推理动作来构建更高质量的推理轨迹。然后,另一个与目标SLM能力相似的SLM作为判别器,验证目标SLM生成的每个推理轨迹。相互一致的推理轨迹被认为是相互一致的,因此更可能是正确的。
研究人员在五个不同的SLM和五个不同的推理任务上进行了广泛的实验,结果表明rStar能够有效地解决各种推理问题,包括GSM8K、GSM-Hard、MATH、SVAMP和StrategyQA。例如,rStar将LLaMA2-7B在GSM8K上的准确率从12.51%提高到63.91%,将Mistral-7B的准确率从36.46%提高到81.88%,将LLaMA3-8B-Instruct的准确率从74.53%提高到91.13%。
rStar方法的独特之处在于它利用了SLM自身的知识,而不需要依赖更强大的模型或微调。通过自我对弈的相互生成-判别过程,rStar能够有效地指导SLM的自我探索,并提高其推理能力。此外,rStar还引入了一种丰富的类人推理动作空间,使SLM能够生成更高质量的候选推理轨迹。
然而,rStar方法也存在一些限制。首先,它需要使用两个SLM,一个作为生成器,一个作为判别器,这可能会增加计算成本。其次,rStar方法的准确性可能受到SLM自身能力的限制,如果SLM的能力较弱,那么rStar方法的效果可能会受到影响。