两个小模型互相验证，直接比肩大模型？微软的rStar甚至没用CoT和微调-阿里云开发者社区

两个小模型互相验证，直接比肩大模型？微软的rStar甚至没用CoT和微调

2024-09-10 225 发布于北京

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【9月更文挑战第10天】微软研究院亚洲院与哈佛大学研究团队提出了rStar，一种创新的方法，旨在提升小型语言模型（SLMs）的推理能力。rStar采用自我对弈的相互生成-判别过程，利用增强版蒙特卡洛树搜索（MCTS）算法生成高质量推理轨迹，并由另一个相似能力的SLM验证这些轨迹的一致性。这种方法在多个模型与任务中显著提升了推理准确率，如在GSM8K上，LLaMA2-7B的准确率从12.51%跃升至63.91%。rStar的独特之处在于无需微调或依赖更强大的模型即可提升推理能力。然而，其计算成本和对SLM自身能力的依赖仍是挑战。

最近，微软研究院亚洲研究院和哈佛大学的研究人员提出了一种名为rStar的新型方法，该方法通过自我对弈的相互推理过程，显著提高了小型语言模型（SLMs）的推理能力，而无需微调或使用更强大的模型。

rStar方法的核心思想是将推理过程解耦为自我对弈的相互生成-判别过程。首先，目标SLM通过增强蒙特卡洛树搜索（MCTS）算法，使用丰富的类人推理动作来构建更高质量的推理轨迹。然后，另一个与目标SLM能力相似的SLM作为判别器，验证目标SLM生成的每个推理轨迹。相互一致的推理轨迹被认为是相互一致的，因此更可能是正确的。

研究人员在五个不同的SLM和五个不同的推理任务上进行了广泛的实验，结果表明rStar能够有效地解决各种推理问题，包括GSM8K、GSM-Hard、MATH、SVAMP和StrategyQA。例如，rStar将LLaMA2-7B在GSM8K上的准确率从12.51%提高到63.91%，将Mistral-7B的准确率从36.46%提高到81.88%，将LLaMA3-8B-Instruct的准确率从74.53%提高到91.13%。

rStar方法的独特之处在于它利用了SLM自身的知识，而不需要依赖更强大的模型或微调。通过自我对弈的相互生成-判别过程，rStar能够有效地指导SLM的自我探索，并提高其推理能力。此外，rStar还引入了一种丰富的类人推理动作空间，使SLM能够生成更高质量的候选推理轨迹。

然而，rStar方法也存在一些限制。首先，它需要使用两个SLM，一个作为生成器，一个作为判别器，这可能会增加计算成本。其次，rStar方法的准确性可能受到SLM自身能力的限制，如果SLM的能力较弱，那么rStar方法的效果可能会受到影响。

论文地址：https://arxiv.org/pdf/2408.06195

文章标签：

算法

两个小模型互相验证，直接比肩大模型？微软的rStar甚至没用CoT和微调

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

直播

下载

镜像站

技术资料

两个小模型互相验证，直接比肩大模型？微软的rStar甚至没用CoT和微调

热门文章

最新文章

相关课程

相关电子书

相关实验场景