等不来OpenAI的Q*，华为诺亚探索LLM推理的秘密武器MindStar先来了-阿里云开发者社区

等不来OpenAI的Q*，华为诺亚探索LLM推理的秘密武器MindStar先来了

2024-07-14 153 发布于北京

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【7月更文挑战第13天】华为诺亚方舟实验室推出MindStar，一种增强LLM推理能力的搜索框架。MindStar通过PRM奖励模型和Beam/Levin Search策略选择最佳推理路径，提升开源模型如LLaMA-2-13B、Mistral-7B的性能，与GPT-3.5等闭源模型媲美，但成本更低。尽管推理成本高和需预训练PRM，MindStar为LLM推理研究开辟新途径。[论文链接](https://arxiv.org/pdf/2405.16265v4)

在人工智能领域，大型语言模型（LLM）的推理能力一直是研究的热点。然而，尽管LLM在各种任务上取得了显著的性能，但它们在处理复杂推理任务时，如回答数学问题，往往表现不佳。

为了解决这个问题，华为诺亚方舟实验室的研究人员提出了一种名为MindStar（M*）的新型推理框架。MindStar是一种基于搜索的推理方法，旨在通过在推理过程中的每个步骤评估和选择最佳的推理路径，来增强LLM的推理能力。

MindStar的核心思想是，LLM在面对复杂推理任务时，可能知道如何产生正确的答案，但选择正确的推理路径却很困难。因此，MindStar通过将推理任务转化为搜索问题，并提出了两种搜索策略来识别最佳的推理路径。

首先，MindStar使用了一个名为Process-supervised Reward Model（PRM）的奖励模型来评估每个推理步骤的正确性。PRM基于先前的推理步骤和潜在的下一个步骤，为每个步骤生成一个奖励值。然后，MindStar使用这个奖励值来选择最佳的推理路径。

其次，MindStar采用了两种搜索算法：Beam Search和Levin Tree Search。Beam Search是一种贪婪算法，它使用PRM的奖励值作为启发式信息，选择下一个最佳的推理步骤。Levin Tree Search则结合了PRM的奖励值和推理路径的深度，以选择最佳的推理路径。

研究人员在GSM8K和MATH数据集上评估了MindStar的性能，并与现有的开源和闭源LLM进行了比较。结果显示，MindStar显著增强了开源模型（如LLaMA-2-13B和Mistral-7B）的推理能力，并取得了与GPT-3.5和Grok-1等闭源模型相当的性能，但所需的模型大小和计算成本要低得多。

然而，MindStar也存在一些限制。首先，由于MindStar在推理过程中生成了更多的推理步骤，因此它的推理成本较高。其次，MindStar需要一个预先训练的PRM模型来评估推理步骤的正确性，这需要额外的训练数据和计算资源。

尽管存在这些限制，但MindStar为增强LLM的推理能力提供了一种有希望的方法。通过将推理任务转化为搜索问题，并使用PRM和搜索算法来选择最佳的推理路径，MindStar有潜力在各种推理任务上实现更好的性能。

此外，MindStar还为未来的研究提供了一些有趣的方向。例如，研究人员可以探索如何进一步优化MindStar的搜索策略，以减少推理成本并提高性能。他们还可以研究如何将MindStar应用于其他类型的推理任务，如常识推理或逻辑推理。

论文地址：https://arxiv.org/pdf/2405.16265v4