等不来OpenAI的Q*,华为诺亚探索LLM推理的秘密武器MindStar先来了

简介: 【7月更文挑战第13天】华为诺亚方舟实验室推出MindStar,一种增强LLM推理能力的搜索框架。MindStar通过PRM奖励模型和Beam/Levin Search策略选择最佳推理路径,提升开源模型如LLaMA-2-13B、Mistral-7B的性能,与GPT-3.5等闭源模型媲美,但成本更低。尽管推理成本高和需预训练PRM,MindStar为LLM推理研究开辟新途径。[论文链接](https://arxiv.org/pdf/2405.16265v4)

在人工智能领域,大型语言模型(LLM)的推理能力一直是研究的热点。然而,尽管LLM在各种任务上取得了显著的性能,但它们在处理复杂推理任务时,如回答数学问题,往往表现不佳。

为了解决这个问题,华为诺亚方舟实验室的研究人员提出了一种名为MindStar(M*)的新型推理框架。MindStar是一种基于搜索的推理方法,旨在通过在推理过程中的每个步骤评估和选择最佳的推理路径,来增强LLM的推理能力。

MindStar的核心思想是,LLM在面对复杂推理任务时,可能知道如何产生正确的答案,但选择正确的推理路径却很困难。因此,MindStar通过将推理任务转化为搜索问题,并提出了两种搜索策略来识别最佳的推理路径。

首先,MindStar使用了一个名为Process-supervised Reward Model(PRM)的奖励模型来评估每个推理步骤的正确性。PRM基于先前的推理步骤和潜在的下一个步骤,为每个步骤生成一个奖励值。然后,MindStar使用这个奖励值来选择最佳的推理路径。

其次,MindStar采用了两种搜索算法:Beam Search和Levin Tree Search。Beam Search是一种贪婪算法,它使用PRM的奖励值作为启发式信息,选择下一个最佳的推理步骤。Levin Tree Search则结合了PRM的奖励值和推理路径的深度,以选择最佳的推理路径。

研究人员在GSM8K和MATH数据集上评估了MindStar的性能,并与现有的开源和闭源LLM进行了比较。结果显示,MindStar显著增强了开源模型(如LLaMA-2-13B和Mistral-7B)的推理能力,并取得了与GPT-3.5和Grok-1等闭源模型相当的性能,但所需的模型大小和计算成本要低得多。

然而,MindStar也存在一些限制。首先,由于MindStar在推理过程中生成了更多的推理步骤,因此它的推理成本较高。其次,MindStar需要一个预先训练的PRM模型来评估推理步骤的正确性,这需要额外的训练数据和计算资源。

尽管存在这些限制,但MindStar为增强LLM的推理能力提供了一种有希望的方法。通过将推理任务转化为搜索问题,并使用PRM和搜索算法来选择最佳的推理路径,MindStar有潜力在各种推理任务上实现更好的性能。

此外,MindStar还为未来的研究提供了一些有趣的方向。例如,研究人员可以探索如何进一步优化MindStar的搜索策略,以减少推理成本并提高性能。他们还可以研究如何将MindStar应用于其他类型的推理任务,如常识推理或逻辑推理。

论文地址:https://arxiv.org/pdf/2405.16265v4

目录
打赏
0
9
9
1
391
分享
相关文章
基于Knative的LLM推理场景弹性伸缩方案
Knative的基于请求弹性配置与大语言模型(LLM)的推理场景高度契合。此外,它的资源降配特性可以显著帮助用户降低成本。本文详细介绍基于 Knative 的 LLM 推理场景弹性伸缩方案。
node-DeepResearch:开源复现版OpenAI Deep Research,支持多步推理和复杂查询的AI智能体
node-DeepResearch 是一个开源 AI 智能体项目,支持多步推理和复杂查询,帮助用户逐步解决问题。
171 27
node-DeepResearch:开源复现版OpenAI Deep Research,支持多步推理和复杂查询的AI智能体
o3-mini:OpenAI 发布最新推理模型,强大的STEM推理能力,灵活调整推理强度
OpenAI o3-mini是OpenAI推出的全新推理模型,专为科学、数学和编程等技术领域优化,支持三种推理强度,灵活调整性能。
161 25
o3-mini:OpenAI 发布最新推理模型,强大的STEM推理能力,灵活调整推理强度
仅7B的模型数学推理能力完虐70B?MIT哈佛推出行动思维链COAT让LLM实现自我反思并探索新策略
Satori 是由 MIT 和哈佛大学等机构联合推出的 7B 参数大型语言模型,专注于提升推理能力,具备强大的自回归搜索和自我纠错功能。
82 6
仅7B的模型数学推理能力完虐70B?MIT哈佛推出行动思维链COAT让LLM实现自我反思并探索新策略
KAG:增强 LLM 的专业能力!蚂蚁集团推出专业领域知识增强框架,支持逻辑推理和多跳问答
KAG 是蚂蚁集团推出的专业领域知识服务框架,通过知识增强提升大型语言模型在特定领域的问答性能,支持逻辑推理和多跳事实问答,显著提升推理和问答的准确性和效率。
524 46
KAG:增强 LLM 的专业能力!蚂蚁集团推出专业领域知识增强框架,支持逻辑推理和多跳问答
DeepSeek 开源 R1 系列推理模型,性能对标 OpenAI o1,基于纯强化学习完成自我进化,无需监督微调
DeepSeek R1-Zero 是一款基于纯强化学习的开源推理模型,无需监督微调数据,支持多任务泛化与自我进化,适用于数学推理、代码生成等场景。
515 21
DeepSeek 开源 R1 系列推理模型,性能对标 OpenAI o1,基于纯强化学习完成自我进化,无需监督微调
Nature:人类亲吻难题彻底难倒LLM,所有大模型全部失败!LLM根本不会推理,只是工具
近期,《自然》杂志发表的研究显示,所有大型语言模型(LLM)在解释特定情境下人类亲吻行为时均失败。尽管LLM在语言处理和文本生成上表现出色,但在理解和推理复杂人类行为方面存在显著限制,表明其缺乏对人类情感、社会及文化背景的深入理解。专家认为LLM更像是工具而非智能体,虽在客户服务、内容创作等领域有价值,但在复杂推理和理解方面仍显不足。
85 37
企业级LLM推理部署新范式:基于ACK的DeepSeek蒸馏模型生产环境落地指南
本教程演示如何在ACK中使用vLLM框架快速部署DeepSeek R1模型推理服务。
GLM-Zero:智谱AI推出与 OpenAI-o1-Preview 旗鼓相当的深度推理模型,开放在线免费使用和API调用
GLM-Zero 是智谱AI推出的深度推理模型,专注于提升数理逻辑、代码编写和复杂问题解决能力,支持多模态输入与完整推理过程输出。
231 24
GLM-Zero:智谱AI推出与 OpenAI-o1-Preview 旗鼓相当的深度推理模型,开放在线免费使用和API调用
NeurIPS 2024:自我纠错如何使OpenAI o1推理能力大大加强?北大、MIT团队给出理论解释
在人工智能领域,大型语言模型(LLMs)的自我纠错能力正成为研究热点。北京大学和麻省理工学院的研究团队在NeurIPS 2024上发表的研究,通过基于上下文学习的理论分析,揭示了Transformer模型中关键设计在自我纠错中的作用,并提出了“Checking as Context”策略,应用于缓解社会偏见和防御LLM越狱攻击,显著提升了模型性能。然而,研究主要基于简化设置和合成数据集,存在局限性。
83 26

热门文章

最新文章

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等