等不来OpenAI的Q*,华为诺亚探索LLM推理的秘密武器MindStar先来了

简介: 【7月更文挑战第13天】华为诺亚方舟实验室推出MindStar,一种增强LLM推理能力的搜索框架。MindStar通过PRM奖励模型和Beam/Levin Search策略选择最佳推理路径,提升开源模型如LLaMA-2-13B、Mistral-7B的性能,与GPT-3.5等闭源模型媲美,但成本更低。尽管推理成本高和需预训练PRM,MindStar为LLM推理研究开辟新途径。[论文链接](https://arxiv.org/pdf/2405.16265v4)

在人工智能领域,大型语言模型(LLM)的推理能力一直是研究的热点。然而,尽管LLM在各种任务上取得了显著的性能,但它们在处理复杂推理任务时,如回答数学问题,往往表现不佳。

为了解决这个问题,华为诺亚方舟实验室的研究人员提出了一种名为MindStar(M*)的新型推理框架。MindStar是一种基于搜索的推理方法,旨在通过在推理过程中的每个步骤评估和选择最佳的推理路径,来增强LLM的推理能力。

MindStar的核心思想是,LLM在面对复杂推理任务时,可能知道如何产生正确的答案,但选择正确的推理路径却很困难。因此,MindStar通过将推理任务转化为搜索问题,并提出了两种搜索策略来识别最佳的推理路径。

首先,MindStar使用了一个名为Process-supervised Reward Model(PRM)的奖励模型来评估每个推理步骤的正确性。PRM基于先前的推理步骤和潜在的下一个步骤,为每个步骤生成一个奖励值。然后,MindStar使用这个奖励值来选择最佳的推理路径。

其次,MindStar采用了两种搜索算法:Beam Search和Levin Tree Search。Beam Search是一种贪婪算法,它使用PRM的奖励值作为启发式信息,选择下一个最佳的推理步骤。Levin Tree Search则结合了PRM的奖励值和推理路径的深度,以选择最佳的推理路径。

研究人员在GSM8K和MATH数据集上评估了MindStar的性能,并与现有的开源和闭源LLM进行了比较。结果显示,MindStar显著增强了开源模型(如LLaMA-2-13B和Mistral-7B)的推理能力,并取得了与GPT-3.5和Grok-1等闭源模型相当的性能,但所需的模型大小和计算成本要低得多。

然而,MindStar也存在一些限制。首先,由于MindStar在推理过程中生成了更多的推理步骤,因此它的推理成本较高。其次,MindStar需要一个预先训练的PRM模型来评估推理步骤的正确性,这需要额外的训练数据和计算资源。

尽管存在这些限制,但MindStar为增强LLM的推理能力提供了一种有希望的方法。通过将推理任务转化为搜索问题,并使用PRM和搜索算法来选择最佳的推理路径,MindStar有潜力在各种推理任务上实现更好的性能。

此外,MindStar还为未来的研究提供了一些有趣的方向。例如,研究人员可以探索如何进一步优化MindStar的搜索策略,以减少推理成本并提高性能。他们还可以研究如何将MindStar应用于其他类型的推理任务,如常识推理或逻辑推理。

论文地址:https://arxiv.org/pdf/2405.16265v4

目录
相关文章
|
2月前
|
机器学习/深度学习 自然语言处理 测试技术
CoT神话破灭,并非LLM标配!三大学府机构联手证实,CoT仅在数学符号推理有用
【10月更文挑战第17天】链式思维(CoT)曾被认为是大型语言模型(LLM)激发推理能力的关键方法,但最新研究显示,CoT仅在数学和符号推理任务中有效,其他任务中效果不明显。加州大学伯克利分校、斯坦福大学和卡内基梅隆大学的联合研究打破了CoT作为LLM标配的神话,为重新评估LLM的推理能力提供了新视角。
49 1
|
3天前
|
人工智能 安全 开发者
OpenAI o1强推理能提升安全性?长对话诱导干翻o1
最近,一项名为《Derail Yourself: Multi-turn LLM Jailbreak Attack through Self-discovered Clues》的研究揭示了大型语言模型(LLM)在多轮交互中的安全漏洞。该研究提出了一种基于行动者网络理论的新型攻击方法ActorAttack,通过构建语义相关行动者网络,生成多样化攻击路径,隐藏有害意图并利用LLM知识发现通向有害目标的路径。研究表明,ActorAttack在多轮攻击中表现优于现有方法,引发了对LLM安全性的担忧。研究团队计划发布SafeMTData数据集,以帮助训练更安全的LLM,并强调跨学科合作的重要性。
24 8
|
21天前
|
机器学习/深度学习 存储 缓存
ORCA:基于持续批处理的LLM推理性能优化技术详解
大语言模型(LLMs)的批处理优化面临诸多挑战,尤其是由于推理过程的迭代性导致的资源利用不均问题。ORCA系统通过引入迭代级调度和选择性批处理技术,有效解决了这些问题,大幅提高了GPU资源利用率和系统吞吐量,相比FasterTransformer实现了最高37倍的性能提升。
91 26
|
29天前
|
机器学习/深度学习 人工智能 算法
从 OpenAI-o1 看大模型的复杂推理能力
深入解析OpenAI o1模型的复杂推理技术与发展历程
从 OpenAI-o1 看大模型的复杂推理能力
|
24天前
|
缓存 算法 关系型数据库
MIT韩松团队长上下文LLM推理高效框架DuoAttention:单GPU实现330万Token上下文推理
麻省理工学院韩松团队提出DuoAttention框架,旨在提高大型语言模型(LLM)处理长上下文的效率。该框架通过区分检索头和流式头,仅对检索头应用全键值缓存,减少内存消耗和计算时间,同时保持模型长上下文处理能力。实验结果显示,DuoAttention在多种模型架构上显著提升了推理效率,为LLM的实际应用提供了新可能。
51 14
|
28天前
|
自然语言处理 算法
RAG真能提升LLM推理能力?人大最新研究:数据有噪声,RAG性能不升反降
随着大型语言模型(LLM)在自然语言处理领域的广泛应用,检索增强生成(RAG)技术因能引入新知识和减少幻觉而受到关注。然而,RAG对LLM推理能力的实际提升效果仍存争议。中国人民大学的一项研究表明,RAG虽能辅助LLM推理,但在处理含噪信息和深度推理时面临挑战。为此,研究团队提出了DPrompt tuning方法,旨在解决噪声问题并提升RAG性能。
51 12
|
23天前
|
缓存 自然语言处理 API
Ascend推理组件MindIE LLM
MindIE LLM是基于昇腾硬件的大语言模型推理组件,提供高性能的多并发请求调度与优化技术,如Continuous Batching、PageAttention等,支持Python和C++ API,适用于高效能推理需求。其架构包括深度定制优化的模型模块、文本生成器和任务调度管理器,支持多种模型框架和量化方式,旨在提升大规模语言模型的推理效率和性能。
|
27天前
|
自然语言处理 资源调度 并行计算
从本地部署到企业级服务:十种主流LLM推理框架的技术介绍与对比
本文深入探讨了十种主流的大语言模型(LLM)服务引擎和工具,涵盖从轻量级本地部署到高性能企业级解决方案,详细分析了它们的技术特点、优势及局限性,旨在为研究人员和工程团队提供适合不同应用场景的技术方案。内容涉及WebLLM、LM Studio、Ollama、vLLM、LightLLM、OpenLLM、HuggingFace TGI、GPT4ALL、llama.cpp及Triton Inference Server与TensorRT-LLM等。
120 7
|
3天前
|
JSON 人工智能 算法
探索大型语言模型LLM推理全阶段的JSON格式输出限制方法
本篇文章详细讨论了如何确保大型语言模型(LLMs)输出结构化的JSON格式,这对于提高数据处理的自动化程度和系统的互操作性至关重要。
|
29天前
|
人工智能 自然语言处理 测试技术
苹果一篇论文得罪大模型圈?Transformer不会推理,只是高级模式匹配器!所有LLM都判死刑
苹果公司发布论文《GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models》,质疑大型语言模型(LLM)在数学推理方面的能力。尽管LLM在GSM8K等测试中表现良好,但在新基准测试GSM-Symbolic中,其准确率随数值变化而显著下降,表明LLM可能依赖于记忆和模式匹配而非真正的数学理解。这一发现引发了AI领域的广泛讨论。
39 5

热门文章

最新文章