等不来OpenAI的Q*,华为诺亚探索LLM推理的秘密武器MindStar先来了

简介: 【7月更文挑战第13天】华为诺亚方舟实验室推出MindStar,一种增强LLM推理能力的搜索框架。MindStar通过PRM奖励模型和Beam/Levin Search策略选择最佳推理路径,提升开源模型如LLaMA-2-13B、Mistral-7B的性能,与GPT-3.5等闭源模型媲美,但成本更低。尽管推理成本高和需预训练PRM,MindStar为LLM推理研究开辟新途径。[论文链接](https://arxiv.org/pdf/2405.16265v4)

在人工智能领域,大型语言模型(LLM)的推理能力一直是研究的热点。然而,尽管LLM在各种任务上取得了显著的性能,但它们在处理复杂推理任务时,如回答数学问题,往往表现不佳。

为了解决这个问题,华为诺亚方舟实验室的研究人员提出了一种名为MindStar(M*)的新型推理框架。MindStar是一种基于搜索的推理方法,旨在通过在推理过程中的每个步骤评估和选择最佳的推理路径,来增强LLM的推理能力。

MindStar的核心思想是,LLM在面对复杂推理任务时,可能知道如何产生正确的答案,但选择正确的推理路径却很困难。因此,MindStar通过将推理任务转化为搜索问题,并提出了两种搜索策略来识别最佳的推理路径。

首先,MindStar使用了一个名为Process-supervised Reward Model(PRM)的奖励模型来评估每个推理步骤的正确性。PRM基于先前的推理步骤和潜在的下一个步骤,为每个步骤生成一个奖励值。然后,MindStar使用这个奖励值来选择最佳的推理路径。

其次,MindStar采用了两种搜索算法:Beam Search和Levin Tree Search。Beam Search是一种贪婪算法,它使用PRM的奖励值作为启发式信息,选择下一个最佳的推理步骤。Levin Tree Search则结合了PRM的奖励值和推理路径的深度,以选择最佳的推理路径。

研究人员在GSM8K和MATH数据集上评估了MindStar的性能,并与现有的开源和闭源LLM进行了比较。结果显示,MindStar显著增强了开源模型(如LLaMA-2-13B和Mistral-7B)的推理能力,并取得了与GPT-3.5和Grok-1等闭源模型相当的性能,但所需的模型大小和计算成本要低得多。

然而,MindStar也存在一些限制。首先,由于MindStar在推理过程中生成了更多的推理步骤,因此它的推理成本较高。其次,MindStar需要一个预先训练的PRM模型来评估推理步骤的正确性,这需要额外的训练数据和计算资源。

尽管存在这些限制,但MindStar为增强LLM的推理能力提供了一种有希望的方法。通过将推理任务转化为搜索问题,并使用PRM和搜索算法来选择最佳的推理路径,MindStar有潜力在各种推理任务上实现更好的性能。

此外,MindStar还为未来的研究提供了一些有趣的方向。例如,研究人员可以探索如何进一步优化MindStar的搜索策略,以减少推理成本并提高性能。他们还可以研究如何将MindStar应用于其他类型的推理任务,如常识推理或逻辑推理。

论文地址:https://arxiv.org/pdf/2405.16265v4

目录
相关文章
|
26天前
|
机器学习/深度学习 自然语言处理 测试技术
CoT神话破灭,并非LLM标配!三大学府机构联手证实,CoT仅在数学符号推理有用
【10月更文挑战第17天】链式思维(CoT)曾被认为是大型语言模型(LLM)激发推理能力的关键方法,但最新研究显示,CoT仅在数学和符号推理任务中有效,其他任务中效果不明显。加州大学伯克利分校、斯坦福大学和卡内基梅隆大学的联合研究打破了CoT作为LLM标配的神话,为重新评估LLM的推理能力提供了新视角。
30 1
|
2月前
|
机器学习/深度学习 人工智能 UED
OpenAI o1模型:AI通用复杂推理的新篇章
OpenAI发布了其最新的AI模型——o1,这款模型以其独特的复杂推理能力和全新的训练方式,引起了业界的广泛关注。今天,我们就来深入剖析o1模型的特点、背后的原理,以及一些有趣的八卦信息。
318 73
|
12天前
|
人工智能 自然语言处理
重要的事情说两遍!Prompt复读机,显著提高LLM推理能力
【10月更文挑战第30天】本文介绍了一种名为“问题重读”(Question Re-reading)的提示策略,旨在提高大型语言模型(LLMs)的推理能力。该策略受人类学习和问题解决过程的启发,通过重新审视输入提示中的问题信息,使LLMs能够提取更深层次的见解、识别复杂模式,并建立更细致的联系。实验结果显示,问题重读策略在多个推理任务上显著提升了模型性能。
26 2
|
22天前
|
JSON 人工智能 算法
探索LLM推理全阶段的JSON格式输出限制方法
文章详细讨论了如何确保大型语言模型(LLMs)输出结构化的JSON格式,这对于提高数据处理的自动化程度和系统的互操作性至关重要。
|
28天前
|
机器学习/深度学习 自然语言处理 测试技术
CoT神话破灭,并非LLM标配!三大学府机构联手证实,CoT仅在数学符号推理有用
【10月更文挑战第16天】近期,加州大学伯克利分校、斯坦福大学和卡内基梅隆大学联合研究发现,链式思维(CoT)方法在数学和符号推理任务中表现优异,但在其他类型任务中效果不明显。这一研究打破了CoT作为大型语言模型(LLM)标配的神话,为重新审视LLM的推理能力提供了新视角。
25 2
|
1月前
|
人工智能 前端开发
大模型体验体验报告:OpenAI-O1内置思维链和多个llm组合出的COT有啥区别?传统道家理论+中学生物理奥赛题测试,名不虚传还是名副其实?
一个月前,o1发布时,虽然让人提前体验,但自己并未进行测试。近期终于有机会使用,却仍忘记第一时间测试。本文通过两个测试案例展示了o1的强大能力:一是关于丹田及练气的详细解答,二是解决一道复杂的中学生物理奥赛题。o1的知识面广泛、推理迅速,令人印象深刻。未来,或许可以通过赋予o1更多能力,使其在更多领域发挥作用。如果你有好的测试题,欢迎留言,一起探索o1的潜力。
|
2月前
|
人工智能 Prometheus 监控
使用 NVIDIA NIM 在阿里云容器服务(ACK)中加速 LLM 推理
本文介绍了在阿里云容器服务 ACK 上部署 NVIDIA NIM,结合云原生 AI 套件和 KServe 快速构建高性能模型推理服务的方法。通过阿里云 Prometheus 和 Grafana 实现实时监控,并基于排队请求数配置弹性扩缩容策略,提升服务稳定性和效率。文章提供了详细的部署步骤和示例,帮助读者快速搭建和优化模型推理服务。
165 7
使用 NVIDIA NIM 在阿里云容器服务(ACK)中加速 LLM 推理
|
2月前
|
人工智能 Prometheus 监控
使用NVIDIA NIM在阿里云ACK中加速LLM推理
介绍在阿里云ACK集群上结合AI套件能力快速部署NVIDIA NIM模型推理服务,同时提供全面的监控指标和实现弹性伸缩。
使用NVIDIA NIM在阿里云ACK中加速LLM推理
|
2月前
|
编解码 定位技术 计算机视觉
多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准
【9月更文挑战第2天】浙江大学领衔的研究团队针对多模态大型模型(MLLM)在抽象图像理解和视觉推理上的不足,提出了一种利用GPT-4合成数据构建多模态基准的方法。该研究通过合成数据提高了MLLM处理图表、文档等复杂图像的能力,并构建了一个包含11,193条指令的基准,涵盖8种视觉场景。实验表明,这种方法能显著提升模型性能,但依赖闭源模型和高计算成本是其局限。论文详细内容见:https://arxiv.org/pdf/2407.07053
78 10
|
4月前
|
并行计算 PyTorch 算法框架/工具
LLM推理引擎怎么选?TensorRT vs vLLM vs LMDeploy vs MLC-LLM
有很多个框架和包可以优化LLM推理和服务,所以在本文中我将整理一些常用的推理引擎并进行比较。
392 2