等不来OpenAI的Q*,华为诺亚探索LLM推理的秘密武器MindStar先来了

简介: 【7月更文挑战第13天】华为诺亚方舟实验室推出MindStar,一种增强LLM推理能力的搜索框架。MindStar通过PRM奖励模型和Beam/Levin Search策略选择最佳推理路径,提升开源模型如LLaMA-2-13B、Mistral-7B的性能,与GPT-3.5等闭源模型媲美,但成本更低。尽管推理成本高和需预训练PRM,MindStar为LLM推理研究开辟新途径。[论文链接](https://arxiv.org/pdf/2405.16265v4)

在人工智能领域,大型语言模型(LLM)的推理能力一直是研究的热点。然而,尽管LLM在各种任务上取得了显著的性能,但它们在处理复杂推理任务时,如回答数学问题,往往表现不佳。

为了解决这个问题,华为诺亚方舟实验室的研究人员提出了一种名为MindStar(M*)的新型推理框架。MindStar是一种基于搜索的推理方法,旨在通过在推理过程中的每个步骤评估和选择最佳的推理路径,来增强LLM的推理能力。

MindStar的核心思想是,LLM在面对复杂推理任务时,可能知道如何产生正确的答案,但选择正确的推理路径却很困难。因此,MindStar通过将推理任务转化为搜索问题,并提出了两种搜索策略来识别最佳的推理路径。

首先,MindStar使用了一个名为Process-supervised Reward Model(PRM)的奖励模型来评估每个推理步骤的正确性。PRM基于先前的推理步骤和潜在的下一个步骤,为每个步骤生成一个奖励值。然后,MindStar使用这个奖励值来选择最佳的推理路径。

其次,MindStar采用了两种搜索算法:Beam Search和Levin Tree Search。Beam Search是一种贪婪算法,它使用PRM的奖励值作为启发式信息,选择下一个最佳的推理步骤。Levin Tree Search则结合了PRM的奖励值和推理路径的深度,以选择最佳的推理路径。

研究人员在GSM8K和MATH数据集上评估了MindStar的性能,并与现有的开源和闭源LLM进行了比较。结果显示,MindStar显著增强了开源模型(如LLaMA-2-13B和Mistral-7B)的推理能力,并取得了与GPT-3.5和Grok-1等闭源模型相当的性能,但所需的模型大小和计算成本要低得多。

然而,MindStar也存在一些限制。首先,由于MindStar在推理过程中生成了更多的推理步骤,因此它的推理成本较高。其次,MindStar需要一个预先训练的PRM模型来评估推理步骤的正确性,这需要额外的训练数据和计算资源。

尽管存在这些限制,但MindStar为增强LLM的推理能力提供了一种有希望的方法。通过将推理任务转化为搜索问题,并使用PRM和搜索算法来选择最佳的推理路径,MindStar有潜力在各种推理任务上实现更好的性能。

此外,MindStar还为未来的研究提供了一些有趣的方向。例如,研究人员可以探索如何进一步优化MindStar的搜索策略,以减少推理成本并提高性能。他们还可以研究如何将MindStar应用于其他类型的推理任务,如常识推理或逻辑推理。

论文地址:https://arxiv.org/pdf/2405.16265v4

目录
相关文章
|
2月前
|
存储 机器学习/深度学习 算法
​​LLM推理效率的范式转移:FlashAttention与PagedAttention正在重塑AI部署的未来​
本文深度解析FlashAttention与PagedAttention两大LLM推理优化技术:前者通过分块计算提升注意力效率,后者借助分页管理降低KV Cache内存开销。二者分别从计算与内存维度突破性能瓶颈,显著提升大模型推理速度与吞吐量,是当前高效LLM系统的核心基石。建议收藏细读。
610 125
|
1月前
|
人工智能 自然语言处理 TensorFlow
134_边缘推理:TensorFlow Lite - 优化移动端LLM部署技术详解与实战指南
在人工智能与移动计算深度融合的今天,将大语言模型(LLM)部署到移动端和边缘设备已成为行业发展的重要趋势。TensorFlow Lite作为专为移动和嵌入式设备优化的轻量级推理框架,为开发者提供了将复杂AI模型转换为高效、低功耗边缘计算解决方案的强大工具。随着移动设备硬件性能的不断提升和模型压缩技术的快速发展,2025年的移动端LLM部署已不再是遥远的愿景,而是正在成为现实的技术实践。
|
7月前
|
机器学习/深度学习 存储 缓存
加速LLM大模型推理,KV缓存技术详解与PyTorch实现
大型语言模型(LLM)的推理效率是AI领域的重要挑战。本文聚焦KV缓存技术,通过存储复用注意力机制中的Key和Value张量,减少冗余计算,显著提升推理效率。文章从理论到实践,详细解析KV缓存原理、实现与性能优势,并提供PyTorch代码示例。实验表明,该技术在长序列生成中可将推理时间降低近60%,为大模型优化提供了有效方案。
1401 15
加速LLM大模型推理,KV缓存技术详解与PyTorch实现
|
2月前
|
机器学习/深度学习 人工智能 前端开发
解决推理能力瓶颈,用因果推理提升LLM智能决策
从ChatGPT到AI智能体,标志着AI从对话走向自主执行复杂任务的能力跃迁。AI智能体可完成销售、旅行规划、外卖点餐等多场景任务,但其发展受限于大语言模型(LLM)的推理能力。LLM依赖统计相关性,缺乏对因果关系的理解,导致在非确定性任务中表现不佳。结合因果推理与内省机制,有望突破当前AI智能体的推理瓶颈,提升其决策准确性与自主性。
289 6
解决推理能力瓶颈,用因果推理提升LLM智能决策
|
1月前
|
机器学习/深度学习 缓存 PyTorch
131_推理加速:ONNX与TensorRT深度技术解析与LLM模型转换优化实践
在大语言模型(LLM)时代,高效的推理加速已成为部署高性能AI应用的关键挑战。随着模型规模的不断扩大(从BERT的数亿参数到GPT-4的数千亿参数),推理过程的计算成本和延迟问题日益突出。ONNX(开放神经网络交换格式)和TensorRT作为业界领先的推理优化框架,为LLM的高效部署提供了强大的技术支持。本文将深入探讨LLM推理加速的核心原理,详细讲解PyTorch模型转换为ONNX和TensorRT的完整流程,并结合2025年最新优化技术,提供可落地的代码实现与性能调优方案。
|
7月前
|
人工智能 自然语言处理 测试技术
能够双向推理的LLM!Dream-7B:港大联合华为开源的扩散推理模型,能够同时考虑前后文信息
Dream-7B是由香港大学与华为诺亚方舟实验室联合研发的开源扩散大语言模型,采用独特的掩码扩散范式,在文本生成、数学推理和代码编写等任务中展现出卓越性能。
338 3
能够双向推理的LLM!Dream-7B:港大联合华为开源的扩散推理模型,能够同时考虑前后文信息
|
1月前
|
缓存 监控 安全
80_离线环境搭建:无互联网LLM推理
在当今大语言模型(LLM)蓬勃发展的时代,许多组织和个人面临着一个共同的挑战:如何在无互联网连接的环境中高效部署和使用LLM?这一需求源于多方面的考量,包括数据安全、隐私保护、网络限制、极端环境作业等。2025年,随着企业对数据主权意识的增强和边缘计算的普及,离线LLM部署已成为AI应用落地的关键场景之一。
|
2月前
|
存储 缓存 负载均衡
LLM推理成本直降60%:PD分离在大模型商业化中的关键价值
在LLM推理中,Prefill(计算密集)与Decode(访存密集)阶段特性不同,分离计算可提升资源利用率。本文详解vLLM框架中的PD分离实现及局限,并分析Dynamo、Mooncake、SGLang等主流方案,探讨KV缓存、传输机制与调度策略,助力LLM推理优化。建议点赞收藏,便于后续查阅。
1447 1
|
8月前
|
机器学习/深度学习 人工智能 缓存
英伟达提出全新Star Attention,10倍加速LLM推理!登顶Hugging Face论文榜
英伟达推出的Star Attention技术,旨在解决Transformer模型在长序列推理中的高计算成本与速度瓶颈问题。通过两阶段块稀疏近似方法,第一阶段利用块局部注意力并行处理上下文信息,第二阶段通过全局注意力机制交互查询与缓存令牌,从而显著提升计算效率并减少通信开销。该技术可无缝集成到现有LLM中,将内存需求和推理时间降低多达11倍,同时保持高准确性。然而,其在极长序列处理中可能面临内存限制,并增加模型复杂性。尽管如此,Star Attention为长序列推理提供了创新解决方案,推动了Transformer模型的实际应用潜力。
171 19
|
4月前
|
人工智能 自然语言处理 API
AI-Compass LLM推理框架+部署生态:整合vLLM、SGLang、LMDeploy等顶级加速框架,涵盖本地到云端全场景部署
AI-Compass LLM推理框架+部署生态:整合vLLM、SGLang、LMDeploy等顶级加速框架,涵盖本地到云端全场景部署
AI-Compass LLM推理框架+部署生态:整合vLLM、SGLang、LMDeploy等顶级加速框架,涵盖本地到云端全场景部署

热门文章

最新文章