两个小模型互相验证,直接比肩大模型?微软的rStar甚至没用CoT和微调

简介: 【9月更文挑战第10天】微软研究院亚洲院与哈佛大学研究团队提出了rStar,一种创新的方法,旨在提升小型语言模型(SLMs)的推理能力。rStar采用自我对弈的相互生成-判别过程,利用增强版蒙特卡洛树搜索(MCTS)算法生成高质量推理轨迹,并由另一个相似能力的SLM验证这些轨迹的一致性。这种方法在多个模型与任务中显著提升了推理准确率,如在GSM8K上,LLaMA2-7B的准确率从12.51%跃升至63.91%。rStar的独特之处在于无需微调或依赖更强大的模型即可提升推理能力。然而,其计算成本和对SLM自身能力的依赖仍是挑战。

最近,微软研究院亚洲研究院和哈佛大学的研究人员提出了一种名为rStar的新型方法,该方法通过自我对弈的相互推理过程,显著提高了小型语言模型(SLMs)的推理能力,而无需微调或使用更强大的模型。

rStar方法的核心思想是将推理过程解耦为自我对弈的相互生成-判别过程。首先,目标SLM通过增强蒙特卡洛树搜索(MCTS)算法,使用丰富的类人推理动作来构建更高质量的推理轨迹。然后,另一个与目标SLM能力相似的SLM作为判别器,验证目标SLM生成的每个推理轨迹。相互一致的推理轨迹被认为是相互一致的,因此更可能是正确的。

研究人员在五个不同的SLM和五个不同的推理任务上进行了广泛的实验,结果表明rStar能够有效地解决各种推理问题,包括GSM8K、GSM-Hard、MATH、SVAMP和StrategyQA。例如,rStar将LLaMA2-7B在GSM8K上的准确率从12.51%提高到63.91%,将Mistral-7B的准确率从36.46%提高到81.88%,将LLaMA3-8B-Instruct的准确率从74.53%提高到91.13%。

rStar方法的独特之处在于它利用了SLM自身的知识,而不需要依赖更强大的模型或微调。通过自我对弈的相互生成-判别过程,rStar能够有效地指导SLM的自我探索,并提高其推理能力。此外,rStar还引入了一种丰富的类人推理动作空间,使SLM能够生成更高质量的候选推理轨迹。

然而,rStar方法也存在一些限制。首先,它需要使用两个SLM,一个作为生成器,一个作为判别器,这可能会增加计算成本。其次,rStar方法的准确性可能受到SLM自身能力的限制,如果SLM的能力较弱,那么rStar方法的效果可能会受到影响。

论文地址:https://arxiv.org/pdf/2408.06195

目录
相关文章
|
6月前
|
人工智能 自然语言处理 IDE
模型微调不再被代码难住!PAI和Qwen3-Coder加速AI开发新体验
通义千问 AI 编程大模型 Qwen3-Coder 正式开源,阿里云人工智能平台 PAI 支持云上一键部署 Qwen3-Coder 模型,并可在交互式建模环境中使用 Qwen3-Coder 模型。
1091 109
|
5月前
|
存储 机器学习/深度学习 人工智能
大模型微调技术:LoRA原理与实践
本文深入解析大语言模型微调中的关键技术——低秩自适应(LoRA)。通过分析全参数微调的计算瓶颈,详细阐述LoRA的数学原理、实现机制和优势特点。文章包含完整的PyTorch实现代码、性能对比实验以及实际应用场景,为开发者提供高效微调大模型的实践指南。
2716 2
|
6月前
|
分布式计算 测试技术 Spark
科大讯飞开源星火化学大模型、文生音效模型
近期,科大讯飞在魔搭社区(ModelScope)和Gitcode上开源两款模型:讯飞星火化学大模型Spark Chemistry-X1-13B、讯飞文生音频模型AudioFly,助力前沿化学技术研究,以及声音生成技术和应用的探索。
557 2
|
5月前
|
人工智能 搜索推荐 程序员
当AI学会“跨界思考”:多模态模型如何重塑人工智能
当AI学会“跨界思考”:多模态模型如何重塑人工智能
670 120
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
907 13
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
|
6月前
|
人工智能 自然语言处理 测试技术
有没有可能不微调也能让大模型准确完成指定任务?(少样本学习)
对于我这种正在从0到1构建AI产品的一人公司来说,Few Shots学习的最大价值在于:用最少的资源获得最大的效果。我不需要大量的标注数据,不需要复杂的模型训练,只需要精心设计几个示例,就能让大模型快速理解我的业务场景。
444 43
|
6月前
|
自然语言处理 机器人 图形学
腾讯混元图像3.0正式开源发布!80B,首个工业级原生多模态生图模型
腾讯混元图像3.0,真的来了——开源,免费开放使用。 正式介绍一下:混元图像3.0(HunyuanImage 3.0),是首个工业级原生多模态生图模型,参数规模80B,也是目前测评效果最好、参数量最大的开源生图模型,效果可对…
1257 2
腾讯混元图像3.0正式开源发布!80B,首个工业级原生多模态生图模型

热门文章

最新文章