两个小模型互相验证,直接比肩大模型?微软的rStar甚至没用CoT和微调

简介: 【9月更文挑战第10天】微软研究院亚洲院与哈佛大学研究团队提出了rStar,一种创新的方法,旨在提升小型语言模型(SLMs)的推理能力。rStar采用自我对弈的相互生成-判别过程,利用增强版蒙特卡洛树搜索(MCTS)算法生成高质量推理轨迹,并由另一个相似能力的SLM验证这些轨迹的一致性。这种方法在多个模型与任务中显著提升了推理准确率,如在GSM8K上,LLaMA2-7B的准确率从12.51%跃升至63.91%。rStar的独特之处在于无需微调或依赖更强大的模型即可提升推理能力。然而,其计算成本和对SLM自身能力的依赖仍是挑战。

最近,微软研究院亚洲研究院和哈佛大学的研究人员提出了一种名为rStar的新型方法,该方法通过自我对弈的相互推理过程,显著提高了小型语言模型(SLMs)的推理能力,而无需微调或使用更强大的模型。

rStar方法的核心思想是将推理过程解耦为自我对弈的相互生成-判别过程。首先,目标SLM通过增强蒙特卡洛树搜索(MCTS)算法,使用丰富的类人推理动作来构建更高质量的推理轨迹。然后,另一个与目标SLM能力相似的SLM作为判别器,验证目标SLM生成的每个推理轨迹。相互一致的推理轨迹被认为是相互一致的,因此更可能是正确的。

研究人员在五个不同的SLM和五个不同的推理任务上进行了广泛的实验,结果表明rStar能够有效地解决各种推理问题,包括GSM8K、GSM-Hard、MATH、SVAMP和StrategyQA。例如,rStar将LLaMA2-7B在GSM8K上的准确率从12.51%提高到63.91%,将Mistral-7B的准确率从36.46%提高到81.88%,将LLaMA3-8B-Instruct的准确率从74.53%提高到91.13%。

rStar方法的独特之处在于它利用了SLM自身的知识,而不需要依赖更强大的模型或微调。通过自我对弈的相互生成-判别过程,rStar能够有效地指导SLM的自我探索,并提高其推理能力。此外,rStar还引入了一种丰富的类人推理动作空间,使SLM能够生成更高质量的候选推理轨迹。

然而,rStar方法也存在一些限制。首先,它需要使用两个SLM,一个作为生成器,一个作为判别器,这可能会增加计算成本。其次,rStar方法的准确性可能受到SLM自身能力的限制,如果SLM的能力较弱,那么rStar方法的效果可能会受到影响。

论文地址:https://arxiv.org/pdf/2408.06195

目录
相关文章
|
2月前
长上下文能力只是吹牛?最强GPT-4o正确率仅55.8%,开源模型不如瞎蒙
【8月更文挑战第10天】新研究NoCha挑战显示,即使是顶级的大型语言模型GPT-4o,在处理长篇幅文本时正确率仅55.8%,低于人类直观水平。该挑战基于近作英文小说,检验模型对整本书信息的理解与推理能力。结果显示,模型在全局推理上的表现不佳,倾向于依赖局部信息而非整体上下文,尤其是在复杂推理需求高的科幻小说上表现更弱。这一发现揭示了当前模型在处理长上下文任务上的局限性。论文链接: [https://arxiv.org/pdf/2406.16264](https://arxiv.org/pdf/2406.16264)。
118 65
|
2月前
|
人工智能 自然语言处理 测试技术
权重、代码、数据集全开源,性能超越Mistral-7B,苹果小模型来了
【8月更文挑战第12天】DCLM是由多家机构联合推出的全新测试平台,旨在通过优化数据集增强语言模型性能。其核心贡献包括一个含240万亿token的标准化语料库及有效的预训练方案。DCLM-BASELINE数据集成功训练出7B参数模型,在MMLU上5-shot准确率达64%,超越Mistral-7B,且计算成本降低40%。尽管存在局限,但该项目已全开源,为社区提供宝贵资源,推动语言模型发展。[论文链接](https://arxiv.org/pdf/2406.11794)
157 60
|
2月前
|
存储 并行计算
小技巧大功效,仅阅读两次提示让循环语言模型超越Transformer++
【8月更文挑战第27天】斯坦福与布法罗大学的研究显示,通过"Just-Read-Twice"(JRT)策略,循环语言模型(RNNs)在多项任务上的表现超越了行业标杆Transformer++模型。JRT策略让RNNs在处理信息时进行两次读取,有效解决长上下文记忆难题,显著提升了性能。实验覆盖FDA、SQUAD等多个任务,均取得明显成效。论文已发布于arXiv。
24 2
|
2月前
|
机器学习/深度学习 自然语言处理 测试技术
87.8%准确率赶超GPT-4o登顶!谷歌DeepMind发布自动评估模型FLAMe
【8月更文挑战第21天】谷歌DeepMind推出的FLAMe(Foundational Large Autorater Models)是一种基于深度学习的自动评估模型,旨在通过分析输入文本与参考答案的差异来评估大型语言模型(LLMs)的输出质量。FLAMe采用多任务学习方法,在涵盖500万个手工评分的100多种质量评估任务上训练,展现出强大的泛化能力。在RewardBench基准测试中,FLAMe以87.8%的准确率超越GPT-4等先进模型。这一突破不仅降低了人工评估成本,还提高了评估效率,为自然语言处理等领域带来革新。
37 1
|
5月前
|
人工智能 自然语言处理 API
【极客技术】真假GPT-4?微调 Llama 2 以替代 GPT-3.5/4 已然可行!
【极客技术】真假GPT-4?微调 Llama 2 以替代 GPT-3.5/4 已然可行!
70 0
|
机器学习/深度学习 存储 人工智能
ICLR 2023 Spotlight|节省95%训练开销,清华黄隆波团队提出强化学习专用稀疏训练框架RLx2
ICLR 2023 Spotlight|节省95%训练开销,清华黄隆波团队提出强化学习专用稀疏训练框架RLx2
178 0
|
数据采集 机器学习/深度学习 自然语言处理
首次:微软用GPT-4做大模型指令微调,新任务零样本性能再提升
首次:微软用GPT-4做大模型指令微调,新任务零样本性能再提升
228 0
|
机器学习/深度学习 算法 vr&ar
DeepMind新作:无需权重更新、提示和微调,transformer在试错中自主改进
DeepMind新作:无需权重更新、提示和微调,transformer在试错中自主改进
127 0
|
人工智能 移动开发 自然语言处理
NLP预训练范式大一统,不再纠结下游任务类型,谷歌这个新框架刷新50个SOTA
NLP预训练范式大一统,不再纠结下游任务类型,谷歌这个新框架刷新50个SOTA
282 0
|
机器学习/深度学习 设计模式 自然语言处理
语言模型的冰山一角:微调是不必要, AI21 Labs探索冻结模型未开发潜力
语言模型的冰山一角:微调是不必要, AI21 Labs探索冻结模型未开发潜力