大模型+蒙特卡洛树搜索,一招让LLaMa-3 8B奥数水平直逼GPT-4

简介: 【6月更文挑战第25天】 - 复旦大学和上海AI Lab的研究者提出这一算法,用于增强大型语言模型在复杂数学推理任务中的能力,解决现有模型推理准确性问题。- **MCTSr**流程包括初始化、选择、自细化、自评估、反向传播和UCT更新,通过多轮迭代提升答案质量。- 实验显示,该算法在**GSM8K**、**GSM Hard**、**MATH**和**Olympiad-level**数据集上表现出色,尤其在多次迭代后。- 尽管计算成本高且不适用于所有问题类型,但研究揭示了强化LLMs推理能力的新途径,对未来的AI应用具有指导意义。

近日,一篇名为《Accessing GPT-4 level Mathematical Olympiad Solutions via Monte Carlo Tree Self-refine with LLaMa-3 8B: A Technical Report》的技术报告在人工智能领域引起了广泛关注。该报告由复旦大学的Di Zhang、上海人工智能实验室的Xiaoshui Huang、Dongzhan Zhou、Yuqiang Li和Wanli Ouyang共同撰写。

这篇论文主要介绍了一种名为MCT Self-Refine(MCTSr)的算法,该算法通过将大型语言模型(LLMs)与蒙特卡洛树搜索(MCTS)相结合,旨在提高复杂数学推理任务的性能。特别是,MCTSr算法利用了系统探索和启发式自细化机制,以改善LLMs中的决策制定框架。

随着人工智能的快速发展,大型语言模型(LLMs)如GPT-4和LLaMa已经成为自然语言处理(NLP)领域的重要工具。这些模型具有数十亿参数的架构,展示了出色的语言理解和生成能力。然而,尽管取得了这些进展,LLMs在需要战略和逻辑推理的领域(如数学问题解决)中仍面临重大挑战。

其中一个主要问题是LLMs输出的准确性和可靠性。特别是在数学领域,精确度至关重要,LLMs的推理能力往往容易产生幻觉,即输出虽然表面上看似合理,但实际上与问题无关或事实不正确,从而对推理过程造成损害。

为了解决这些挑战,作者提出了MCT Self-Refine(MCTSr)算法,该算法将LLMs与蒙特卡洛树搜索(MCTS)算法相结合,重点是提高LLMs在复杂数学推理任务(如数学奥林匹克竞赛中遇到的任务)中的表现。

MCTS是一种决策制定工具,广泛应用于需要战略规划的人工智能领域,如游戏和复杂问题解决环境。通过将MCTS的系统探索能力与LLMs的自细化和自评估能力相结合,作者旨在创建一个更强大的框架来解决当前LLMs难以解决的复杂推理任务。

MCTSr算法的操作流程遵循MCTS算法的一般模式。它包括以下几个关键阶段:

1.初始化:建立一个根节点,使用一个简单的模型生成的答案和一个占位响应(如“我不知道”)来最小化模型过拟合的趋势。
2.选择:使用价值函数Q对所有未完全扩展的答案进行排名,并选择具有最高值的节点进行进一步探索和细化。
3.自细化:所选的答案通过自细化框架进行优化,以生成改进后的答案。
4.自评估:细化后的答案进行评分,以生成奖励值并计算其Q值。这包括使用模型的自奖励能力进行评分。
5.反向传播:细化后的答案的价值传播回其父节点和其他相关节点,以更新树的价值信息。
6.UCT更新:更新所有节点的Q值后,使用UCT更新公式更新所有节点的UCT值,以进行下一次选择。

为了评估MCTSr算法在解决数学问题方面的有效性,作者使用了LLaMa3-8B作为基础模型,并进行了各种配置的实验,包括零次CoT、自细化、4次MCTSr和8次MCTSr。他们将这些配置与最新的闭源模型(如GPT-4、Claude 3和Gemini 1.5-Pro)进行了比较。

实验结果表明,MCTSr算法在解决数学问题方面取得了显著的成功率提升。特别是在GSM8K和GSM Hard等数据集上,MCTSr算法的成功率随着迭代次数的增加而显著提高。此外,在MATH和Olympiad-level等更具挑战性的数据集上,MCTSr算法也取得了令人印象深刻的结果。

尽管MCTSr算法在解决数学问题方面取得了令人鼓舞的结果,但仍然存在一些限制。首先,MCTSr算法可能不适用于所有类型的数学问题,特别是那些需要创造性思维或领域专业知识的问题。其次,MCTSr算法的计算成本较高,可能不适用于实时或资源受限的环境。

然而,MCTSr算法的成功表明,通过将LLMs与决策制定工具(如MCTS)相结合,可以实现更强大的推理能力。这为未来的研究提供了一个有希望的方向,即探索如何将这些技术应用于其他领域,如医疗诊断或金融预测。

论文地址:https://arxiv.org/pdf/2406.07394

目录
相关文章
|
1月前
|
人工智能 自然语言处理 算法
谷歌推出”自我发现“框架,极大增强GPT-4等大模型推理能力
【4月更文挑战第20天】谷歌DeepMind团队推出了SELF-DISCOVER框架,让大型语言模型能自我发现并构建推理结构,提升在复杂任务中的性能。该框架模仿人类解决问题方式,分两阶段选择和适应原子推理模块,以解决挑战。在多任务测试中,SELF-DISCOVER相比传统方法表现出色,性能提升42%,计算量减少10至40倍。它具有跨模型应用的普适性,并与人类思维方式相通。然而,它在某些任务类型上仍有优化空间,且需解决计算成本问题。论文链接:https://arxiv.org/abs/2402.03620
40 1
|
1月前
|
人工智能 搜索推荐 测试技术
模拟试错(STE)法让7B大模型测试超GPT-4
【2月更文挑战第24天】模拟试错(STE)法让7B大模型测试超GPT-4
75 1
模拟试错(STE)法让7B大模型测试超GPT-4
|
7月前
|
存储 人工智能 调度
GPT-4 Turbo 发布 | 大模型训练的新时代:超算互联网的调度与调优
算力对训练模型的重要性日益凸显。随着大模型训练的流行,全球显卡和算力正在快速增长。算力后周期市场也在迅速崛起。其中“后”更多是指后服务市场,涵盖从显卡服务器到货IDC之后,形成稳定算力到输出稳定商业推理结果全过程。该过程主要涉及云化、调优、调度、部署、落地和数据管理等环节。
|
1月前
|
人工智能 自然语言处理 数据可视化
一键本地部署类GPT大模型,免费!
一键本地部署类GPT大模型,免费!
96 1
|
1月前
|
人工智能
8B文字多模态大模型指标逼近GPT4V,字节、华师、华科联合提出TextSquare
【5月更文挑战第10天】TextSquare,由字节跳动、华东师大和华中科技大学联合研发,是新型的文本中心视觉问答模型,借助Square-10M数据集在VQA任务上取得突破。在6个OCRBench等基准上超越现有最佳模型,如GPT4V和Gemini。模型利用视觉问答推理数据增强上下文理解,减少幻觉现象,平均准确率75.1%。但面对复杂问题和泛化能力仍有挑战。[论文链接](https://arxiv.org/abs/2404.12803)
45 4
|
1月前
|
数据采集 编解码 人工智能
超越GPT-4V,苹果多模态大模型上新!
【4月更文挑战第17天】苹果公司推出Ferret-UI,一款专为移动UI理解的新型MLLM,优于GPT-4V。该模型针对移动UI特点优化,采用“任意分辨率”技术处理屏幕细节,通过广泛的基础UI任务和高级任务训练,提升理解和推理能力。在基准测试中,Ferret-UI表现突出,显示了苹果在多模态语言模型领域的领先地位。尽管面临灵活性和训练数据质量挑战,Ferret-UI为移动应用自动化和智能助手发展开辟新路径。
60 1
超越GPT-4V,苹果多模态大模型上新!
|
1月前
|
机器学习/深度学习 传感器 人工智能
科技周报 | GPT商店上线即乱;大模型可被故意“教坏”?
科技周报 | GPT商店上线即乱;大模型可被故意“教坏”?
47 1
|
1月前
|
人工智能 JSON 安全
超越GPT4!Cluade 3重磅发布!国外最新大模型!
超越GPT4!Cluade 3重磅发布!国外最新大模型!
38 0
|
1月前
|
机器学习/深度学习 数据采集 存储
百川智能发布超千亿大模型Baichuan 3,中文评测超越GPT-4
百川智能发布大语言模型Baichuan 3,参数超千亿,表现出色。在CMMLU、GAOKAO等中文任务评测中超越GPT-4,且在MATH、HumanEval等专项评测中证明其自然语言处理和代码生成实力。Baichuan 3在医疗领域,如MCMLE、MedExam等评测中成绩突出,成为中文医疗任务的最佳模型。此外,它通过“迭代式强化学习”提升语义理解和生成能力,诗词创作能力远超其他模型。Baichuan 3的推出标志着百川智能在大模型技术上的新里程碑。
73 0
|
1月前
|
存储 人工智能 开发者
比GPT-4快18倍,世界最快大模型Groq登场!
【2月更文挑战第2天】比GPT-4快18倍,世界最快大模型Groq登场!
83 3
比GPT-4快18倍,世界最快大模型Groq登场!