大模型+蒙特卡洛树搜索,一招让LLaMa-3 8B奥数水平直逼GPT-4

简介: 【6月更文挑战第25天】 - 复旦大学和上海AI Lab的研究者提出这一算法,用于增强大型语言模型在复杂数学推理任务中的能力,解决现有模型推理准确性问题。- **MCTSr**流程包括初始化、选择、自细化、自评估、反向传播和UCT更新,通过多轮迭代提升答案质量。- 实验显示,该算法在**GSM8K**、**GSM Hard**、**MATH**和**Olympiad-level**数据集上表现出色,尤其在多次迭代后。- 尽管计算成本高且不适用于所有问题类型,但研究揭示了强化LLMs推理能力的新途径,对未来的AI应用具有指导意义。

近日,一篇名为《Accessing GPT-4 level Mathematical Olympiad Solutions via Monte Carlo Tree Self-refine with LLaMa-3 8B: A Technical Report》的技术报告在人工智能领域引起了广泛关注。该报告由复旦大学的Di Zhang、上海人工智能实验室的Xiaoshui Huang、Dongzhan Zhou、Yuqiang Li和Wanli Ouyang共同撰写。

这篇论文主要介绍了一种名为MCT Self-Refine(MCTSr)的算法,该算法通过将大型语言模型(LLMs)与蒙特卡洛树搜索(MCTS)相结合,旨在提高复杂数学推理任务的性能。特别是,MCTSr算法利用了系统探索和启发式自细化机制,以改善LLMs中的决策制定框架。

随着人工智能的快速发展,大型语言模型(LLMs)如GPT-4和LLaMa已经成为自然语言处理(NLP)领域的重要工具。这些模型具有数十亿参数的架构,展示了出色的语言理解和生成能力。然而,尽管取得了这些进展,LLMs在需要战略和逻辑推理的领域(如数学问题解决)中仍面临重大挑战。

其中一个主要问题是LLMs输出的准确性和可靠性。特别是在数学领域,精确度至关重要,LLMs的推理能力往往容易产生幻觉,即输出虽然表面上看似合理,但实际上与问题无关或事实不正确,从而对推理过程造成损害。

为了解决这些挑战,作者提出了MCT Self-Refine(MCTSr)算法,该算法将LLMs与蒙特卡洛树搜索(MCTS)算法相结合,重点是提高LLMs在复杂数学推理任务(如数学奥林匹克竞赛中遇到的任务)中的表现。

MCTS是一种决策制定工具,广泛应用于需要战略规划的人工智能领域,如游戏和复杂问题解决环境。通过将MCTS的系统探索能力与LLMs的自细化和自评估能力相结合,作者旨在创建一个更强大的框架来解决当前LLMs难以解决的复杂推理任务。

MCTSr算法的操作流程遵循MCTS算法的一般模式。它包括以下几个关键阶段:

1.初始化:建立一个根节点,使用一个简单的模型生成的答案和一个占位响应(如“我不知道”)来最小化模型过拟合的趋势。
2.选择:使用价值函数Q对所有未完全扩展的答案进行排名,并选择具有最高值的节点进行进一步探索和细化。
3.自细化:所选的答案通过自细化框架进行优化,以生成改进后的答案。
4.自评估:细化后的答案进行评分,以生成奖励值并计算其Q值。这包括使用模型的自奖励能力进行评分。
5.反向传播:细化后的答案的价值传播回其父节点和其他相关节点,以更新树的价值信息。
6.UCT更新:更新所有节点的Q值后,使用UCT更新公式更新所有节点的UCT值,以进行下一次选择。

为了评估MCTSr算法在解决数学问题方面的有效性,作者使用了LLaMa3-8B作为基础模型,并进行了各种配置的实验,包括零次CoT、自细化、4次MCTSr和8次MCTSr。他们将这些配置与最新的闭源模型(如GPT-4、Claude 3和Gemini 1.5-Pro)进行了比较。

实验结果表明,MCTSr算法在解决数学问题方面取得了显著的成功率提升。特别是在GSM8K和GSM Hard等数据集上,MCTSr算法的成功率随着迭代次数的增加而显著提高。此外,在MATH和Olympiad-level等更具挑战性的数据集上,MCTSr算法也取得了令人印象深刻的结果。

尽管MCTSr算法在解决数学问题方面取得了令人鼓舞的结果,但仍然存在一些限制。首先,MCTSr算法可能不适用于所有类型的数学问题,特别是那些需要创造性思维或领域专业知识的问题。其次,MCTSr算法的计算成本较高,可能不适用于实时或资源受限的环境。

然而,MCTSr算法的成功表明,通过将LLMs与决策制定工具(如MCTS)相结合,可以实现更强大的推理能力。这为未来的研究提供了一个有希望的方向,即探索如何将这些技术应用于其他领域,如医疗诊断或金融预测。

论文地址:https://arxiv.org/pdf/2406.07394

目录
相关文章
|
3月前
|
存储 人工智能 异构计算
大模型下HPE GPT解决问题之确保服务高效可靠如何解决
大模型下HPE GPT解决问题之确保服务高效可靠如何解决
33 0
|
3月前
|
JSON C# 数据格式
gpt-3.5-turbo与星火认知大模型v3.5回答对比
gpt-3.5-turbo与星火认知大模型v3.5回答对比
38 0
|
22天前
|
机器学习/深度学习 弹性计算 人工智能
大模型进阶微调篇(三):微调GPT2大模型实战
本文详细介绍了如何在普通个人电脑上微调GPT2大模型,包括环境配置、代码实现和技术要点。通过合理设置训练参数和优化代码,即使在无独显的设备上也能完成微调,耗时约14小时。文章还涵盖了GPT-2的简介、数据集处理、自定义进度条回调等内容,适合初学者参考。
150 6
|
1月前
|
机器学习/深度学习 测试技术
ACL杰出论文奖:GPT-4V暴露致命缺陷?JHU等发布首个多模态ToM 测试集,全面提升大模型心智能力
【10月更文挑战第6天】约翰斯·霍普金斯大学等机构提出了一项荣获ACL杰出论文奖的研究,旨在解决大模型在心智理论(ToM)上的不足。他们发布了首个MMToM-QA多模态ToM测试集,并提出BIP-ALM方法,从多模态数据中提取统一表示,结合语言模型进行贝叶斯逆规划,显著提升了模型的ToM能力。这一成果为机器与人类自然交互提供了新思路,尽管仍面临一些局限性和技术挑战。论文详情见:https://arxiv.org/abs/2401.08743。
47 6
|
2月前
|
数据采集 自然语言处理 监控
大模型微调使GPT3成为了可以聊天发布指令的ChatGPT
正是通过微调大模型使得GPT3成为了可以聊天发布指令的ChatGPT。聊天大模型在通用大模型的基础上加一层微调就实现人人能用的大模型,使得通用大模型的能力被更多人使用和了解。
54 4
大模型微调使GPT3成为了可以聊天发布指令的ChatGPT
|
1月前
|
开发工具 git
LLM-03 大模型 15分钟 FineTuning 微调 GPT2 模型 finetuning GPT微调实战 仅需6GB显存 单卡微调 数据 10MB数据集微调
LLM-03 大模型 15分钟 FineTuning 微调 GPT2 模型 finetuning GPT微调实战 仅需6GB显存 单卡微调 数据 10MB数据集微调
57 0
|
2月前
|
机器学习/深度学习 数据采集 人工智能
Llama 8B搜索100次超越GPT-4o!推理+搜索即可提升性能,新Scaling Law诞生?
【9月更文挑战第8天】在人工智能领域,理查德·萨顿提出了一项重要观点,即利用通用计算方法最终是最有效的途径,这一理念在诸如计算机象棋、围棋、语音识别及视觉等多个子领域中得到了验证。萨顿强调,计算能力的指数增长使得依赖大量计算的技术更加吸引人,并且从长远来看,计算能力将是唯一重要的因素。尽管他的观点强调了搜索和学习方法的力量,但也有人批评其忽略了领域知识和其他因素的重要性。
38 2
|
3月前
|
人工智能 测试技术
真相了!大模型解数学题和人类真不一样:死记硬背、知识欠缺明显,GPT-4o表现最佳
【8月更文挑战第15天】WE-MATH基准测试揭示大型多模态模型在解决视觉数学问题上的局限与潜力。研究涵盖6500题,分67概念5层次,评估指标包括知识与泛化不足等。GPT-4o表现最优,但仍存多步推理难题。研究提出知识概念增强策略以改善,为未来AI数学推理指明方向。论文见: https://arxiv.org/pdf/2407.01284
48 1
|
3月前
|
人工智能 API 异构计算
震惊AI界!DeepSeek挑战GPT-4o霸主地位,发布超低价开源大模型
震惊AI界!DeepSeek挑战GPT-4o霸主地位,发布超低价开源大模型
122 2
|
4月前
|
人工智能 数据挖掘 机器人
同样是人工智能 客户在哪儿AI和GPT等大模型有什么不同
客户在哪儿AI生产的是企业全历史行为数据,同时还针对ToB企业,提供基于企业全历史行为数据的数据分析服务。

热门文章

最新文章