大模型+蒙特卡洛树搜索，一招让LLaMa-3 8B奥数水平直逼GPT-4-阿里云开发者社区

大模型+蒙特卡洛树搜索，一招让LLaMa-3 8B奥数水平直逼GPT-4

2024-06-25 229

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【6月更文挑战第25天】 - 复旦大学和上海AI Lab的研究者提出这一算法，用于增强大型语言模型在复杂数学推理任务中的能力，解决现有模型推理准确性问题。- **MCTSr**流程包括初始化、选择、自细化、自评估、反向传播和UCT更新，通过多轮迭代提升答案质量。- 实验显示，该算法在**GSM8K**、**GSM Hard**、**MATH**和**Olympiad-level**数据集上表现出色，尤其在多次迭代后。- 尽管计算成本高且不适用于所有问题类型，但研究揭示了强化LLMs推理能力的新途径，对未来的AI应用具有指导意义。

近日，一篇名为《Accessing GPT-4 level Mathematical Olympiad Solutions via Monte Carlo Tree Self-refine with LLaMa-3 8B: A Technical Report》的技术报告在人工智能领域引起了广泛关注。该报告由复旦大学的Di Zhang、上海人工智能实验室的Xiaoshui Huang、Dongzhan Zhou、Yuqiang Li和Wanli Ouyang共同撰写。

这篇论文主要介绍了一种名为MCT Self-Refine（MCTSr）的算法，该算法通过将大型语言模型（LLMs）与蒙特卡洛树搜索（MCTS）相结合，旨在提高复杂数学推理任务的性能。特别是，MCTSr算法利用了系统探索和启发式自细化机制，以改善LLMs中的决策制定框架。

随着人工智能的快速发展，大型语言模型（LLMs）如GPT-4和LLaMa已经成为自然语言处理（NLP）领域的重要工具。这些模型具有数十亿参数的架构，展示了出色的语言理解和生成能力。然而，尽管取得了这些进展，LLMs在需要战略和逻辑推理的领域（如数学问题解决）中仍面临重大挑战。

其中一个主要问题是LLMs输出的准确性和可靠性。特别是在数学领域，精确度至关重要，LLMs的推理能力往往容易产生幻觉，即输出虽然表面上看似合理，但实际上与问题无关或事实不正确，从而对推理过程造成损害。

为了解决这些挑战，作者提出了MCT Self-Refine（MCTSr）算法，该算法将LLMs与蒙特卡洛树搜索（MCTS）算法相结合，重点是提高LLMs在复杂数学推理任务（如数学奥林匹克竞赛中遇到的任务）中的表现。

MCTS是一种决策制定工具，广泛应用于需要战略规划的人工智能领域，如游戏和复杂问题解决环境。通过将MCTS的系统探索能力与LLMs的自细化和自评估能力相结合，作者旨在创建一个更强大的框架来解决当前LLMs难以解决的复杂推理任务。

MCTSr算法的操作流程遵循MCTS算法的一般模式。它包括以下几个关键阶段：

1.初始化：建立一个根节点，使用一个简单的模型生成的答案和一个占位响应（如“我不知道”）来最小化模型过拟合的趋势。
2.选择：使用价值函数Q对所有未完全扩展的答案进行排名，并选择具有最高值的节点进行进一步探索和细化。
3.自细化：所选的答案通过自细化框架进行优化，以生成改进后的答案。
4.自评估：细化后的答案进行评分，以生成奖励值并计算其Q值。这包括使用模型的自奖励能力进行评分。
5.反向传播：细化后的答案的价值传播回其父节点和其他相关节点，以更新树的价值信息。
6.UCT更新：更新所有节点的Q值后，使用UCT更新公式更新所有节点的UCT值，以进行下一次选择。

为了评估MCTSr算法在解决数学问题方面的有效性，作者使用了LLaMa3-8B作为基础模型，并进行了各种配置的实验，包括零次CoT、自细化、4次MCTSr和8次MCTSr。他们将这些配置与最新的闭源模型（如GPT-4、Claude 3和Gemini 1.5-Pro）进行了比较。

实验结果表明，MCTSr算法在解决数学问题方面取得了显著的成功率提升。特别是在GSM8K和GSM Hard等数据集上，MCTSr算法的成功率随着迭代次数的增加而显著提高。此外，在MATH和Olympiad-level等更具挑战性的数据集上，MCTSr算法也取得了令人印象深刻的结果。

尽管MCTSr算法在解决数学问题方面取得了令人鼓舞的结果，但仍然存在一些限制。首先，MCTSr算法可能不适用于所有类型的数学问题，特别是那些需要创造性思维或领域专业知识的问题。其次，MCTSr算法的计算成本较高，可能不适用于实时或资源受限的环境。

然而，MCTSr算法的成功表明，通过将LLMs与决策制定工具（如MCTS）相结合，可以实现更强大的推理能力。这为未来的研究提供了一个有希望的方向，即探索如何将这些技术应用于其他领域，如医疗诊断或金融预测。

论文地址：https://arxiv.org/pdf/2406.07394

大模型+蒙特卡洛树搜索，一招让LLaMa-3 8B奥数水平直逼GPT-4

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

大模型+蒙特卡洛树搜索，一招让LLaMa-3 8B奥数水平直逼GPT-4

热门文章

最新文章

相关课程

相关电子书

相关实验场景