大模型+蒙特卡洛树搜索,一招让LLaMa-3 8B奥数水平直逼GPT-4

简介: 【6月更文挑战第25天】 - 复旦大学和上海AI Lab的研究者提出这一算法,用于增强大型语言模型在复杂数学推理任务中的能力,解决现有模型推理准确性问题。- **MCTSr**流程包括初始化、选择、自细化、自评估、反向传播和UCT更新,通过多轮迭代提升答案质量。- 实验显示,该算法在**GSM8K**、**GSM Hard**、**MATH**和**Olympiad-level**数据集上表现出色,尤其在多次迭代后。- 尽管计算成本高且不适用于所有问题类型,但研究揭示了强化LLMs推理能力的新途径,对未来的AI应用具有指导意义。

近日,一篇名为《Accessing GPT-4 level Mathematical Olympiad Solutions via Monte Carlo Tree Self-refine with LLaMa-3 8B: A Technical Report》的技术报告在人工智能领域引起了广泛关注。该报告由复旦大学的Di Zhang、上海人工智能实验室的Xiaoshui Huang、Dongzhan Zhou、Yuqiang Li和Wanli Ouyang共同撰写。

这篇论文主要介绍了一种名为MCT Self-Refine(MCTSr)的算法,该算法通过将大型语言模型(LLMs)与蒙特卡洛树搜索(MCTS)相结合,旨在提高复杂数学推理任务的性能。特别是,MCTSr算法利用了系统探索和启发式自细化机制,以改善LLMs中的决策制定框架。

随着人工智能的快速发展,大型语言模型(LLMs)如GPT-4和LLaMa已经成为自然语言处理(NLP)领域的重要工具。这些模型具有数十亿参数的架构,展示了出色的语言理解和生成能力。然而,尽管取得了这些进展,LLMs在需要战略和逻辑推理的领域(如数学问题解决)中仍面临重大挑战。

其中一个主要问题是LLMs输出的准确性和可靠性。特别是在数学领域,精确度至关重要,LLMs的推理能力往往容易产生幻觉,即输出虽然表面上看似合理,但实际上与问题无关或事实不正确,从而对推理过程造成损害。

为了解决这些挑战,作者提出了MCT Self-Refine(MCTSr)算法,该算法将LLMs与蒙特卡洛树搜索(MCTS)算法相结合,重点是提高LLMs在复杂数学推理任务(如数学奥林匹克竞赛中遇到的任务)中的表现。

MCTS是一种决策制定工具,广泛应用于需要战略规划的人工智能领域,如游戏和复杂问题解决环境。通过将MCTS的系统探索能力与LLMs的自细化和自评估能力相结合,作者旨在创建一个更强大的框架来解决当前LLMs难以解决的复杂推理任务。

MCTSr算法的操作流程遵循MCTS算法的一般模式。它包括以下几个关键阶段:

1.初始化:建立一个根节点,使用一个简单的模型生成的答案和一个占位响应(如“我不知道”)来最小化模型过拟合的趋势。
2.选择:使用价值函数Q对所有未完全扩展的答案进行排名,并选择具有最高值的节点进行进一步探索和细化。
3.自细化:所选的答案通过自细化框架进行优化,以生成改进后的答案。
4.自评估:细化后的答案进行评分,以生成奖励值并计算其Q值。这包括使用模型的自奖励能力进行评分。
5.反向传播:细化后的答案的价值传播回其父节点和其他相关节点,以更新树的价值信息。
6.UCT更新:更新所有节点的Q值后,使用UCT更新公式更新所有节点的UCT值,以进行下一次选择。

为了评估MCTSr算法在解决数学问题方面的有效性,作者使用了LLaMa3-8B作为基础模型,并进行了各种配置的实验,包括零次CoT、自细化、4次MCTSr和8次MCTSr。他们将这些配置与最新的闭源模型(如GPT-4、Claude 3和Gemini 1.5-Pro)进行了比较。

实验结果表明,MCTSr算法在解决数学问题方面取得了显著的成功率提升。特别是在GSM8K和GSM Hard等数据集上,MCTSr算法的成功率随着迭代次数的增加而显著提高。此外,在MATH和Olympiad-level等更具挑战性的数据集上,MCTSr算法也取得了令人印象深刻的结果。

尽管MCTSr算法在解决数学问题方面取得了令人鼓舞的结果,但仍然存在一些限制。首先,MCTSr算法可能不适用于所有类型的数学问题,特别是那些需要创造性思维或领域专业知识的问题。其次,MCTSr算法的计算成本较高,可能不适用于实时或资源受限的环境。

然而,MCTSr算法的成功表明,通过将LLMs与决策制定工具(如MCTS)相结合,可以实现更强大的推理能力。这为未来的研究提供了一个有希望的方向,即探索如何将这些技术应用于其他领域,如医疗诊断或金融预测。

论文地址:https://arxiv.org/pdf/2406.07394

目录
相关文章
|
12月前
|
存储 人工智能 前端开发
前端大模型应用笔记(三):Vue3+Antdv+transformers+本地模型实现浏览器端侧增强搜索
本文介绍了一个纯前端实现的增强列表搜索应用,通过使用Transformer模型,实现了更智能的搜索功能,如使用“番茄”可以搜索到“西红柿”。项目基于Vue3和Ant Design Vue,使用了Xenova的bge-base-zh-v1.5模型。文章详细介绍了从环境搭建、数据准备到具体实现的全过程,并展示了实际效果和待改进点。
894 14
|
6月前
|
人工智能 搜索推荐 自然语言处理
大模型落地的关键:如何用 RAG 打造更智能的 AI 搜索——阿里云 AI 搜索开放平台
本文分享了大模型落地的关键:如何用阿里云 AI 搜索开放平台 打造更智能的 AI 搜索。
438 8
大模型落地的关键:如何用 RAG 打造更智能的 AI 搜索——阿里云 AI 搜索开放平台
|
6月前
|
存储 人工智能 搜索推荐
如何用大模型+RAG 给宠物做一个 AI 健康助手?——阿里云 AI 搜索开放平台
本文分享了如何利用阿里云 AI 搜索开放平台,基于 LLM+RAG 的系统框架,构建“宠物医院AI助手”的实践过程。
545 14
|
6月前
|
存储 人工智能 监控
通过阿里云Milvus与通义千问VL大模型,快速实现多模态搜索
阿里云向量检索服务Milvus版是一款全托管向量检索引擎,并确保与开源Milvus的完全兼容性,支持无缝迁移。它在开源版本的基础上增强了可扩展性,能提供大规模AI向量数据的相似性检索服务。凭借其开箱即用的特性、灵活的扩展能力和全链路监控告警,Milvus云服务成为多样化AI应用场景的理想选择,包括多模态搜索、检索增强生成(RAG)、搜索推荐、内容风险识别等。您还可以利用开源的Attu工具进行可视化操作,进一步促进应用的快速开发和部署。
|
3月前
|
JSON 算法 安全
1688图片搜索逆向工程与多模态搜索融合实践——基于CLIP模型的特征向
本文介绍了通过逆向工程分析实现图片搜索的技术方案,包括请求特征捕获、签名算法破解及多模态搜索的实现。利用CLIP模型提取图像特征,并结合Faiss优化相似度计算,提升搜索效率。最后提供完整调用示例,模拟实现非官方API的图片搜索功能。
|
8月前
|
Web App开发 人工智能
UC伯克利:给大模型测MBTI,Llama更敢说但GPT-4像理工男
UC伯克利研究团队推出VibeCheck系统,自动比较大型语言模型(LLM)的输出特征,如语调、格式和写作风格。该系统通过迭代挖掘特征并利用LLM法官量化其实用性,验证结果显示其能有效捕捉模型的独特“vibes”。VibeCheck应用于对话、摘要、数学和字幕生成等任务,揭示了不同模型的行为差异,并在预测模型身份和用户偏好方面表现出色。尽管存在主观性和测试范围有限的局限性,VibeCheck为改进LLM评估提供了新视角。论文地址:https://arxiv.org/abs/2410.12851
212 98
|
SQL 人工智能 关系型数据库
SQL玩转多模态AI,轻松搞定图片+文本混合搜索
本文介绍了一种通过原生SQL实现多模态智能检索的破局思路,基于PolarDB创新融合AI智能引擎,解决传统AI检索系统数据迁移冗余和工具链割裂的问题。方案优势包括低门槛AI集成、灵活适配多场景、全链路数据安全及按需付费免运维。文章详细描述了部署资源、应用配置及方案验证步骤,并提供清理资源指南以避免额外费用。适合希望快速构建智能搜索应用的开发者参考实践。
|
6月前
|
人工智能 自然语言处理 搜索推荐
阿里云 AI 搜索开放平台新功能发布:大模型联网能力上线
阿里云 AI 搜索开放平台此次新增了大模型联网能力,通过集成大语言模型(LLM)和联网搜索技术,为用户提供更智能、更全面的搜索体验。
1217 27
|
7月前
|
自然语言处理 搜索推荐 前端开发
大模型联网搜索的短板与突破之路
本文作者详细分析了当前大模型在联网搜索功能中存在的几个主要问题,并提供了具体的案例和解决方案。
1013 8
大模型联网搜索的短板与突破之路
|
7月前
|
人工智能 缓存 搜索推荐
大模型应用联网搜索:重塑智能时代的交互与决策
本文将从这一核心问题出发,解析大模型应用联网搜索的颠覆性价值,剖析其如何解决传统模型的局限。
529 21

热门文章

最新文章