专业智能体指导让小模型学会数学推理!微调Mistral-7B实现86.81%准确率

简介: 【5月更文挑战第13天】Orca-Math研究展示如何用小模型解决小学数学题,通过70亿参数的SLM在GSM8K基准测试上达到86.81%准确率。采用合成数据集和迭代学习技术,包括多智能体协作创建问题集及“偏好学习”优化解决方案。虽优于其他大、小模型,但可能不适用于复杂数学问题,且依赖高质量合成数据集的创建。[论文链接](https://arxiv.org/abs/2402.14830)

最近,一项名为Orca-Math的研究引起了广泛关注,该研究展示了如何使用小语言模型(SLM)解决小学数学问题。数学问题解决一直被认为是一项复杂的任务,对于SLM来说尤其具有挑战性。然而,Orca-Math通过使用一种创新的方法,成功地将一个只有70亿参数的SLM在GSM8K基准测试上的准确率提高到了86.81%,而不需要使用任何外部工具或进行多次模型调用。

Orca-Math的核心思想是使用一个高质量的合成数据集和一个迭代学习技术,使SLM能够通过练习解决问题、接收反馈并从解决方案的偏好对中学习。具体来说,Orca-Math使用了一种多智能体设置,其中智能体协作创建一个包含20万个数学问题的合成数据集。然后,使用监督微调技术对SLM进行训练,使其能够解决这些问题。

为了进一步提高SLM的准确率,Orca-Math采用了一种称为“偏好学习”的迭代学习技术。在该技术中,SLM被要求解决一系列问题,并接收关于其解决方案的反馈。然后,SLM使用这些反馈来学习解决方案的偏好对,并根据这些偏好对进行调整。通过这种方式,SLM能够逐渐提高其解决问题的能力,并最终达到很高的准确率。

Orca-Math的结果表明,即使使用相对较小的模型和数据集,也有可能实现高水平的数学问题解决能力。在GSM8K基准测试上,Orca-Math的准确率超过了其他更大的模型,如LLAMA-2-70B、WizardMath-70B和Gemini-Pro,以及更小的模型,如ChatGPT-3.5。此外,Orca-Math的训练数据集比其他模型使用的要小得多,只有几十万个问题,而其他模型则使用了数百万个问题。

然而,Orca-Math的方法也存在一些局限性。首先,尽管Orca-Math在GSM8K基准测试上取得了很高的准确率,但该方法可能不适用于更复杂的数学问题或更高级别的数学教育。其次,Orca-Math的合成数据集的质量对于模型的性能至关重要,因此创建高质量的合成数据集可能需要大量的时间和资源。

论文链接:https://arxiv.org/abs/2402.14830

目录
相关文章
|
2月前
|
前端开发 API 决策智能
多智能体微调实践:α-UMi 开源
近年来,为了加强大型语言模型(Large-Language Models, LLM)实时信息处理、解决专业问题的能力,催生了工具调用智能体(Tool Integrated Agent)概念
|
15天前
|
算法 机器人 Linux
Agent-Based概率模型让多无人机野外搜救更高效
【论文解读】Agent-Based概率模型、Receding Horizon规划策略、动态分区算法相结合,提升多无人机野外搜救效果
57 13
Agent-Based概率模型让多无人机野外搜救更高效
|
29天前
|
机器学习/深度学习 人工智能 算法
视频生成模型变身智能体:斯坦福Percy Liang等提出VideoAgent,竟能自我优化
斯坦福大学Percy Liang团队推出VideoAgent,一种能生成高质量视频并自我优化的模型。它结合强化学习和监督学习,根据用户反馈和环境变化自动调整,提升视频生成质量和用户体验,但同时也面临模型不稳定性和高资源需求等挑战。
33 6
|
29天前
|
自然语言处理 Python
使用Python和Qwen模型实现一个简单的智能问答Agent
使用Python和Qwen模型实现一个简单的智能问答Agent
99 4
|
2月前
|
人工智能 JSON 自然语言处理
开源模型+Orchestrating Agents多智能体框架,易用、强大且可控
本文采用开源Qwen2.5-14B-instruct-GGUF来体验多智能体编排和交接,希望在体验多智能体编排和交接框架的同时,一起评估中小参数规模的模型(14B)能否较好的完成多智能体任务。
|
3月前
|
人工智能 算法 自动驾驶
用AI自动设计智能体,数学提分25.9%,远超手工设计
【9月更文挑战第18天】《智能体自动设计(ADAS)》是由不列颠哥伦比亚大学等机构的研究者们发布的一篇关于自动化设计智能体系统的最新论文。研究中提出了一种创新算法——“Meta Agent Search”,此算法通过迭代生成并优化智能体设计,从而实现更高效的智能体系统构建。实验表明,相比人工设计的智能体,Meta Agent Search生成的智能体在多个领域均有显著的性能提升。然而,该方法也面临着实际应用中的有效性与鲁棒性等挑战。论文详细内容及实验结果可于以下链接查阅:https://arxiv.org/pdf/2408.08435。
99 12
|
3月前
|
人工智能 搜索推荐
开闭源模型大乱斗:看看哪个智能体最能窥见人类真实意图
【9月更文挑战第3天】在人工智能领域,理解并执行用户意图是一大挑战。现有模型常因用户模糊指令而难以捕捉真实需求。为此,研究人员提出了“Intention-in-Interaction”(IN3)基准,通过显式查询检验隐式意图,引入Mistral-Interact模型评估任务模糊性、询问并细化用户意图,最终执行任务。该方法显著提升了智能体的理解和执行能力,但依然面临评估主观性、用户信息提供不足及复杂任务处理等挑战。论文详情见:https://arxiv.org/abs/2402.09205
51 2
|
5月前
|
人工智能 API 决策智能
智胜未来:国内大模型+Agent应用案例精选,以及主流Agent框架开源项目推荐
【7月更文挑战第8天】智胜未来:国内大模型+Agent应用案例精选,以及主流Agent框架开源项目推荐
2412 9
智胜未来:国内大模型+Agent应用案例精选,以及主流Agent框架开源项目推荐
|
4月前
|
机器学习/深度学习 人工智能 PyTorch
AI智能体研发之路-模型篇(五):pytorch vs tensorflow框架DNN网络结构源码级对比
AI智能体研发之路-模型篇(五):pytorch vs tensorflow框架DNN网络结构源码级对比
84 1
|
4月前
|
人工智能 安全 搜索推荐
AI智能体研发之路-模型篇(三):中文大模型开、闭源之争
AI智能体研发之路-模型篇(三):中文大模型开、闭源之争
84 1