谷歌推出”自我发现“框架,极大增强GPT-4等大模型推理能力

简介: 【4月更文挑战第20天】谷歌DeepMind团队推出了SELF-DISCOVER框架,让大型语言模型能自我发现并构建推理结构,提升在复杂任务中的性能。该框架模仿人类解决问题方式,分两阶段选择和适应原子推理模块,以解决挑战。在多任务测试中,SELF-DISCOVER相比传统方法表现出色,性能提升42%,计算量减少10至40倍。它具有跨模型应用的普适性,并与人类思维方式相通。然而,它在某些任务类型上仍有优化空间,且需解决计算成本问题。论文链接:https://arxiv.org/abs/2402.03620

谷歌DeepMind团队近期推出了一项名为SELF-DISCOVER的创新框架,旨在通过自我发现的方式,显著提升大型语言模型(LLMs)如GPT-4和PaLM 2在复杂推理任务上的表现。这一突破性的进展,不仅在技术上实现了质的飞跃,也为人工智能领域带来了新的启示。

在人工智能的发展史上,大型语言模型一直以其出色的文本生成和指令执行能力而著称。然而,面对复杂的推理问题,传统的提示方法往往显得力不从心。SELF-DISCOVER框架的核心在于,它能够使语言模型自主地发现并构建出适合特定任务的推理结构,从而在解码过程中更加高效地解决问题。

该框架的设计理念是模仿人类解决问题的方式,通过内部设计一个推理程序来应对挑战。具体来说,SELF-DISCOVER分为两个阶段:第一阶段,模型从一组原子推理模块中选择并适应任务所需的模块,构建出一个明确的推理结构;第二阶段,模型在最终解码时遵循这个自发现的结构,逐步推导出答案。

在实际测试中,SELF-DISCOVER在多个具有挑战性的推理基准测试中表现出色,如BigBench-Hard、代理推理和数学问题等。与直接回答和链式思考(Chain of Thought)等传统方法相比,SELF-DISCOVER在21/25的任务中取得了高达42%的性能提升。此外,与需要大量推理计算的方法相比,如自洽链式思考(CoT-Self-Consistency),SELF-DISCOVER在性能上更胜一筹,同时所需的计算量却减少了10到40倍。

值得注意的是,SELF-DISCOVER的推理结构具有普适性,能够跨模型家族应用,如从PaLM 2-L迁移到GPT-4,再从GPT-4迁移到Llama2等,且与人类推理模式存在共通之处。这一点在人工智能的发展中尤为重要,因为它意味着模型能够更好地理解和适应人类的思维方式,从而在未来的人机协作中发挥更大的作用。

尽管SELF-DISCOVER取得了显著的成果,但在实际应用中也存在一些局限性。例如,该框架在处理需要世界知识的任务时表现最佳,而在算法类任务上的性能提升则相对有限。这表明,尽管模型能够自我发现和构建推理结构,但在某些特定类型的推理任务上,可能仍需要进一步的优化和调整。

此外,尽管SELF-DISCOVER在减少计算量方面取得了显著进步,但在处理大规模数据集时,模型的输入和输出长度可能会增加,这可能会对计算成本产生影响。因此,如何在保持高效性能的同时,进一步优化计算效率,将是未来研究的一个重要方向。

论文地址:https://arxiv.org/abs/2402.03620

目录
相关文章
|
2月前
|
SQL 数据采集 自然语言处理
NL2SQL之DB-GPT-Hub<详解篇>:text2sql任务的微调框架和基准对比
NL2SQL之DB-GPT-Hub<详解篇>:text2sql任务的微调框架和基准对比
|
2月前
|
机器学习/深度学习 弹性计算 人工智能
大模型进阶微调篇(三):微调GPT2大模型实战
本文详细介绍了如何在普通个人电脑上微调GPT2大模型,包括环境配置、代码实现和技术要点。通过合理设置训练参数和优化代码,即使在无独显的设备上也能完成微调,耗时约14小时。文章还涵盖了GPT-2的简介、数据集处理、自定义进度条回调等内容,适合初学者参考。
243 6
|
2月前
|
机器学习/深度学习 测试技术
ACL杰出论文奖:GPT-4V暴露致命缺陷?JHU等发布首个多模态ToM 测试集,全面提升大模型心智能力
【10月更文挑战第6天】约翰斯·霍普金斯大学等机构提出了一项荣获ACL杰出论文奖的研究,旨在解决大模型在心智理论(ToM)上的不足。他们发布了首个MMToM-QA多模态ToM测试集,并提出BIP-ALM方法,从多模态数据中提取统一表示,结合语言模型进行贝叶斯逆规划,显著提升了模型的ToM能力。这一成果为机器与人类自然交互提供了新思路,尽管仍面临一些局限性和技术挑战。论文详情见:https://arxiv.org/abs/2401.08743。
48 6
|
3月前
|
数据采集 自然语言处理 监控
大模型微调使GPT3成为了可以聊天发布指令的ChatGPT
正是通过微调大模型使得GPT3成为了可以聊天发布指令的ChatGPT。聊天大模型在通用大模型的基础上加一层微调就实现人人能用的大模型,使得通用大模型的能力被更多人使用和了解。
58 4
大模型微调使GPT3成为了可以聊天发布指令的ChatGPT
|
2月前
|
开发工具 git
LLM-03 大模型 15分钟 FineTuning 微调 GPT2 模型 finetuning GPT微调实战 仅需6GB显存 单卡微调 数据 10MB数据集微调
LLM-03 大模型 15分钟 FineTuning 微调 GPT2 模型 finetuning GPT微调实战 仅需6GB显存 单卡微调 数据 10MB数据集微调
62 0
|
3月前
|
编解码 定位技术 计算机视觉
多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准
【9月更文挑战第2天】浙江大学领衔的研究团队针对多模态大型模型(MLLM)在抽象图像理解和视觉推理上的不足,提出了一种利用GPT-4合成数据构建多模态基准的方法。该研究通过合成数据提高了MLLM处理图表、文档等复杂图像的能力,并构建了一个包含11,193条指令的基准,涵盖8种视觉场景。实验表明,这种方法能显著提升模型性能,但依赖闭源模型和高计算成本是其局限。论文详细内容见:https://arxiv.org/pdf/2407.07053
81 10
|
3月前
|
机器学习/深度学习 数据采集 人工智能
Llama 8B搜索100次超越GPT-4o!推理+搜索即可提升性能,新Scaling Law诞生?
【9月更文挑战第8天】在人工智能领域,理查德·萨顿提出了一项重要观点,即利用通用计算方法最终是最有效的途径,这一理念在诸如计算机象棋、围棋、语音识别及视觉等多个子领域中得到了验证。萨顿强调,计算能力的指数增长使得依赖大量计算的技术更加吸引人,并且从长远来看,计算能力将是唯一重要的因素。尽管他的观点强调了搜索和学习方法的力量,但也有人批评其忽略了领域知识和其他因素的重要性。
40 2
|
3月前
|
机器学习/深度学习 数据可视化 UED
黑匣子被打开了!能玩的Transformer可视化解释工具,本地运行GPT-2、还可实时推理
【9月更文挑战第4天】Transformer Explainer是一款基于网页的交互式可视化工具,专为帮助用户理解复杂的Transformer模型而设计。通过多层次抽象、实时推理及互动实验,以及无需安装即可使用的便捷性,此工具选取GPT-2作为教学模型,降低了学习门槛并提升了教育普及度。用户可以通过输入自定义文本观察预测过程,深入了解内部组件的工作原理。此外,它还减少了认知负荷,增强了互动学习体验。未来,该工具将在复杂性管理和性能优化方面继续改进,并通过用户研究进一步提升功能和可用性。[论文地址:https://arxiv.org/pdf/2408.04619]
59 1
|
4月前
|
人工智能 测试技术
真相了!大模型解数学题和人类真不一样:死记硬背、知识欠缺明显,GPT-4o表现最佳
【8月更文挑战第15天】WE-MATH基准测试揭示大型多模态模型在解决视觉数学问题上的局限与潜力。研究涵盖6500题,分67概念5层次,评估指标包括知识与泛化不足等。GPT-4o表现最优,但仍存多步推理难题。研究提出知识概念增强策略以改善,为未来AI数学推理指明方向。论文见: https://arxiv.org/pdf/2407.01284
52 1
|
4月前
|
人工智能 供应链 新制造
大模型下HPE GPT解决问题之HPE对于大模型时代的变革如何解决
大模型下HPE GPT解决问题之HPE对于大模型时代的变革如何解决
41 0

热门文章

最新文章