谷歌推出”自我发现“框架,极大增强GPT-4等大模型推理能力

简介: 【4月更文挑战第20天】谷歌DeepMind团队推出了SELF-DISCOVER框架,让大型语言模型能自我发现并构建推理结构,提升在复杂任务中的性能。该框架模仿人类解决问题方式,分两阶段选择和适应原子推理模块,以解决挑战。在多任务测试中,SELF-DISCOVER相比传统方法表现出色,性能提升42%,计算量减少10至40倍。它具有跨模型应用的普适性,并与人类思维方式相通。然而,它在某些任务类型上仍有优化空间,且需解决计算成本问题。论文链接:https://arxiv.org/abs/2402.03620

谷歌DeepMind团队近期推出了一项名为SELF-DISCOVER的创新框架,旨在通过自我发现的方式,显著提升大型语言模型(LLMs)如GPT-4和PaLM 2在复杂推理任务上的表现。这一突破性的进展,不仅在技术上实现了质的飞跃,也为人工智能领域带来了新的启示。

在人工智能的发展史上,大型语言模型一直以其出色的文本生成和指令执行能力而著称。然而,面对复杂的推理问题,传统的提示方法往往显得力不从心。SELF-DISCOVER框架的核心在于,它能够使语言模型自主地发现并构建出适合特定任务的推理结构,从而在解码过程中更加高效地解决问题。

该框架的设计理念是模仿人类解决问题的方式,通过内部设计一个推理程序来应对挑战。具体来说,SELF-DISCOVER分为两个阶段:第一阶段,模型从一组原子推理模块中选择并适应任务所需的模块,构建出一个明确的推理结构;第二阶段,模型在最终解码时遵循这个自发现的结构,逐步推导出答案。

在实际测试中,SELF-DISCOVER在多个具有挑战性的推理基准测试中表现出色,如BigBench-Hard、代理推理和数学问题等。与直接回答和链式思考(Chain of Thought)等传统方法相比,SELF-DISCOVER在21/25的任务中取得了高达42%的性能提升。此外,与需要大量推理计算的方法相比,如自洽链式思考(CoT-Self-Consistency),SELF-DISCOVER在性能上更胜一筹,同时所需的计算量却减少了10到40倍。

值得注意的是,SELF-DISCOVER的推理结构具有普适性,能够跨模型家族应用,如从PaLM 2-L迁移到GPT-4,再从GPT-4迁移到Llama2等,且与人类推理模式存在共通之处。这一点在人工智能的发展中尤为重要,因为它意味着模型能够更好地理解和适应人类的思维方式,从而在未来的人机协作中发挥更大的作用。

尽管SELF-DISCOVER取得了显著的成果,但在实际应用中也存在一些局限性。例如,该框架在处理需要世界知识的任务时表现最佳,而在算法类任务上的性能提升则相对有限。这表明,尽管模型能够自我发现和构建推理结构,但在某些特定类型的推理任务上,可能仍需要进一步的优化和调整。

此外,尽管SELF-DISCOVER在减少计算量方面取得了显著进步,但在处理大规模数据集时,模型的输入和输出长度可能会增加,这可能会对计算成本产生影响。因此,如何在保持高效性能的同时,进一步优化计算效率,将是未来研究的一个重要方向。

论文地址:https://arxiv.org/abs/2402.03620

目录
相关文章
|
2月前
|
人工智能 自然语言处理 测试技术
RAG微调Llama 3竟超越GPT-4!英伟达GaTech华人学者提出RankRAG框架
【7月更文挑战第21天】英伟达与GaTech华人团队提出RankRAG框架,通过在Llama 3模型上微调,实现检索和生成的统一,超越GPT-4在知识密集型任务的表现。RankRAG利用指令微调让模型同时学习上下文排名和生成,减少了对独立检索模型的依赖。在多基准测试中胜过GPT-4,展示出提升LLMs性能的新潜力。尽管面临数据需求大和计算成本高的挑战,RankRAG为RAG任务优化提供了新途径。[[1](https://arxiv.org/abs/2407.02485)]
52 3
|
17天前
|
存储 人工智能 异构计算
大模型下HPE GPT解决问题之确保服务高效可靠如何解决
大模型下HPE GPT解决问题之确保服务高效可靠如何解决
22 0
|
25天前
|
JSON C# 数据格式
gpt-3.5-turbo与星火认知大模型v3.5回答对比
gpt-3.5-turbo与星火认知大模型v3.5回答对比
25 0
|
17天前
|
人工智能 安全 测试技术
Google DeepMind推出大模型 Gemini (vs GPT4):规模最大、能力最强的人工智能模型
Google DeepMind推出大模型 Gemini (vs GPT4):规模最大、能力最强的人工智能模型
37 4
|
16天前
|
人工智能 测试技术
真相了!大模型解数学题和人类真不一样:死记硬背、知识欠缺明显,GPT-4o表现最佳
【8月更文挑战第15天】WE-MATH基准测试揭示大型多模态模型在解决视觉数学问题上的局限与潜力。研究涵盖6500题,分67概念5层次,评估指标包括知识与泛化不足等。GPT-4o表现最优,但仍存多步推理难题。研究提出知识概念增强策略以改善,为未来AI数学推理指明方向。论文见: https://arxiv.org/pdf/2407.01284
22 1
|
30天前
|
人工智能 API 异构计算
震惊AI界!DeepSeek挑战GPT-4o霸主地位,发布超低价开源大模型
震惊AI界!DeepSeek挑战GPT-4o霸主地位,发布超低价开源大模型
84 2
|
17天前
|
人工智能 供应链 新制造
大模型下HPE GPT解决问题之HPE对于大模型时代的变革如何解决
大模型下HPE GPT解决问题之HPE对于大模型时代的变革如何解决
23 0
|
17天前
|
机器学习/深度学习 人工智能 缓存
大模型下HPE GPT解决问题之区域数据隐私要求如何解决
大模型下HPE GPT解决问题之区域数据隐私要求如何解决
23 0
|
2月前
|
人工智能 数据挖掘 机器人
同样是人工智能 客户在哪儿AI和GPT等大模型有什么不同
客户在哪儿AI生产的是企业全历史行为数据,同时还针对ToB企业,提供基于企业全历史行为数据的数据分析服务。
|
2月前
|
人工智能 算法
国内AI大模型高考数学成绩超GPT-4o
【7月更文挑战第13天】国内AI大模型高考数学成绩超GPT-4o

热门文章

最新文章

下一篇
云函数