谷歌推出”自我发现“框架,极大增强GPT-4等大模型推理能力

简介: 【4月更文挑战第20天】谷歌DeepMind团队推出了SELF-DISCOVER框架,让大型语言模型能自我发现并构建推理结构,提升在复杂任务中的性能。该框架模仿人类解决问题方式,分两阶段选择和适应原子推理模块,以解决挑战。在多任务测试中,SELF-DISCOVER相比传统方法表现出色,性能提升42%,计算量减少10至40倍。它具有跨模型应用的普适性,并与人类思维方式相通。然而,它在某些任务类型上仍有优化空间,且需解决计算成本问题。论文链接:https://arxiv.org/abs/2402.03620

谷歌DeepMind团队近期推出了一项名为SELF-DISCOVER的创新框架,旨在通过自我发现的方式,显著提升大型语言模型(LLMs)如GPT-4和PaLM 2在复杂推理任务上的表现。这一突破性的进展,不仅在技术上实现了质的飞跃,也为人工智能领域带来了新的启示。

在人工智能的发展史上,大型语言模型一直以其出色的文本生成和指令执行能力而著称。然而,面对复杂的推理问题,传统的提示方法往往显得力不从心。SELF-DISCOVER框架的核心在于,它能够使语言模型自主地发现并构建出适合特定任务的推理结构,从而在解码过程中更加高效地解决问题。

该框架的设计理念是模仿人类解决问题的方式,通过内部设计一个推理程序来应对挑战。具体来说,SELF-DISCOVER分为两个阶段:第一阶段,模型从一组原子推理模块中选择并适应任务所需的模块,构建出一个明确的推理结构;第二阶段,模型在最终解码时遵循这个自发现的结构,逐步推导出答案。

在实际测试中,SELF-DISCOVER在多个具有挑战性的推理基准测试中表现出色,如BigBench-Hard、代理推理和数学问题等。与直接回答和链式思考(Chain of Thought)等传统方法相比,SELF-DISCOVER在21/25的任务中取得了高达42%的性能提升。此外,与需要大量推理计算的方法相比,如自洽链式思考(CoT-Self-Consistency),SELF-DISCOVER在性能上更胜一筹,同时所需的计算量却减少了10到40倍。

值得注意的是,SELF-DISCOVER的推理结构具有普适性,能够跨模型家族应用,如从PaLM 2-L迁移到GPT-4,再从GPT-4迁移到Llama2等,且与人类推理模式存在共通之处。这一点在人工智能的发展中尤为重要,因为它意味着模型能够更好地理解和适应人类的思维方式,从而在未来的人机协作中发挥更大的作用。

尽管SELF-DISCOVER取得了显著的成果,但在实际应用中也存在一些局限性。例如,该框架在处理需要世界知识的任务时表现最佳,而在算法类任务上的性能提升则相对有限。这表明,尽管模型能够自我发现和构建推理结构,但在某些特定类型的推理任务上,可能仍需要进一步的优化和调整。

此外,尽管SELF-DISCOVER在减少计算量方面取得了显著进步,但在处理大规模数据集时,模型的输入和输出长度可能会增加,这可能会对计算成本产生影响。因此,如何在保持高效性能的同时,进一步优化计算效率,将是未来研究的一个重要方向。

论文地址:https://arxiv.org/abs/2402.03620

目录
相关文章
|
24天前
|
机器学习/深度学习
智能体DS-Agent基于案例推理,让GPT-4数据科学任务接近100%
【4月更文挑战第20天】DS-Agent是结合案例推理(CBR)和大型语言模型的新研究,旨在提升自动化数据科学任务效率。通过自动迭代管道,它能理解任务、构建模型并优化性能。在开发阶段,成功率高达100%,部署阶段平均提高36%的一次通过率,降低成本,使开源LLMs也能高效处理数据科学任务。然而,LLMs的生成问题和资源限制仍是挑战。论文链接:https://arxiv.org/pdf/2402.17453.pdf
36 4
|
2月前
|
人工智能 搜索推荐 测试技术
模拟试错(STE)法让7B大模型测试超GPT-4
【2月更文挑战第24天】模拟试错(STE)法让7B大模型测试超GPT-4
43 1
模拟试错(STE)法让7B大模型测试超GPT-4
|
2月前
GPT-4 vs. ChatGPT:19个弱项问题(多步逻辑推理、概念间接关联)的横向对比
GPT-4在逻辑推理和概念关联上的准确率提升至100%,超越ChatGPT,其智力可能超过95%的人。在逻辑和多模态理解上有显著进步,但数数和某些逻辑推理仍是挑战。擅长处理成本计算和复杂情境,能建立概念间的间接关联,如遗忘与老龄化的联系。在数学和物理领域表现出色,但处理复杂间接关系和抽象概念时仍有局限。总体而言,GPT-4展现出超越人类智能的潜力,但仍需面对认知任务的挑战。![GPT-4进步示意](https://developer.aliyun.com/profile/oesouji3mdrog/highScore_1?spm=a2c6h.132)查看GPT-5教程,可访问我的个人主页介绍。
42 0
GPT-4 vs. ChatGPT:19个弱项问题(多步逻辑推理、概念间接关联)的横向对比
|
3天前
|
人工智能
8B文字多模态大模型指标逼近GPT4V,字节、华师、华科联合提出TextSquare
【5月更文挑战第10天】TextSquare,由字节跳动、华东师大和华中科技大学联合研发,是新型的文本中心视觉问答模型,借助Square-10M数据集在VQA任务上取得突破。在6个OCRBench等基准上超越现有最佳模型,如GPT4V和Gemini。模型利用视觉问答推理数据增强上下文理解,减少幻觉现象,平均准确率75.1%。但面对复杂问题和泛化能力仍有挑战。[论文链接](https://arxiv.org/abs/2404.12803)
14 4
|
16天前
|
机器学习/深度学习 数据采集 存储
百川智能发布超千亿大模型Baichuan 3,中文评测超越GPT-4
百川智能发布大语言模型Baichuan 3,参数超千亿,表现出色。在CMMLU、GAOKAO等中文任务评测中超越GPT-4,且在MATH、HumanEval等专项评测中证明其自然语言处理和代码生成实力。Baichuan 3在医疗领域,如MCMLE、MedExam等评测中成绩突出,成为中文医疗任务的最佳模型。此外,它通过“迭代式强化学习”提升语义理解和生成能力,诗词创作能力远超其他模型。Baichuan 3的推出标志着百川智能在大模型技术上的新里程碑。
22 0
|
18天前
|
机器学习/深度学习 传感器 人工智能
科技周报 | GPT商店上线即乱;大模型可被故意“教坏”?
科技周报 | GPT商店上线即乱;大模型可被故意“教坏”?
27 1
|
27天前
|
数据采集 编解码 人工智能
超越GPT-4V,苹果多模态大模型上新!
【4月更文挑战第17天】苹果公司推出Ferret-UI,一款专为移动UI理解的新型MLLM,优于GPT-4V。该模型针对移动UI特点优化,采用“任意分辨率”技术处理屏幕细节,通过广泛的基础UI任务和高级任务训练,提升理解和推理能力。在基准测试中,Ferret-UI表现突出,显示了苹果在多模态语言模型领域的领先地位。尽管面临灵活性和训练数据质量挑战,Ferret-UI为移动应用自动化和智能助手发展开辟新路径。
31 1
超越GPT-4V,苹果多模态大模型上新!
|
2月前
|
人工智能 自然语言处理 API
全球第一AI大模型易主,Claude 3超越GPT-4,它的推理能力有多强
全球第一AI大模型易主,Claude 3超越GPT-4,它的推理能力有多强
|
2月前
|
人工智能 自然语言处理 前端开发
王者Claude 3大模型!!!OpenAI竞争对手Anthropic推出Claude 3大模型,各项性能全面碾压GPT-4!
王者Claude 3大模型!!!OpenAI竞争对手Anthropic推出Claude 3大模型,各项性能全面碾压GPT-4!
34 0
|
2月前
|
人工智能 自然语言处理 搜索推荐
GPT-5,将在高级推理功能上实现重大进步
OpenAI的GPT-5预计带来巨大性能飞跃,实现高级推理的质变,推动AI在金融、医疗等领域广泛应用。奥特曼专注构建通用人工智能,忽略区块链等其他领域。GPT-5可能开启多模态AI新篇章,促进新商业模式发展,但也加剧数据需求、就业市场变化及伦理监管挑战。其在科学研究中的潜力,如加速核聚变研究,也备受期待。
39 1