有效上下文提升20倍!DeepMind发布ReadAgent框架

简介: 【4月更文挑战第10天】DeepMind的ReadAgent框架解决了大型语言模型处理长文本的局限,模仿人类阅读策略,将长文分块并生成gist记忆。实验显示,ReadAgent在长篇文档理解任务上超越基线,有效上下文长度提升3至20倍。该方法无需特殊训练,但可能不适应所有类型长文本,且在极长文本中可能丢失细节,增加计算成本。

a405413191b28f30174cbb56b59acef7.jpg
在人工智能领域,大型语言模型(LLMs)的理解和处理能力一直是研究的热点。然而,这些模型在处理长文本时常常受限于其上下文长度的约束,导致它们无法充分理解和生成长篇幅的内容。为了突破这一限制,DeepMind的研究团队提出了一种名为ReadAgent的新型框架,旨在显著提升LLMs处理长文本的能力。

ReadAgent的设计灵感来源于人类阅读长篇文档的方式。与人类不同,LLMs在处理长文本时通常采用逐字阅读的方式,这种方式在面对大量信息时效率较低。相比之下,人类在阅读时会自然地将信息分块,形成所谓的“gist记忆”,即对内容的大致理解,而非具体细节。这种记忆方式使得人类能够在阅读长篇文档时保持高效的理解和推理能力。

ReadAgent框架的核心在于模拟人类的这种阅读策略。它通过三个主要步骤来实现这一目标:首先,它将长文本分割成多个“episode”,类似于人类在阅读时的自然停顿点;其次,它将每个episode压缩成一个简短的gist记忆;最后,当需要完成特定任务时,ReadAgent会根据已有的gist记忆来决定需要查看原始文本的哪些部分。

在实验中,ReadAgent在三个长篇文档阅读理解任务上的表现均超过了基线模型,有效上下文长度提升了3至20倍。这一成果不仅展示了LLMs在处理长文本方面的潜力,也为未来的研究和应用提供了新的方向。

从正面来看,ReadAgent的提出是LLMs发展史上的一大进步。它不仅提高了模型处理长文本的能力,还为如何让机器更好地模拟人类阅读和理解过程提供了有益的启示。此外,ReadAgent的简单性也是其优势之一,它不需要对LLMs进行特殊的训练或架构改变,仅通过简单的提示就能实现高效的长文本处理。

然而,ReadAgent也存在一些局限性。首先,尽管它能够处理更长的上下文,但这种方法并不适用于所有类型的长文本。此外,ReadAgent在处理极长文本时可能会遇到性能下降的问题,因为它依赖于gist记忆来压缩信息,这可能会导致一些重要细节的丢失。此外,ReadAgent的互动查找机制虽然能够提高任务完成的准确性,但也增加了计算成本,尤其是在需要多次查找时。

论文链接:https://arxiv.org/abs/2402.09727

目录
相关文章
|
6月前
|
机器学习/深度学习 自然语言处理 测试技术
直接扩展到无限长,谷歌Infini-Transformer终结上下文长度之争
【4月更文挑战第23天】谷歌研究团队推出Infini-Transformer,一种能处理无限长度输入的大型语言模型,解决了长序列数据处理中的内存和计算瓶颈。新模型采用Infini-attention机制,结合压缩记忆,实现高效计算和内存使用。实验显示,该模型在长上下文任务中表现出色,适用于处理极长输入序列,具有低内存占用和快速流式推理能力。论文链接:https://arxiv.org/pdf/2404.07143.pdf
81 1
|
4天前
|
人工智能 自然语言处理
米开朗基罗怎么说?谷歌DeepMind推出长上下文评估新框架
谷歌DeepMind团队提出了一种名为“米开朗基罗”(Michelangelo)的新型评估框架,通过潜在结构查询(LSQ)来全面评估大型语言模型(LLM)的长上下文理解能力。相比传统方法,米开朗基罗框架不仅评估模型的检索能力,还能更深入地验证其对上下文的理解和推理能力。
74 50
|
3月前
|
人工智能 自然语言处理 测试技术
权重、代码、数据集全开源,性能超越Mistral-7B,苹果小模型来了
【8月更文挑战第12天】DCLM是由多家机构联合推出的全新测试平台,旨在通过优化数据集增强语言模型性能。其核心贡献包括一个含240万亿token的标准化语料库及有效的预训练方案。DCLM-BASELINE数据集成功训练出7B参数模型,在MMLU上5-shot准确率达64%,超越Mistral-7B,且计算成本降低40%。尽管存在局限,但该项目已全开源,为社区提供宝贵资源,推动语言模型发展。[论文链接](https://arxiv.org/pdf/2406.11794)
165 60
|
3月前
|
数据采集 人工智能 自然语言处理
Llama 3.1发布:4050亿参数模型,迄今为止最强的开源大模型之一
Meta宣布发布Llama 3.1 405B,这一目前公开的最大且最先进的语言模型,标志着开源语言模型新时代的到来。Llama 3.1 405B不仅在常识理解、数学、工具使用及多语言翻译等功能上媲美顶尖AI模型,其8B和70B版本亦支持多种语言,拥有长达128K的上下文理解能力。该模型在150多个多语言基准测试中表现出色,并经过广泛的人工评估。为克服大规模训练挑战,Meta采用标准解码器架构和迭代后训练策略,大幅提升了数据质量和模型性能。此外,Llama 3.1通过监督微调、拒绝采样和直接偏好优化等手段提高了模型对指令的响应性和安全性。
79 2
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
革命新架构掀翻Transformer!无限上下文处理,2万亿token碾压Llama 2
【4月更文挑战第28天】清华大学研究团队提出了Megalodon,一种针对长序列数据优化的Transformer模型。为解决Transformer的计算复杂度和上下文限制,Megalodon采用了CEMA改进注意力机制,降低计算量和内存需求;引入时间步长归一化层增强稳定性;使用归一化注意力机制提升注意力分配;并借助预归一化与双跳残差配置加速模型收敛。在与Llama 2的对比实验中,Megalodon在70亿参数和2万亿训练token规模下展现出更优性能。论文链接:https://arxiv.org/abs/2404.08801
61 2
|
6月前
|
机器学习/深度学习 人工智能
大模型架构将迎来除 Transformer 之外的突破
大模型架构将迎来除 Transformer 之外的突破
117 2
大模型架构将迎来除 Transformer 之外的突破
|
人工智能 自然语言处理 数据安全/隐私保护
不到1000步微调,将LLaMA上下文扩展到32K,田渊栋团队最新研究
不到1000步微调,将LLaMA上下文扩展到32K,田渊栋团队最新研究
276 1
|
机器学习/深度学习 算法 异构计算
微软新出热乎论文:Transformer扩展到10亿token
微软新出热乎论文:Transformer扩展到10亿token
|
编解码 人工智能 计算机视觉
终结扩散模型:OpenAI开源新模型代码,一步成图,1秒18张
终结扩散模型:OpenAI开源新模型代码,一步成图,1秒18张
255 0
|
机器学习/深度学习 人工智能 自然语言处理
ICLR 2022 | 减少跨语言表示差异,字节跳动AI Lab通过流形混合增强跨语言迁移
ICLR 2022 | 减少跨语言表示差异,字节跳动AI Lab通过流形混合增强跨语言迁移
135 0