谷歌推出TransformerFAM架构,以更低的消耗处理长序列文本

简介: 【5月更文挑战第30天】谷歌推出TransformerFAM架构,模仿人脑工作记忆,通过反馈循环处理无限长序列文本,提高长上下文任务性能,尤其在大规模模型中展现优势。尽管训练资源需求大且短序列处理提升有限,实验显示其在叙事问答、长文本摘要等任务上超越传统Transformer。论文链接:https://arxiv.org/abs/2404.09173

在深度学习领域,谷歌公司近期提出了一种新型的Transformer架构——TransformerFAM,旨在解决传统Transformer在处理长序列文本时面临的挑战。这一创新成果,不仅展示了深度学习模型在处理长文本方面的潜力,同时也为未来人工智能的发展提供了新的思路。

TransformerFAM架构的核心在于引入了一种反馈循环机制,使得网络能够关注自身的潜在表示。这种设计促进了Transformer内部工作记忆的产生,使其能够处理无限长的序列。与传统的Transformer相比,TransformerFAM无需增加额外的权重,就能与预训练模型无缝集成。在实验中,TransformerFAM显著提高了模型在长上下文任务中的性能,无论是1B、8B还是24B的模型规模,均显示出其在长序列处理上的优势。

TransformerFAM的设计理念源于对人类大脑工作记忆的模仿。在人脑中,工作记忆为执行任务提供了临时存储信息的能力,而长期记忆则存储在神经元连接的权重中。尽管大型语言模型(LLMs)拥有巨大的长期记忆,能够存储整个互联网的信息,但它们在工作记忆方面的能力有限。TransformerFAM通过模拟前额叶皮质-丘脑回路的持续激活,为模型提供了持续的工作记忆能力。

在技术实现上,TransformerFAM通过在Transformer层内引入反馈连接来实现工作记忆。这种连接方式允许每个Transformer层拥有与其抽象级别相对应的分布式工作记忆。此外,TransformerFAM在推理过程中具有线性的计算复杂度和常数的内存复杂度,这意味着它可以在保持过去信息的同时,处理无限长的输入序列。

尽管TransformerFAM在理论上具有诸多优势,但在实际应用中,它仍然面临着一些挑战。首先,TransformerFAM需要大量的计算资源来进行训练,这对于许多研究和应用场景来说可能是不切实际的。其次,尽管TransformerFAM在长序列处理上表现出色,但其在处理短序列或中等长度序列时的性能提升可能并不显著。此外,TransformerFAM的反馈机制可能会增加模型训练的复杂性,需要进一步的研究来优化训练过程。

在实验验证方面,TransformerFAM在多个长上下文任务中的表现均优于传统的Transformer模型。这些任务包括叙事问答、长文本摘要等,涵盖了从几千到数百万的上下文长度。实验结果表明,TransformerFAM能够有效地压缩和保留长文本中的重要信息,这对于提高模型在实际应用中的性能具有重要意义。

然而,TransformerFAM的研究仍处于初级阶段,其在实际应用中的潜力还有待进一步挖掘。未来的研究可以探索如何将TransformerFAM与其他深度学习技术相结合,以提高其在不同任务和领域中的性能。同时,研究者们也需要关注TransformerFAM的可扩展性和泛化能力,确保其能够在各种复杂环境中稳定工作。

论文地址:https://arxiv.org/abs/2404.09173

目录
相关文章
|
机器学习/深度学习 供应链 安全
TSMixer:谷歌发布的用于时间序列预测的全新全mlp架构
这是谷歌在9月最近发布的一种新的架构 TSMixer: An all-MLP architecture for time series forecasting ,TSMixer是一种先进的多元模型,利用线性模型特征,在长期预测基准上表现良好。据我们所知,TSMixer是第一个在长期预测基准上表现与最先进的单变量模型一样好的多变量模型,在长期预测基准上,表明交叉变量信息不太有益。”
355 1
|
2天前
|
机器学习/深度学习 存储 自然语言处理
RWKV-7:极先进的大模型架构,长文本能力极强
RWKV-7 是极先进的最新大模型架构,超越 attention / linear attention 范式,拥有强大的 in-context-learning(上下文学习)能力,可真正持续学习,在保持 100% RNN 的同时,拥有极强的长文本能力。
RWKV-7:极先进的大模型架构,长文本能力极强
|
5月前
|
SQL 索引
业务系统架构实践问题之想要再SQL代码中生成递增序列,那么步骤问题如何解决
业务系统架构实践问题之想要再SQL代码中生成递增序列,那么步骤问题如何解决
|
6月前
|
机器学习/深度学习 语音技术
多模态大模型不够灵活,谷歌DeepMind创新架构Zipper:分开训练再压缩
【6月更文挑战第12天】谷歌DeepMind的Zipper架构解决了多模态大模型灵活性问题,通过分解为单模态模型并用“压缩”过程组合,实现多模态生成。该方法允许独立训练每个模态,提升灵活性和可扩展性,适用于数据有限或领域特定的模态。Zipper利用交叉注意力机制融合模态输出,适用于图像描述、语音识别等任务。尽管需要更多计算资源且性能受限于单模态模型质量,但已在ASR和TTS领域展现潜力。论文链接:https://arxiv.org/pdf/2405.18669
71 3
|
7月前
|
机器学习/深度学习 算法 大数据
[ICLR 2024] 基于Pathways架构的自适应多尺度时间序列预测模型Pathformer
阿里云计算平台大数据基础工程技术团队主导,与华东师范大学数据科学与工程学院合作的论文《Pathformer: Multi-Scale Transformers With Adaptive Pathways For Time Series Forecasting》被ICLR 2024接收,该论文提出了基于Pathways架构的自适应多尺度时间序列预测模型Pathformer,它从时间分辨率和时间距离角度进行多尺度时序建模,同时进一步提出自适应Pathways来动态调整多尺度建模过程,基于两者,Pathformer在阿里云数据集和公开数据集上取得SOTA预测效果,并展现出不错的泛化性和迁移性。
|
7月前
|
机器学习/深度学习
ICLR 2024:基于Pathways架构的自适应多尺度时间序列预测
【2月更文挑战第17天】ICLR 2024:基于Pathways架构的自适应多尺度时间序列预测
1228 1
ICLR 2024:基于Pathways架构的自适应多尺度时间序列预测
|
7月前
|
存储 XML vr&ar
软件体系结构 - 架构风格(12)超文本系统架构风格
【4月更文挑战第21天】软件体系结构 - 架构风格(12)超文本系统架构风格
207 0
|
机器学习/深度学习 人工智能 编解码
谷歌开始卷自己,AI架构Pathways加持,推出200亿生成模型(2)
谷歌开始卷自己,AI架构Pathways加持,推出200亿生成模型
409 0
|
机器学习/深度学习 人工智能
谷歌开始卷自己,AI架构Pathways加持,推出200亿生成模型(1)
谷歌开始卷自己,AI架构Pathways加持,推出200亿生成模型
|
人工智能 编解码 自然语言处理
7 Papers & Radios | 谷歌下一代AI架构Pathways论文放出;何恺明组只用ViT做主干进行目标检测(2)
7 Papers & Radios | 谷歌下一代AI架构Pathways论文放出;何恺明组只用ViT做主干进行目标检测
181 0