谷歌推出TransformerFAM架构，以更低的消耗处理长序列文本-阿里云开发者社区

谷歌推出TransformerFAM架构，以更低的消耗处理长序列文本

2024-05-31 258

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【5月更文挑战第30天】谷歌推出TransformerFAM架构，模仿人脑工作记忆，通过反馈循环处理无限长序列文本，提高长上下文任务性能，尤其在大规模模型中展现优势。尽管训练资源需求大且短序列处理提升有限，实验显示其在叙事问答、长文本摘要等任务上超越传统Transformer。论文链接：https://arxiv.org/abs/2404.09173

在深度学习领域，谷歌公司近期提出了一种新型的Transformer架构——TransformerFAM，旨在解决传统Transformer在处理长序列文本时面临的挑战。这一创新成果，不仅展示了深度学习模型在处理长文本方面的潜力，同时也为未来人工智能的发展提供了新的思路。

TransformerFAM架构的核心在于引入了一种反馈循环机制，使得网络能够关注自身的潜在表示。这种设计促进了Transformer内部工作记忆的产生，使其能够处理无限长的序列。与传统的Transformer相比，TransformerFAM无需增加额外的权重，就能与预训练模型无缝集成。在实验中，TransformerFAM显著提高了模型在长上下文任务中的性能，无论是1B、8B还是24B的模型规模，均显示出其在长序列处理上的优势。

TransformerFAM的设计理念源于对人类大脑工作记忆的模仿。在人脑中，工作记忆为执行任务提供了临时存储信息的能力，而长期记忆则存储在神经元连接的权重中。尽管大型语言模型（LLMs）拥有巨大的长期记忆，能够存储整个互联网的信息，但它们在工作记忆方面的能力有限。TransformerFAM通过模拟前额叶皮质-丘脑回路的持续激活，为模型提供了持续的工作记忆能力。

在技术实现上，TransformerFAM通过在Transformer层内引入反馈连接来实现工作记忆。这种连接方式允许每个Transformer层拥有与其抽象级别相对应的分布式工作记忆。此外，TransformerFAM在推理过程中具有线性的计算复杂度和常数的内存复杂度，这意味着它可以在保持过去信息的同时，处理无限长的输入序列。

尽管TransformerFAM在理论上具有诸多优势，但在实际应用中，它仍然面临着一些挑战。首先，TransformerFAM需要大量的计算资源来进行训练，这对于许多研究和应用场景来说可能是不切实际的。其次，尽管TransformerFAM在长序列处理上表现出色，但其在处理短序列或中等长度序列时的性能提升可能并不显著。此外，TransformerFAM的反馈机制可能会增加模型训练的复杂性，需要进一步的研究来优化训练过程。

在实验验证方面，TransformerFAM在多个长上下文任务中的表现均优于传统的Transformer模型。这些任务包括叙事问答、长文本摘要等，涵盖了从几千到数百万的上下文长度。实验结果表明，TransformerFAM能够有效地压缩和保留长文本中的重要信息，这对于提高模型在实际应用中的性能具有重要意义。

然而，TransformerFAM的研究仍处于初级阶段，其在实际应用中的潜力还有待进一步挖掘。未来的研究可以探索如何将TransformerFAM与其他深度学习技术相结合，以提高其在不同任务和领域中的性能。同时，研究者们也需要关注TransformerFAM的可扩展性和泛化能力，确保其能够在各种复杂环境中稳定工作。

论文地址：https://arxiv.org/abs/2404.09173

谷歌推出TransformerFAM架构，以更低的消耗处理长序列文本

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

直播

下载

镜像站

技术资料

谷歌推出TransformerFAM架构，以更低的消耗处理长序列文本

热门文章

最新文章

相关课程

相关电子书

相关实验场景