Token化一切,甚至网络!北大&谷歌&马普所提出TokenFormer,Transformer从来没有这么灵活过!

简介: Transformer模型在人工智能领域表现出色,但扩展其规模时面临计算成本和训练难度急剧增加的问题。北京大学、谷歌和马普所的研究人员提出了TokenFormer架构,通过将模型参数视为Token,利用Token-Parameter注意力(Pattention)层取代线性投影层,实现了灵活且高效的模型扩展。实验表明,TokenFormer在保持性能的同时大幅降低了训练成本,在语言和视觉任务上表现优异。论文链接:https://arxiv.org/pdf/2410.23168。

在人工智能领域,Transformer模型因其卓越的性能而成为各种基础模型的主导架构。然而,随着模型规模的不断扩大,其计算成本和训练难度也急剧增加。为了解决这一问题,来自北京大学、谷歌和马普所的研究人员提出了一种名为TokenFormer的新型架构,它通过将模型参数也视为Token,实现了Transformer的灵活扩展。

Transformer模型在处理各种任务时表现出色,但当需要扩展模型规模时,问题就出现了。传统上,扩展Transformer模型规模需要改变其核心架构组件,如通道维度,这通常意味着需要从头开始重新训练整个模型。随着模型规模的增长,这种策略变得越来越不可持续,因为计算成本和训练时间都会急剧增加。

TokenFormer的创新之处在于它利用了注意力机制,不仅用于输入Token之间的计算,还用于Token与模型参数之间的交互。通过将模型参数也视为Token,TokenFormer用一种称为Token-Parameter注意力(Pattention)的新型层取代了Transformer中的所有线性投影层。

在TokenFormer中,输入Token作为查询,模型参数作为键和值。这种重新表述允许模型参数以一种渐进且高效的方式进行扩展,而无需从头开始重新训练。通过不断添加新的键值参数对,TokenFormer能够从124M参数扩展到1.4B参数,同时保持与从头开始训练的Transformer相当的性能,但训练成本大大降低。

TokenFormer的架构设计基于注意力机制,包括一个全新的Token-Parameter注意力(Pattention)层。该层使用一组可学习的Token来表示模型参数,并允许输入Token对它们进行注意力计算。当模型规模扩大时,TokenFormer通过添加新的可学习Token来扩展现有的键值参数集,同时保持特征维度不变,从而最小化对其他计算的影响。

TokenFormer的架构设计还考虑了训练的稳定性和效率。例如,它使用一种修改后的softmax操作来计算Pattention分数,以确保梯度的稳定性。此外,它还使用非参数化的层归一化来确保模型参数的可扩展性。

为了评估TokenFormer的性能,研究人员进行了广泛的实验,包括语言模型和视觉模型的训练和评估。在语言模型方面,TokenFormer在各种零样本下游任务上表现出与标准Transformer相当的性能,同时训练成本大大降低。在视觉模型方面,TokenFormer在ImageNet-1K图像分类任务上也表现出与标准Vision Transformer相当的性能。

此外,研究人员还比较了TokenFormer与其他模型扩展方法的性能,如Net2Net。实验结果表明,TokenFormer在模型扩展方面具有更好的性能和效率,特别是在处理长文本序列时。

TokenFormer的提出为Transformer模型的扩展提供了一种创新的解决方案。通过将模型参数也视为Token,并利用注意力机制进行计算,TokenFormer实现了Transformer的灵活扩展,同时大大降低了训练成本。实验结果表明,TokenFormer在各种任务上表现出与标准Transformer相当的性能,同时具有更好的扩展性和效率。

然而,TokenFormer也存在一些挑战和限制。例如,它的设计和实现相对复杂,可能需要更多的计算资源和时间来训练和优化。此外,TokenFormer的扩展性主要体现在参数维度上,而对其他维度的扩展可能需要进一步的研究和探索。

论文链接:https://arxiv.org/pdf/2410.23168

目录
相关文章
|
9月前
|
机器学习/深度学习 人工智能 自然语言处理
Transformer:Attention机制、前馈神经网络、编码器与解码器
Transformer:Attention机制、前馈神经网络、编码器与解码器
315 1
|
10天前
|
机器学习/深度学习 编解码 计算机视觉
RT-DETR改进策略【Backbone/主干网络】| 替换骨干网络为:Swin Transformer,提高多尺度特征提取能力
RT-DETR改进策略【Backbone/主干网络】| 替换骨干网络为:Swin Transformer,提高多尺度特征提取能力
42 12
RT-DETR改进策略【Backbone/主干网络】| 替换骨干网络为:Swin Transformer,提高多尺度特征提取能力
|
10天前
|
机器学习/深度学习 编解码 移动开发
RT-DETR改进策略【Conv和Transformer】| TPAMI-2024 Conv2Former 利用卷积调制操作和大核卷积简化自注意力机制,提高网络性能
RT-DETR改进策略【Conv和Transformer】| TPAMI-2024 Conv2Former 利用卷积调制操作和大核卷积简化自注意力机制,提高网络性能
29 5
RT-DETR改进策略【Conv和Transformer】| TPAMI-2024 Conv2Former 利用卷积调制操作和大核卷积简化自注意力机制,提高网络性能
|
14天前
|
机器学习/深度学习 编解码 移动开发
YOLOv11改进策略【Conv和Transformer】| TPAMI-2024 Conv2Former 利用卷积调制操作和大核卷积简化自注意力机制,提高网络性能
YOLOv11改进策略【Conv和Transformer】| TPAMI-2024 Conv2Former 利用卷积调制操作和大核卷积简化自注意力机制,提高网络性能
23 7
YOLOv11改进策略【Conv和Transformer】| TPAMI-2024 Conv2Former 利用卷积调制操作和大核卷积简化自注意力机制,提高网络性能
|
2月前
|
机器学习/深度学习 网络架构
揭示Transformer重要缺陷!北大提出傅里叶分析神经网络FAN,填补周期性特征建模缺陷
近年来,神经网络在MLP和Transformer等模型上取得显著进展,但在处理周期性特征时存在缺陷。北京大学提出傅里叶分析网络(FAN),基于傅里叶分析建模周期性现象。FAN具有更少的参数、更好的周期性建模能力和广泛的应用范围,在符号公式表示、时间序列预测和语言建模等任务中表现出色。实验表明,FAN能更好地理解周期性特征,超越现有模型。论文链接:https://arxiv.org/pdf/2410.02675.pdf
129 68
|
14天前
|
机器学习/深度学习 编解码 计算机视觉
YOLOv11改进策略【Backbone/主干网络】| 替换骨干网络为:Swin Transformer,提高多尺度特征提取能力
YOLOv11改进策略【Backbone/主干网络】| 替换骨干网络为:Swin Transformer,提高多尺度特征提取能力
27 0
YOLOv11改进策略【Backbone/主干网络】| 替换骨干网络为:Swin Transformer,提高多尺度特征提取能力
|
2月前
|
机器学习/深度学习 人工智能 算法
深入解析图神经网络:Graph Transformer的算法基础与工程实践
Graph Transformer是一种结合了Transformer自注意力机制与图神经网络(GNNs)特点的神经网络模型,专为处理图结构数据而设计。它通过改进的数据表示方法、自注意力机制、拉普拉斯位置编码、消息传递与聚合机制等核心技术,实现了对图中节点间关系信息的高效处理及长程依赖关系的捕捉,显著提升了图相关任务的性能。本文详细解析了Graph Transformer的技术原理、实现细节及应用场景,并通过图书推荐系统的实例,展示了其在实际问题解决中的强大能力。
283 30
|
6月前
|
机器学习/深度学习 自然语言处理 并行计算
【深度学习+面经】Transformer 网络学习笔记
Transformer模型的核心概念、优缺点以及在多个领域的应用,并提供了针对Transformer架构的面试问题及答案。
267 2
|
8月前
|
机器学习/深度学习 人工智能 自然语言处理
Transformer 能代替图神经网络吗?
Transformer模型的革新性在于其自注意力机制,广泛应用于多种任务,包括非原始设计领域。近期研究专注于Transformer的推理能力,特别是在图神经网络(GNN)上下文中。
210 5
|
7月前
|
机器学习/深度学习 编解码 计算机视觉
【YOLOv8改进- Backbone主干】BoTNet:基于Transformer,结合自注意力机制和卷积神经网络的骨干网络
【YOLOv8改进- Backbone主干】BoTNet:基于Transformer,结合自注意力机制和卷积神经网络的骨干网络

热门文章

最新文章