9_Transformer Model:Attention without RNN

简介: 9_Transformer Model:Attention without RNN

一、Transformer Model


Transformer由Attention和self-Attention层组成


Transformer 模型完全基于Attention


Attention原本是用在RNN上的,这节课把RNN去掉,只保留Attention


Original paper: Vaswani et al. Attention Is All You Need. In NIPS, 2017.


Transformer is a Seq2Seq model.(Transformer是一种Seq2Seq模型,它有一个encoder和一个decoder,很适合做机器翻译)


Transformer is not RNN.(Transformer不是循环神经网络,Transformer没有循环的结构)


Purely based attention and dense layers.(Transformer只有Attention和全连接层)


Higher accuracy than RNNs on large datasets. (Transformer有更高的准确度)


92a24f414e7f9be56deacaf1cd23bd7f.png


二、Attention for RNN


2.1 Attention for Seq2Seq Model


Seq2Seq模型:有一个encoder和一个decoder,encoder的输入是m个向量(X1 ,X2 ,···,Xm ),encoder把这些输入的信息压缩到状态向量h中,最后一个状态hm ,是对所有输入的概括。

decoder是一个文本生成器,依次生成状态S,然后根据状态S生成单词,把新生成的单词作为下一个输入。

如果用attention还需要计算向量C,每计算一个状态S,就计算一个向量C。


bc6389824d8c03c585196d58d8ef7423.png


三、Attention without RNN(去掉RNN,只保留Attention)


Question: How to remove RNN while keeping attention?(Attention原本是用在RNN上,怎么样才能剥离RNN,只保留Attention)


3.1 Attention Layer


设计Attention层用于Seq2Seq模型,我们移除了RNN,现在搭建Attention。


We study Seq2Seq model (encoder + decoder).

Encoder’s inputs are vectorsX1 ,X2 ,···,Xm 。(encoder的输入)

Decoder’s inputs are vectors X‘1 ,X’2 ,···,X‘t 。(decoder的输入)


72a2618b742f82bd9dbb62cdb100ad3d.png


3.1.1 Compute weights和Compute context vector


1b531ff77a7edc764acd00636900dc9d.png


3.1.2 Output of attention layer:


4931e6949ab65f0fc80c02ad9fd68674.png


3.2 Attention Layer for Machine Translation


Translate English to German.


Use C:2 to generate the 3rd German word.(产生第三个德语单词)

用RNN会把状态h作为特征向量,用Attention会把C作为特征向量。

不论用Attention或者RNN来搭建一个Seq2Seq 模型,输入与输出的大小一样,因此可以用Attention Layer代替RNN。

Attention Layer的好处是不会遗忘。


d230e38f798a60ea856da67cf27416fa.png


四、Self-Attention without RNN


4.1 Self-Attention Layer


Self-Attention层不是Seq2Seq,它只有一个输入序列 ,这就像普通的RNN一样。、

Ci 依赖于所有的m个Xi 向量。

改变任何一个X,Ci都会发生变化。


a8c3c4f30e09eefdd8103a7d870fdfef.png


4.1.1 Compute weights和Compute context vector


1a6e2d85654d705e3f851bd18be69a60.png

4.1.2 Output of self-attention layer


c4c60e0119ef1298231e0c8789181295.png


五、Summary(总结)


Attention was originally developed for Seq2Seq RNN models [1].

Self-attention: attention for all the RNN models (not necessarily Seq2Seq models [2].

Attention can be used without RNN [3].

We learned how to build attention layer and self-attention layer.


Reference:


Bahdanau, Cho, & Bengio. Neural machine translation by jointly learning to align and translate. In ICLR, 2015.

Cheng, Dong, & Lapata. Long Short-Term Memory-Networks for Machine Reading. In EMNLP, 2016.

Vaswani et al. Attention Is All You Need. In NIPS, 2017.


5.1 Attention Layer


5973a7dd7a3986632c3ae94a5aaa59ff.png


5.2 Self-Attention Layer


ae69c653abeefbe6445983e91a7bfdc3.png

目录
相关文章
|
8月前
|
机器学习/深度学习 自然语言处理 异构计算
Python深度学习面试:CNN、RNN与Transformer详解
【4月更文挑战第16天】本文介绍了深度学习面试中关于CNN、RNN和Transformer的常见问题和易错点,并提供了Python代码示例。理解这三种模型的基本组成、工作原理及其在图像识别、文本处理等任务中的应用是评估技术实力的关键。注意点包括:模型结构的混淆、过拟合的防治、输入序列长度处理、并行化训练以及模型解释性。掌握这些知识和技巧,将有助于在面试中展现优秀的深度学习能力。
257 11
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
RNN回归!Bengio新作大道至简与Transformer一较高下
研究团队提出了一种名为“minimal LSTMs and GRUs”的新型RNN模型,通过简化传统LSTM和GRU结构,去除了隐藏状态对输入、遗忘和更新门的依赖,实现了无需BPTT的高效并行训练。该模型不仅保持了RNN处理序列数据的优势,还大幅提升了训练速度,在多个任务上的表现与Transformer相当,同时减少了参数量。研究结果发表于论文《minimal LSTMs and GRUs》。
44 9
|
4月前
|
机器学习/深度学习 存储 算法
Transformer、RNN和SSM的相似性探究:揭示看似不相关的LLM架构之间的联系
通过探索大语言模型(LLM)架构之间的潜在联系,我们可能开辟新途径,促进不同模型间的知识交流并提高整体效率。尽管Transformer仍是主流,但Mamba等线性循环神经网络(RNN)和状态空间模型(SSM)展现出巨大潜力。近期研究揭示了Transformer、RNN、SSM和矩阵混合器之间的深层联系,为跨架构的思想迁移提供了可能。本文深入探讨了这些架构间的相似性和差异,包括Transformer与RNN的关系、状态空间模型在自注意力机制中的隐含作用以及Mamba在特定条件下的重写方式。
180 7
Transformer、RNN和SSM的相似性探究:揭示看似不相关的LLM架构之间的联系
|
6月前
|
机器学习/深度学习 自然语言处理
彻底改变语言模型:全新架构TTT超越Transformer,ML模型代替RNN隐藏状态
【7月更文挑战第25天】近年来,NLP领域取得显著进展但也面临挑战,如长上下文建模与计算效率的平衡。为此,研究人员提出Test-Time Training (TTT) 模型架构。TTT由多机构合作开发,旨在解决长上下文建模难题及提高计算效率。通过将隐藏状态视为可学习更新的模型,TTT能随输入增长提升表示能力;采用自监督学习更新规则确保线性计算复杂度的同时保持高性能。实验显示TTT在多种NLP任务中表现优秀,尤其在长上下文处理方面超越Transformer。尽管如此,TTT仍面临训练资源需求高及自监督学习鲁棒性等挑战。[论文](https://arxiv.org/abs/2407.04620)
139 5
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
算法金 | 秒懂 AI - 深度学习五大模型:RNN、CNN、Transformer、BERT、GPT 简介
**RNN**,1986年提出,用于序列数据,如语言模型和语音识别,但原始模型有梯度消失问题。**LSTM**和**GRU**通过门控解决了此问题。 **CNN**,1989年引入,擅长图像处理,卷积层和池化层提取特征,经典应用包括图像分类和物体检测,如LeNet-5。 **Transformer**,2017年由Google推出,自注意力机制实现并行计算,优化了NLP效率,如机器翻译。 **BERT**,2018年Google的双向预训练模型,通过掩码语言模型改进上下文理解,适用于问答和文本分类。
176 9
|
8月前
|
机器学习/深度学习 自然语言处理 测试技术
SUPRA:无须额外训练,将Transformer变为高效RNN,推理速度倍增
`Transformers`模型因其在多种任务上的优秀性能而广泛采用,但其内存需求和推理成本随词元数量指数增长。为解决这一问题,论文《Linearizing Large Language Models》提出`SUPRA`方法,将预训练的`Transformers`转换为递归神经网络(RNN),实现有效推理并降低训练成本至原来的5%。`SUPRA`通过将注意力机制线性化并用`GroupNorm`替代`softmax`,保持预训练模型的优势。经过微调,转换后的模型在标准语言理解和长上下文任务中保持高性能,展示了在长序列处理方面的潜力,但仍有改进空间。
159 2
|
8月前
|
机器学习/深度学习
RNN 和 Transformer 复杂度比较
RNN 和 Transformer 复杂度比较
174 0
|
7月前
|
机器学习/深度学习 算法 存储
Bengio等人新作:注意力可被视为RNN,新模型媲美Transformer,但超级省内存
【6月更文挑战第3天】Bengio等人提出的新模型Aaren视注意力为特殊RNN,以解决Transformer在资源受限环境中的计算成本高和内存使用问题。Aaren模型通过并行前缀和算法实现高效计算和常数级内存使用,性能接近Transformer,同时在时间序列任务中表现优秀,尤其适合移动设备和嵌入式系统。尽管可能在某些复杂任务上不如Transformer,但其高效性为实时数据处理提供了潜力。论文链接:[https://arxiv.org/pdf/2405.13956](https://arxiv.org/pdf/2405.13956)
114 2
|
8月前
|
机器学习/深度学习 人工智能 自然语言处理
一文介绍CNN/RNN/GAN/Transformer等架构 !!
一文介绍CNN/RNN/GAN/Transformer等架构 !!
282 5
|
8月前
|
机器学习/深度学习 资源调度 数据可视化
Mamba详细介绍和RNN、Transformer的架构可视化对比
Transformer体系结构已经成为大型语言模型(llm)成功的主要组成部分。为了进一步改进llm,人们正在研发可能优于Transformer体系结构的新体系结构。其中一种方法是Mamba(一种状态空间模型)。
734 2

热门文章

最新文章