深度学习：Self-Attention与Multi-heads Attention详解

2023-02-05 998

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 深度学习：Self-Attention与Multi-heads Attention详解

深度学习：Self-Attention与Multi-heads Attention详解

Introduction

Transformer 最初是由 Ashish Vaswani等人提出的一种用以完成机器翻译的 Seq2Seq 学习任务的全新网络结构，它完全基于注意力机制来实现从序列到序列的建模。相比于以往 NLP 模型中使用 RNN 或者编码-解码结构，其具有计算复杂度小、并行度高、容易学习长程依赖等优势。Transformer 网络结构如图：
在这里插入图片描述

Self - Attention

我们在刚接触的Transformer的时候，首先遇到的难题是Self-attention这个模块：

在这里插入图片描述

从左下角看起，假设一个序列数据有x1、x2, 每个x是一个高维向量。然后通过fx，把 x Embedding成低维向量a1，a2，让后对a1，a2分别通过全连接层（对应的权重矩阵w）得到对应的q（query），k（key），v（value）。

首先简单的解释一下q k v的含义：
这就要看一下self attention的整体架构如下图：

在这里插入图片描述

其中A为1个序列数据，a为序列数据的4个元素，每个a都是一个向量。a为input，b为output
，其中b1为a1考虑了整个序列数据的结果，也就是说a1会与a1，a2，a3，a4 计算一个attention score（也可以叫做相关性）。

那么如何计算这个attention score呢？
假设a1要与其它的元素（包括a1本身）计算相关性，那么q就是a1，k就是被计算相关性的元素。
计算方法有很多种，我们主要列举两种：
在这里插入图片描述

分为dot product 和与 additive ，前者就是计算出q k后，做点乘（对应元素相乘在相加），然后得到q对所有k的相关性，然后经过softmax处理得到attention score，在大部分情况下我们都采用这种方法，后者则是做加法然后经过tanh激活得到。

我们得到一组attention score就表示q 与各个k的相似性，分数越高，相关性越大，就会dominate 对应的输出结果b。之后把attention score与value相乘，然后把所有结果相加得到结果b。

举例来说把序列A：={a1,a2}输入self attention模块，得到 b1，b2，其中b1表示a1考虑了整体输入的结果，也就是说在计算资源足够的情况下，这个架构不会因为序列过长而遗忘起始元素。

我们在看一下论文中的公式
在这里插入图片描述
这里只差根号dk没有解释过了，dk表示序列的长度，它的作用是为了防止数值过大，维持数值稳定性。

Multi-Head Attention

多头注意力与单头其实很相似，假设head为2，结构如下图：
在这里插入图片描述

假设q1 为（1，1，0，1），那么把均分为head个，把它们分配给每个head，

（实际是不同的head的所对应的q权重矩阵不同在这里插入图片描述）

得到 q11，q 12，其中第一个下标代表序列元素的索引，第二个下标代表head。 k v重复刚才的操作，
然后把head数相同的放在一起计算：

在这里插入图片描述

然后对结果执行concat操作。

在这里插入图片描述

最后在乘上矩阵W_o融合不同维度特征，它的作用类似于1 * 1卷积。

Position- Encoding

方法为直接在input上 add 位置编码。

分为两种方法：

公式编码
1. 可训练的位置编码

深度学习：Self-Attention与Multi-heads Attention详解

Introduction

Self - Attention

Multi-Head Attention

Position- Encoding

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

深度学习：Self-Attention与Multi-heads Attention详解

Introduction

Self - Attention

Multi-Head Attention

Position- Encoding

热门文章

最新文章

相关课程

相关电子书