DL之self-attention：self-attention自注意力机制的简介、应用之详细攻略-阿里云开发者社区

DL之self-attention：self-attention自注意力机制的简介、应用之详细攻略

2021-11-01 173

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： DL之self-attention：self-attention自注意力机制的简介、应用之详细攻略

self-attention的简介

一个self-attention模块接收n个输入，然后返回n个输出。这个模块中发生了什么呢？用外行人的话说，self-attention机制允许输入与输入之间彼此交互(“self”)，并找出它们应该更多关注的对象(“attention”)。输出是这些交互和注意力得分的总和。

1、self-attention的影响

BERT, RoBERTa, ALBERT, SpanBERT, DistilBERT, SesameBERT, SemBERT, MobileBERT, TinyBERT, CamemBERT……共同之处是BERT，但是最底层则是self-attention。

“BERT”的架构，更准确地说是基于Transformer的架构。基于Transformer的架构主要用于建模语言理解任务，避免了神经网络中的递归，而是完全依赖于self-attention机制来绘制输入和输出之间的全局依赖关系。

2、self-attention模块思路的8个步骤及其代码实现

DL之self-attention：self-attention模块思路的8个步骤及其代码实现

1、准备输入

2、初始化权重

每个输入必须有三个表示(见下图)。这些表示称为键(key，橙色)、查询(query，红色)和值(value，紫色)。在本例中，我们假设这些表示的维数是3。因为每个输入的维数都是4，这意味着每组权重必须是4×3。

注：在神经网络设置中，这些权重通常是很小的数字，使用适当的随机分布(例如高斯、Xavier和Kaiming分布)进行随机初始化。

3、推导key, query 和 value

注：在实践中，偏差向量(bias vector )可以添加到矩阵乘法的乘积。

4、计算输入1的注意力得分

为了获得注意力得分，我们首先在输入1的查询(红色)和所有键(橙色)之间取一个点积。因为有3个键表示(因为有3个输入)，我们得到3个注意力得分(蓝色)。

从查询1中计算注意力得分(蓝色)

5、计算softmax

在所有注意力得分中使用softmax(蓝色)。

6、将分数与值相乘

每个输入的softmaxed attention 分数(蓝色)乘以相应的值(紫色)。结果得到3个对齐向量(黄色)。在本教程中，我们将它们称为加权值。

由值(紫色)和分数(蓝色)的相乘推导出加权值表示(黄色)

7、将权重值相加，得到输出1

将所有加权值(黄色)按元素指向求和，结果向量[2.0,7.0,1.5](深绿色)是输出1，该输出基于输入1与所有其他键(包括它自己)进行交互的查询表示。

8、对输入2和输入3重复步骤4-7

已经完成了输出1，我们对输出2和输出3重复步骤4到7。

更新……