注意力机制详解（一）-阿里云开发者社区

注意力机制详解（一）

2024-06-22 388 发布于安徽

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 注意力机制是受人类认知过程启发的一种深度学习技术，它允许模型动态地聚焦于输入的不同部分，根据上下文分配“注意力”。这种机制最早在序列到序列模型中提出，解决了长距离依赖问题，增强了模型理解和处理复杂数据的能力。基本的注意力计算涉及查询（Q）、键（K）和值（V），通过不同方式（如点积、拼接等）计算相关性并应用softmax归一化，得到注意力权重，最后加权组合值向量得到输出。自注意力是注意力机制的一种形式，其中Q、K和V通常是相同的。在自然语言处理（NLP）中，注意力机制广泛应用在Transformer和预训练模型如BERT中，显著提升了模型的表现。

引言

在阅读一篇文章时，我们的大脑并不平等地处理每一个字词，而是根据上下文自动筛选出核心信息进行深入理解。注意力机制正是借鉴了这一生物学灵感，使得机器学习模型能够动态地分配其“注意力”资源，针对不同的输入部分赋予不同的重视程度，从而在纷繁复杂的数据中捕捉到最相关的特征。

从Transformer架构的横空出世，到BERT等预训练语言模型的惊艳表现，注意力机制已经成为推动自然语言处理乃至整个AI领域迅猛发展的核心驱动力之一。它不仅解决了长距离依赖问题，还使得模型能够更加灵活和高效地学习，即便是面对高度变异性或结构复杂的数据也能游刃有余。

注意力机制介绍

我们观察事物时，之所以能够快速判断一种事物(当然允许判断是错误的), 是因为我们大脑能够很快把注意力放在事物最具有辨识度的部分从而作出判断，而并非是从头到尾的观察一遍事物后，才能有判断结果. 正是基于这样的理论，就产生了注意力机制。

它需要三个指定的输入Q(query), K(key), V(value), 然后通过计算公式得到注意力的结果, 这个结果代表query在key和value作用下的注意力表示. 当输入的Q=K=V时, 称作自注意力计算规则。

常见的注意力计算规则

将Q，K进行纵轴拼接, 做一次线性变化, 再使用softmax处理获得结果最后与V做张量乘法.Attention(Q,K,V)=Softmax(Linear([Q,K]))⋅V

将Q，K进行纵轴拼接, 做一次线性变化后再使用tanh函数激活, 然后再进行内部求和, 最后使用softmax处理获得结果再与V做张量法.Attention(Q,K,V)=Softmax(sum(tanh(Linear([Q,K]))))⋅V

将Q与K的转置做点积运算, 然后除以一个缩放系数, 再使用softmax处理获得结果最后与V做张量乘法.Attention(Q,K,V)=Softmax(Q⋅KT / √dk)⋅V

说明：当注意力权重矩阵和V都是三维张量且第一维代表为batch条数时, 则做bmm运算.bmm是一种特殊的张量乘法运算

bmm运算演示：

# 如果参数1形状是(b × n × m), 参数2形状是(b × m × p), 则输出为(b × n × p)
>>> input = torch.randn(10, 3, 4)
>>> mat2 = torch.randn(10, 4, 5)
>>> res = torch.bmm(input, mat2)
>>> res.size()
torch.Size([10, 3, 5])

注意力机制是注意力计算规则能够应用的深度学习网络的载体, 同时包括一些必要的全连接层以及相关张量处理, 使其与应用网络融为一体. 使用自注意力计算规则的注意力机制称为自注意力机制，NLP领域中, 当前的注意力机制大多数应用于seq2seq架构, 即编码器和解码器模型。

注意力机制实现步骤

第一步: 根据注意力计算规则, 对Q，K，V进行相应的计算.
第二步: 根据第一步采用的计算方法, 如果是拼接方法，则需要将Q与第二步的计算结果再进行拼接, 如果是转置点积, 一般是自注意力, Q与V相同, 则不需要进行与Q的拼接.
第三步: 最后为了使整个attention机制按照指定尺寸输出, 使用线性层作用在第二步的结果上做一个线性变换, 得到最终对Q的注意力表示

import torch
import torch.nn as nn
import torch.nn.functional as F
 
class Attn(nn.Module):
    def __init__(self, query_size, key_size, value_size1, value_size2, output_size):
        """初始化函数中的参数有5个, query_size代表query的最后一维大小
           key_size代表key的最后一维大小, value_size1代表value的导数第二维大小, 
           value = (1, value_size1, value_size2)
           value_size2代表value的倒数第一维大小, output_size输出的最后一维大小"""
        super(Attn, self).__init__()
        # 将以下参数传入类中
        self.query_size = query_size
        self.key_size = key_size
        self.value_size1 = value_size1
        self.value_size2 = value_size2
        self.output_size = output_size
 
        # 初始化注意力机制实现第一步中需要的线性层.
        self.attn = nn.Linear(self.query_size + self.key_size, value_size1)
 
        # 初始化注意力机制实现第三步中需要的线性层.
        self.attn_combine = nn.Linear(self.query_size + value_size2, output_size)
 
 
    def forward(self, Q, K, V):
        """forward函数的输入参数有三个, 分别是Q, K, V, 根据模型训练常识, 输入给Attion机制的
           张量一般情况都是三维张量, 因此这里也假设Q, K, V都是三维张量"""
 
        # 第一步, 按照计算规则进行计算, 
        # 我们采用常见的第一种计算规则
        # 将Q，K进行纵轴拼接, 做一次线性变化, 最后使用softmax处理获得结果
        attn_weights = F.softmax(
            self.attn(torch.cat((Q[0], K[0]), 1)), dim=1)
 
        # 然后进行第一步的后半部分, 将得到的权重矩阵与V做矩阵乘法计算, 
        # 当二者都是三维张量且第一维代表为batch条数时, 则做bmm运算
        attn_applied = torch.bmm(attn_weights.unsqueeze(0), V)
 
        # 之后进行第二步, 通过取[0]是用来降维, 根据第一步采用的计算方法, 
        # 需要将Q与第一步的计算结果再进行拼接
        output = torch.cat((Q[0], attn_applied[0]), 1)
 
        # 最后是第三步, 使用线性层作用在第三步的结果上做一个线性变换并扩展维度，得到输出
        # 因为要保证输出也是三维张量, 因此使用unsqueeze(0)扩展维度
        output = self.attn_combine(output).unsqueeze(0)
        return output, attn_weights

调用输出打印：

query_size = 32
key_size = 32
value_size1 = 32
value_size2 = 64
output_size = 64
attn = Attn(query_size, key_size, value_size1, value_size2, output_size)
Q = torch.randn(1,1,32)
K = torch.randn(1,1,32)
V = torch.randn(1,32,64)
out = attn(Q, K ,V)
print(out[0])
print(out[1])
 
# 
 
tensor([[[ 0.5516, -0.3521, -0.3781,  0.3092,  0.1177, -0.0565,  0.1061,
          -0.4302, -0.6292,  0.0413,  0.0801,  0.2090,  0.2203, -0.1348,
           0.5017,  0.4179,  0.1984,  0.0271, -0.0231, -0.2771,  0.1479,
          -0.0940, -0.5132, -0.3395,  0.2101, -0.2790, -0.0369,  0.3575,
           0.3478, -0.2412,  0.0185,  0.3209, -0.0266, -0.1229,  0.1988,
           0.5011,  0.2373, -0.0945, -0.2623,  0.1937, -0.7264, -0.1000,
           0.0942, -0.7034,  0.0833,  0.0088, -0.1904,  0.5210,  0.8732,
          -0.1510,  0.2940, -0.3701,  0.4335,  0.3952, -0.1875,  0.0576,
          -0.0145,  0.2639,  0.4688,  0.0203,  0.2685,  0.2491, -0.5202,
          -0.3083]]], grad_fn=<UnsqueezeBackward0>)
tensor([[0.0215, 0.0283, 0.0376, 0.0398, 0.0245, 0.0393, 0.0443, 0.0188, 0.0355,
         0.0616, 0.0721, 0.0136, 0.1269, 0.0221, 0.0099, 0.0248, 0.0108, 0.0232,
         0.0203, 0.0316, 0.0235, 0.0168, 0.0599, 0.0156, 0.0204, 0.0257, 0.0128,
         0.0157, 0.0210, 0.0320, 0.0196, 0.0306]], grad_fn=<SoftmaxBackward0>)

注意力机制示意图

Attention机制的工作原理并不复杂，我们可以用下面这张图做一个总结

💥举个例子：

一张图片有树、时光塔、雪、人、路。

可能对于一开始我们会先注意到雪和时光塔，然后其次是树、人、路。

我们可以抽象的为其设置权重：90、80、50、50、20，这些权值就是k，这些元素就是Value。

然后给出一个词：生物，我们就会首先注意到人和树，其次是后三个元素，这时我们大脑已经把权重重新分配了，人和树的权重为：90、80。此时的'生物'就是q，即query。

Attention计算过程

阶段一: query 和 key 进行相似度计算，得到一个query 和 key 相关性的分值
阶段二: 将这个分值进行归一化(softmax)，得到一个注意力的分布
阶段三: 使用注意力分布和 value 进行计算，得到一个融合注意力的更好的 value 值

为了更好的说明上面的情况, 我们通过注意力来做一个机器翻译的任务，机器翻译中，我们会使用 seq2seq 的架构，每个时间步从词典里生成一个翻译的结果。

在没有注意力之前，我们每次都是根据 Encoder 部分的输出结果来进行生成，提出注意力后，就是想在生成翻译结果时并不是看 Encoder 中所有的输出结果，而是先来看看想生成的这部分和哪些单词可能关系会比较大，关系大的我多借鉴些；关系小的，少借鉴些。就是这样一个想法，我们看看该如何操作。

Attention计算逻辑

当然，Attention 并不是只有这一种计算方式，后来还有很多人找到了各种各样的计算注意力的方法, 比如我们上面介绍的三种计算规则, 但是从本质上，它们都遵循着这个三步走的逻辑:

query 和 key 进行相似度计算，得到一个query 和 key 相关性的分值
将这个分值进行归一化(softmax)，得到一个注意力的分布
使用注意力分布和 value 进行计算，得到一个融合注意力的更好的 value 值

注意力机制详解（二）+https://developer.aliyun.com/article/1544719?spm=a2c6h.13148508.setting.19.2a1e4f0e0WNgrf

注意力机制详解（一）

引言

注意力机制介绍

注意力机制实现步骤

注意力机制示意图

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

注意力机制详解（一）

引言

注意力机制介绍

注意力机制实现步骤

注意力机制示意图

热门文章

最新文章

相关电子书