【Pytorch神经网络理论篇】 20 神经网络中的注意力机制

简介: 在pytorch-janet项目中,JANET类的实例化参数与torch.nn.LSTM类完全一致,可以直接替换。如果要将LSTM模型替换成JANET,那么需要如下3步实现。

同学你好!本文章于2021年末编写,获得广泛的好评!


故在2022年末对本系列进行填充与更新,欢迎大家订阅最新的专栏,获取基于Pytorch1.10版本的理论代码(2023版)实现


Pytorch深度学习·理论篇(2023版)目录地址为:


CSDN独家 | 全网首发 | Pytorch深度学习·理论篇(2023版)目录


本专栏将通过系统的深度学习实例,从可解释性的角度对深度学习的原理进行讲解与分析,通过将深度学习知识与Pytorch的高效结合,帮助各位新入门的读者理解深度学习各个模板之间的关系,这些均是在Pytorch上实现的,可以有效的结合当前各位研究生的研究方向,设计人工智能的各个领域,是经过一年时间打磨的精品专栏!

https://v9999.blog.csdn.net/article/details/127587345


欢迎大家订阅(2023版)理论篇

以下为2021版原文~~~~


dd1987e3b89f40e193a2f3a28891306c.png



   注意力机制可以使神经网络忽略不重要的特征向量,而重点计算有用的特征向量。在抛去无用特征对拟合结果于扰的同时,又提升了运算速度。


1 注意力机制


所谓Attention机制,便是聚焦于局部信息的机制,比如图像中的某一个图像区域。随着任务的变化,注意力区域往往会发生变化。


2019101911154610.png


面对上面这样的一张图,如果你只是从整体来看,只看到了很多人头,但是你拉近一个一个仔细看就了不得了,都是天才科学家。


图中除了人脸之外的信息其实都是无用的,也做不了什么任务,Attention机制便是要找到这些最有用的信息,可以想见最简单的场景就是从照片中检测人脸了。


1.1 注意力机制的实现


   神经网络中的注意力机制主要是通过注意力分数来实现的。注意力分数是一个0-1的值,注意力机制作用下的所有分数和为1。每个注意力分数代表当前项被分配的注意力权重。


   任意力分激常由神经网络的权重参数在模型的训练中学习得来,并最终使用Softmax函数进计算。这种机制可以作用在任何神经网络模型中。


   (1)注意力机制可以作用在RNN模型中的每个序列上,令RNN模型对序列中的单个样本给予不同的关注度, 这种方式常用在RNN层的输出结果之后。


fbc41a23599c4ad587d58301137ae45c.png


(2)注意力机制也可以作用在模型输出的特征向量上,这种针对特征向量进行注意力计算的方式适用范围更为广泛。该方式不但可以应用于循环神经网络,而且可以用于卷积神经网络,甚至图神经网络。


0b7f113a761d490b98e176ec71f9044c.png


1.2 注意力控制的两种形式


1.2.1 软模式


所有数据均被主注意,计算相应的权重值,不设置筛选条件。


1.2.2 硬模式


在生成注意力权重之后删除一部分不符合条件的注意力,使其注意力权值为0,即不再注意不符合条件的部分。


1.3 注意力机制模型的原理


   注意力机制模型是指完全使用注意力机制搭建起来的模型。注意力机制可以辅助其他神经网络,本身也具有拟合能力


1.3.1 数学模型的推导


5847e14c0fc845b38daf2b187de8bb28.png


1.3.2注意力机制模型的应用


   注意力机制模型非常适合序列到序列(Sq2Sg)的拟合任务。例如,在实现文字阅读理解任务中,可以把文章当成Q。阅读理解的问题和答案当成K和V(形成键值对)。下面以个翻译任务为例,详细介绍其拟合过程。


8202b81c8b124774afe239fdd8bce4c2.png


1.4 多头注意力机制


   注意力机制因2017年谷歌公司发表的一篇论文Attention is All You Need而受到广泛关注。多头注意力机制就是这篇论文中使用的主要技术之一。多头注意力机制是对原始注意力机制的改进。多头注意力机制可以表示为:Y=MultiHead(Q,K,V),Y代表多头注意力结果,其原理如图所示。


c26a6b1f4b0e494db33a5f168cc1a7b8.png


多头注意力机制的工作原理介绍如下。


1.把Q、K、V通过参数矩阵进行全连接层的映射转化。


2.对第(1)步中所转化的3个结果做点积运算。


3.将第(1)步和第(2)步重复运行h次,并且每次进行第(1)步操作时,都使用全新的参数矩阵(参数不共享)。


4.用concat()函数把计算h次之后的最终结果拼接起来。操作与多分支卷积技术非常相似,其理论可以解释为:每一次的注意力机制运算,都会使原数据中某个方面的特征发生注意力转化(得到部分注意力特征);当发生多次注意力机制运算之后,会得到更多方向的局部注意力特征;将所有的局部注意力特征合并起来,再通过神经网络将其转化为整体的特征,从达到拟合效果。


1.5 自注意力机制


自注意力机制,又称内部注意力机制,用于发现序列数据的内部特征。其具体做法是将Q、K、V都变成X,即计算Attention(X,X,X),这里的X代表待处理的输入数据。


   使用多头注意力机制训练出的自注意力特征可以用于Seq2Seq模型(输入和输出都是序列数据的模型)、分类模型等各种任务,并能够得到很好的效果,即Y=MultiHead(X,X,X),Y代表多头注意力结果。


2 扩展


2.1 使用梯度剪辑技巧优化训练过程


2.1.1 梯度抖动的原因


梯度剪辑是一种训练模型的技巧,用来改善模型训练过程中抖动较大的问题:在模型使用反向传播训练的过程中,可能会出现梯度值剧烈抖动的情况。而某些优化器的学习率是通过策略算法在训练过程中自学习产生的。当参数值在较为“平坦”的区域进行更新时,由于该区域梯度值比较小,学习率一般会变得较大,如果突然到达了“陡峭”的区域,梯度值陡增,再与较大的学习率相乘,参数就有很大幅度的更新,因此学习过程非常不稳定。


2.1.2 梯度剪辑的具体做法


将反向求导的梯度值控制在一定区间之内,将超过区间的梯度值按照区间边界进行截断,这样,在训练过程中,权重参数的更新幅度就不会过大,使得模型更容易收敛。


2.1.3 在PyTorch中,实现梯度剪辑的三种方式


1.简单方式直接使用cclip_grad_value_()函数即可实现简单的梯度剪辑。


torch.nn.utils.clip_grad_value_(parameters=network.parameters(),clip_value=1.0)


该代码可以将梯度按照[-1,1]区间进行剪辑。这种方法能设剪辑区间的上限和下限,且绝对值必须一致。如果想对区间的上限和下限设置不同的值,那么需要使用其他方法。


2.自定义方式可以使用钩子函数,为每一个参数单独指定剪辑区间。


for param in network.parameters():
    param.register_hook(lambda gradient:torch.clamp(gradient,-0.1,1.0))


该代码为实例化后的模型权重添加了钩子函数,并在钩子函数内部实现梯度剪辑的设置。


   这种方式最为灵活。在训练时,每当执行完反向传播(loss.backward)之后,所计算的梯度会触发钩子函数进行剪辑处理。


3.使用范数的方式


直接使用clip_grad_norm_()函数即可以范数的方式对梯度进行剪辑。


torch.nn.utils.clip_grad_norm_(network.parameters(),max_norm=1,norm_type=2)


函数clip_grad_norm_()会迭代模型中的所有参数,并将它们的梯度当成向量进行统的范数处理。第2个参数值1表示最大范数,第3个参数值2表示使用L2范数的计算方法。


2.2 使用JANET单元完成RNN


在GitHub网站中,搜索pytorch-janet关键词,在使用时,只需要将pytorch-janet项目中的源码复制到本地,并在代码中导入。


在pytorch-janet项目中,JANET类的实例化参数与torch.nn.LSTM类完全一致,可以直接替换。如果要将LSTM模型替换成JANET,那么需要如下3步实现。


(1)将pytorch-janet项目中的源码复制到本地。


(2)在代码文件LSTMModel.py的开始处添加如下代码,导入JANET类。


from pytorch_janet import JANET


(3)将代码文件LSTMModel.py中的torch.nn.LSTM替换成JANET。


2.3 使用indRNN单元实现RNN


在GitHub网站中,搜索indrnn-pytorch关键词,该项目中实现了两个版本的IndRNN单元。这两个版本的IndRNN接口分别为IndRNN、IndRNNv2类,可以直接替换torch.nn.LSTM类。

目录
相关文章
|
7月前
|
机器学习/深度学习 编解码 自动驾驶
RT-DETR改进策略【模型轻量化】| 替换骨干网络为MoblieNetV1,用于移动视觉应用的高效卷积神经网络
RT-DETR改进策略【模型轻量化】| 替换骨干网络为MoblieNetV1,用于移动视觉应用的高效卷积神经网络
227 3
RT-DETR改进策略【模型轻量化】| 替换骨干网络为MoblieNetV1,用于移动视觉应用的高效卷积神经网络
|
4月前
|
机器学习/深度学习 PyTorch 算法框架/工具
基于Pytorch 在昇腾上实现GCN图神经网络
本文详细讲解了如何在昇腾平台上使用PyTorch实现图神经网络(GCN)对Cora数据集进行分类训练。内容涵盖GCN背景、模型特点、网络架构剖析及实战分析。GCN通过聚合邻居节点信息实现“卷积”操作,适用于非欧氏结构数据。文章以两层GCN模型为例,结合Cora数据集(2708篇科学出版物,1433个特征,7种类别),展示了从数据加载到模型训练的完整流程。实验在NPU上运行,设置200个epoch,最终测试准确率达0.8040,内存占用约167M。
基于Pytorch 在昇腾上实现GCN图神经网络
|
4月前
|
机器学习/深度学习 算法 PyTorch
Perforated Backpropagation:神经网络优化的创新技术及PyTorch使用指南
深度学习近年来在多个领域取得了显著进展,但其核心组件——人工神经元和反向传播算法自提出以来鲜有根本性突破。穿孔反向传播(Perforated Backpropagation)技术通过引入“树突”机制,模仿生物神经元的计算能力,实现了对传统神经元的增强。该技术利用基于协方差的损失函数训练树突节点,使其能够识别神经元分类中的异常模式,从而提升整体网络性能。实验表明,该方法不仅可提高模型精度(如BERT模型准确率提升3%-17%),还能实现高效模型压缩(参数减少44%而无性能损失)。这一革新为深度学习的基础构建模块带来了新的可能性,尤其适用于边缘设备和大规模模型优化场景。
135 16
Perforated Backpropagation:神经网络优化的创新技术及PyTorch使用指南
|
4月前
|
机器学习/深度学习 搜索推荐 PyTorch
基于昇腾用PyTorch实现CTR模型DIN(Deep interest Netwok)网络
本文详细讲解了如何在昇腾平台上使用PyTorch训练推荐系统中的经典模型DIN(Deep Interest Network)。主要内容包括:DIN网络的创新点与架构剖析、Activation Unit和Attention模块的实现、Amazon-book数据集的介绍与预处理、模型训练过程定义及性能评估。通过实战演示,利用Amazon-book数据集训练DIN模型,最终评估其点击率预测性能。文中还提供了代码示例,帮助读者更好地理解每个步骤的实现细节。
|
4月前
|
机器学习/深度学习 自然语言处理 PyTorch
基于Pytorch Gemotric在昇腾上实现GAT图神经网络
本实验基于昇腾平台,使用PyTorch实现图神经网络GAT(Graph Attention Networks)在Pubmed数据集上的分类任务。内容涵盖GAT网络的创新点分析、图注意力机制原理、多头注意力机制详解以及模型代码实战。实验通过两层GAT网络对Pubmed数据集进行训练,验证模型性能,并展示NPU上的内存使用情况。最终,模型在测试集上达到约36.60%的准确率。
|
4月前
|
算法 PyTorch 算法框架/工具
PyTorch 实现FCN网络用于图像语义分割
本文详细讲解了在昇腾平台上使用PyTorch实现FCN(Fully Convolutional Networks)网络在VOC2012数据集上的训练过程。内容涵盖FCN的创新点分析、网络架构解析、代码实现以及端到端训练流程。重点包括全卷积结构替换全连接层、多尺度特征融合、跳跃连接和反卷积操作等技术细节。通过定义VOCSegDataset类处理数据集,构建FCN8s模型并完成训练与测试。实验结果展示了模型在图像分割任务中的应用效果,同时提供了内存使用优化的参考。
|
4月前
|
机器学习/深度学习 算法 PyTorch
基于Pytorch Gemotric在昇腾上实现GraphSage图神经网络
本实验基于PyTorch Geometric,在昇腾平台上实现GraphSAGE图神经网络,使用CiteSeer数据集进行分类训练。内容涵盖GraphSAGE的创新点、算法原理、网络架构及实战分析。GraphSAGE通过采样和聚合节点邻居特征,支持归纳式学习,适用于未见节点的表征生成。实验包括模型搭建、训练与验证,并在NPU上运行,最终测试准确率达0.665。
|
6月前
|
机器学习/深度学习 数据可视化 PyTorch
深入解析图神经网络注意力机制:数学原理与可视化实现
本文深入解析了图神经网络(GNNs)中自注意力机制的内部运作原理,通过可视化和数学推导揭示其工作机制。文章采用“位置-转移图”概念框架,并使用NumPy实现代码示例,逐步拆解自注意力层的计算过程。文中详细展示了从节点特征矩阵、邻接矩阵到生成注意力权重的具体步骤,并通过四个类(GAL1至GAL4)模拟了整个计算流程。最终,结合实际PyTorch Geometric库中的代码,对比分析了核心逻辑,为理解GNN自注意力机制提供了清晰的学习路径。
473 7
深入解析图神经网络注意力机制:数学原理与可视化实现
|
7月前
|
机器学习/深度学习 编解码 自动驾驶
YOLOv11改进策略【模型轻量化】| 替换骨干网络为MoblieNetV1,用于移动视觉应用的高效卷积神经网络
YOLOv11改进策略【模型轻量化】| 替换骨干网络为MoblieNetV1,用于移动视觉应用的高效卷积神经网络
261 16
YOLOv11改进策略【模型轻量化】| 替换骨干网络为MoblieNetV1,用于移动视觉应用的高效卷积神经网络
|
7月前
|
机器学习/深度学习 存储 大数据
RT-DETR改进策略【Backbone/主干网络】| ICLR-2023 替换骨干网络为:RevCol 一种新型神经网络设计范式
RT-DETR改进策略【Backbone/主干网络】| ICLR-2023 替换骨干网络为:RevCol 一种新型神经网络设计范式
179 11
RT-DETR改进策略【Backbone/主干网络】| ICLR-2023 替换骨干网络为:RevCol 一种新型神经网络设计范式

热门文章

最新文章

推荐镜像

更多