【Deep Learning 8】Self-Attention自注意力神经网络

本文涉及的产品
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
实时计算 Flink 版,5000CU*H 3个月
简介: 🍊本文主要介绍了Self-Attention产生的背景以及解析了具体的网络模型。

 image.gif编辑

🍊本文主要介绍了Self-Attention产生的背景以及解析了具体的网络模型

一、Introduction

       很多时候,我们需要输入的数据非常的复杂,难以用统一、固定长度的向量来表示。比如NLP中长短不一的句子。此外,我们需要输出的数据有时候也会复杂,比如一组向量中每一个向量有一个输出(词性标注),或者一组向量有一个输出,或者输出的数量让机器自己决定(即seq2seq任务,比如中英文翻译)

       在第一种情况的时候,我们可以使用Fully-connected,然后每一个向量会有一个输出,但是单独使用一个向量为基础其蕴含的信息太少了,于是可以加上一个Windows想法,一个向量的前后5个也作为输入。但是这样也有一个缺点,就是我们的句子长度是不一样的,难以用一个统一的windows来。而Self-Attention网络可以用在任何长度的句子上,非常的灵活

二、Model

2.1 Revelant  

Self-Attention第一步:计算每两个输入向量之间的Relevant,记为α

       常见的计算方法有Dot-productAdditive

       即将各向量分别乘以一个矩阵,得到两个新的向量。两个向量相乘就是Dot-Product方法,若直接相连接然后使用tanh函数就是Additive方法

image.gif编辑

注意自己也要和自己计算相关性,这样的做法可以提高模型的性能。这里的归一化可以使用Soft-max也可以使用ReLuimage.gif编辑

2.2 Sum up

Self-Attention第二步:新增一个向量v,与α相乘,将所有的数值进行累加        

       再乘以一个Wv矩阵得到v向量,然后让每一个v向量乘以它的α,将这些向量所有累加起来成为一个新的向量

image.gif编辑

image.gif编辑

2.3 Fully-Connection

Self-Attention第三步:与Fully-Connection结合起来使用

image.gif编辑

但是这样有一个缺点就是,没有考虑到每个单词在句子中的位置信息。

如果想要考虑的话,很简单,你为每一个位置设计一个位置权重向量ei,每个ei加到ai上面去

image.gif编辑

参考资料

《机器学习》周志华

《深度学习与机器学习》吴恩达

《神经网络与与深度学习》邱锡鹏

《深度学习与机器学习》李宏毅

目录
相关文章
|
8月前
|
机器学习/深度学习 存储 计算机视觉
【CVPR2020】ECA-Net:深度卷积神经网络的有效通道注意力
【CVPR2020】ECA-Net:深度卷积神经网络的有效通道注意力
1276 1
【CVPR2020】ECA-Net:深度卷积神经网络的有效通道注意力
|
3月前
|
机器学习/深度学习 数据可视化 测试技术
YOLO11实战:新颖的多尺度卷积注意力(MSCA)加在网络不同位置的涨点情况 | 创新点如何在自己数据集上高效涨点,解决不涨点掉点等问题
本文探讨了创新点在自定义数据集上表现不稳定的问题,分析了不同数据集和网络位置对创新效果的影响。通过在YOLO11的不同位置引入MSCAAttention模块,展示了三种不同的改进方案及其效果。实验结果显示,改进方案在mAP50指标上分别提升了至0.788、0.792和0.775。建议多尝试不同配置,找到最适合特定数据集的解决方案。
1009 0
|
6月前
|
机器学习/深度学习 计算机视觉
【YOLOv8改进 - 注意力机制】Gather-Excite : 提高网络捕获长距离特征交互的能力
【YOLOv8改进 - 注意力机制】Gather-Excite : 提高网络捕获长距离特征交互的能力
|
6月前
|
机器学习/深度学习 编解码 计算机视觉
【YOLOv8改进- Backbone主干】BoTNet:基于Transformer,结合自注意力机制和卷积神经网络的骨干网络
【YOLOv8改进- Backbone主干】BoTNet:基于Transformer,结合自注意力机制和卷积神经网络的骨干网络
|
7月前
|
机器学习/深度学习 数据采集 自然语言处理
【注意力机制重大误区】网络模型增加注意力机制后,性能就一定会得到提升?有哪些影响因素?
【注意力机制重大误区】网络模型增加注意力机制后,性能就一定会得到提升?有哪些影响因素?
|
8月前
|
机器学习/深度学习 数据可视化 计算机视觉
【YOLOv8改进】MCA:用于图像识别的深度卷积神经网络中的多维协作注意力 (论文笔记+引入代码)
YOLO目标检测专栏介绍了YOLO的创新改进和实战案例,包括多维协作注意力(MCA)机制,它通过三分支架构同时处理通道、高度和宽度注意力,提高CNN性能。MCA设计了自适应组合和门控机制,增强特征表示,且保持轻量化。该模块适用于各种CNN,实验证明其在图像识别任务上的优越性。此外,文章还展示了如何在YOLOv8中引入MCA层的代码实现和相关任务配置。
|
8月前
|
机器学习/深度学习 计算机视觉
【YOLOv8改进】 YOLOv8 更换骨干网络之GhostNetV2 长距离注意力机制增强廉价操作,构建更强端侧轻量型骨干 (论文笔记+引入代码)
该专栏聚焦YOLO目标检测的创新改进与实战,介绍了轻量级CNNs和注意力机制在移动设备上的应用。文章提出了一种名为GhostNetV2的新架构,结合了硬件友好的DFC注意力机制,强化了特征表达能力和全局信息捕获,同时保持低计算成本和高效推理。GhostNetV2在ImageNet上以167M FLOPs达到75.3%的top-1准确率,优于同类模型。创新点包括DFC注意力、模型结构优化和效率提升。源代码可在GitHub和MindSpore平台上找到。此外,还提到了YOLOv8的相关实现和任务配置。
|
8月前
|
机器学习/深度学习 编解码 异构计算
ELAN:用于图像超分辨率的高效远程注意力网络
ELAN:用于图像超分辨率的高效远程注意力网络
261 1
|
8月前
|
自然语言处理 算法
【论文精读】COLING 2022 - CLIO: 用于文档级事件抽取的角色交互多事件头注意力网络
【论文精读】COLING 2022 - CLIO: 用于文档级事件抽取的角色交互多事件头注意力网络
|
8月前
|
机器学习/深度学习 自然语言处理 算法
【论文精读】COLING 2022 -带有对偶关系图注意力网络的事件检测模型
【论文精读】COLING 2022 -带有对偶关系图注意力网络的事件检测模型