注意力机制可分为软和硬两类,空间域,通道域

简介: 注意力机制是当前深度学习领域比较流行的一个概念。其模仿人的视觉注意力模式,每次只关注与当前任务最相关的源域信息,使得信息的索取更为高效。

注意力机制中的软和硬



注意力机制是当前深度学习领域比较流行的一个概念。其模仿人的视觉注意力模式,每次只关注与当前任务最相关的源域信息,使得信息的索取更为高效。


注意力机制已在语言模型、图像标注等诸多领域取得了突破进展。


注意力机制可分为软和硬两类:



软性注意力(Soft Attention)机制是指在选择信息的时候,不是从N个信息中只选择1个,而是计算N个输入信息的加权平均,再输入到神经网络中计算。


相对的,硬性注意力(Hard Attention)就是指选择输入序列某一个位置上的信息,比如随机选择一个信息或者选择概率最高的信息。但一般还是用软性注意力机制来处理神经网络的问题。


注意,选取概率最高这一步骤通常是不可微的,因此,硬注意力更难训练。可以借助如强化学习的手段去学习。

分类: NLP


软注意力的注意力域



空间域(Spatial Domain)


image.png

spatial transformer其实就是注意力机制的实现,因为训练出的spatial transformer能够找出图片信息中需要被关注的区域,同时这个transformer又能够具有旋转、缩放变换的功能,这样图片局部的重要信息能够通过变换而被框盒提取出来。


通道域(Channel Domain)


通道域的注意力机制原理很简单,学过信号处理就会很容易理解,信号系统分析里面,任何一个信号其实都可以写成正弦波的线性组合,经过时频变换<注4>之后,时域上连续的正弦波信号就可以用一个频率信号数值代替了。


注4:一般是使用傅里叶变换,也是卷积变化


CNN,AlexNet、VGGNet、GoogleNet、ResNet



深度学习为何被称作深度学习? 就是因为网络层数深。早期(2012~2016年)最为经典的几个CNN,AlexNet、VGGNet、GoogleNet、ResNet,网络层数是在不断加深的

Batch normalization和残差结构的出现解决了以前深层网络容易出现梯度消失、难以训练的问题,使得网络的深度可以加到非常深。


理论上说,较深的CNN不会比较浅的CNN效果差(ResNet中提到),但是边际效应在此处是显然存在的,目前来说轻量化的神经网络的层数一般在几十层左右,而较大的神经网络也很少有超过200层的。


image.png


目录
相关文章
|
9月前
|
数据库
主题域、概念、逻辑、物理四种模型有什么区别与联系?
主题域、概念、逻辑、物理四种模型有什么区别与联系?
|
9月前
|
编解码 算法 数据可视化
【多重信号分类】超分辨率测向方法——依赖于将观测空间分解为噪声子空间和源/信号子空间的方法具有高分辨率(HR)并产生准确的估计(Matlab代码实现)
【多重信号分类】超分辨率测向方法——依赖于将观测空间分解为噪声子空间和源/信号子空间的方法具有高分辨率(HR)并产生准确的估计(Matlab代码实现)
|
8月前
|
安全
RxSwift特征序列Driver的使用,以及共享附加作用与非共享附加作用的区别?
RxSwift特征序列Driver的使用,以及共享附加作用与非共享附加作用的区别?
132 0
|
10月前
|
机器学习/深度学习 Serverless Python
​注意力机制中的掩码详解
注意力机制的掩码允许我们发送不同长度的批次数据一次性的发送到transformer中。在代码中是通过将所有序列填充到相同的长度,然后使用“attention_mask”张量来识别哪些令牌是填充的来做到这一点,本文将详细介绍这个掩码的原理和机制。
164 0
|
12月前
|
机器学习/深度学习 存储 算法
NeurIPS 2022 | 如何提高存储、传输效率?参数集约型掩码网络效果显著
NeurIPS 2022 | 如何提高存储、传输效率?参数集约型掩码网络效果显著
|
12月前
|
机器学习/深度学习 人工智能 网络架构
CVPR‘2023 | PIDNet: 基于注意力机制引导的实时语义分割网络架构,完美解决空间细节、上下文和边界信息
CVPR‘2023 | PIDNet: 基于注意力机制引导的实时语义分割网络架构,完美解决空间细节、上下文和边界信息
578 0
|
12月前
|
机器学习/深度学习 数据可视化
CVPR2023 | 无需动态区域分割!多帧深度估计新进展:跨线索注意力机制提升动态区域精度
CVPR2023 | 无需动态区域分割!多帧深度估计新进展:跨线索注意力机制提升动态区域精度
287 0
|
人工智能 算法 数据可视化
自注意力归因:解释Transformer内部的信息交互
自注意力归因:解释Transformer内部的信息交互
335 0
自注意力归因:解释Transformer内部的信息交互
|
安全 网络协议 大数据
安全,将会是未来路由器的主要特征之一
安全,将会是未来路由器的主要特征之一
153 0
安全,将会是未来路由器的主要特征之一
|
机器学习/深度学习 人工智能 知识图谱
ACL 2020 | CASREL: 不受重叠三元组影响的关系抽取方法
ACL 2020 | CASREL: 不受重叠三元组影响的关系抽取方法
453 0
ACL 2020 | CASREL: 不受重叠三元组影响的关系抽取方法