再谈注意力机制 | 运用强化学习实现目标特征提取

简介: 再谈注意力机制 | 运用强化学习实现目标特征提取

02ef639f7af265f45273359b4e6c7e0f.png

研究目标


研究如何减少图像相关任务的计算量, 提出通过使用attention based RNN 模型建立序列模型(recurrent attention model, RAM), 每次基于上下文和任务来适应性的选择输入的的image patch, 而不是整张图片, 从而使得计算量独立于图片大小, 从而缓解CNN模型中计算量与输入图片的像素数成正比的缺点. 该文通过强化学习的方式来学习任务明确的策略, 从而解决模型是不可微的问题.

RAM 模型在几个图像分类任务上,在处理杂乱图像(cluttered images)时, 它明显优于基于CNN的模型,并且在动态视觉控制问题上,无需明确的训练信号, 它就能学习跟踪一个简单的对象。

Introduction


该文将注意力问题视为与视觉环境交互时以目标为导向的序列决策过程。

人类感知的一个重要特性是人们不会倾向于一次完整地处理整个场景。相反,人们将注意力有选择地集中在视觉空间的某些部分,以便在需要的时间和地点获取信息,并随着时间的推移组合来自不同固定位置(fixation)的信息,以建立场景的内部表示,指导下一步眼睛看下哪里以及决策。将计算资源聚焦在场景的各部分上节省了“带宽”,因为需要处理的“像素”更少。但它也大大降低了任务复杂性,因为感兴趣的对象可以置于固定位置(fixation)的中心,并且固定区域外的视觉环境(“混乱”)的不相关特征自然被忽略。

模型架构


attention注意力机制网络架构如下图所示:

a99d5e0a6095f219a29d7ee1b65462c3.png

该模型架构主要由Glimpse NetworkLocation NetworkCoreNetwork三部分网络组成。其中Glimpse Network主要由由Glimpse Sensor组成。

如上图所示,agent围绕一个递归神经网络构建。在每个时间步骤中,它处理传感器数据,随着时间的推移集成信息,并在下一次时间步骤中选择如何操作和如何部署传感器。过程主要是通过强化学习实现的,下面介绍主要部件:

  • Sensor:在每个步骤t中,agent接受到一个输入图像Xt的环境,agent没有完全访问这个图像,而是通过信息带宽有限的传感器ρ提取信息。如通过传感器在某些地区或感兴趣的频段。
  • Internal state:agent保持一种内部状态,该状态汇总从过去的观察历史中提取的信息,它对代理的环境进行编码,并有助于决定如何操作和在何处部署传感器。该内部状态由递归神经网络的隐藏单元ht组成,通过下面要介绍的它对代理的环境知识进行编码,并有助于决定如何操作和在何处部署传感器CoreNetwork进行更新。网络的外部输入是Glimpse sensor输出向量gt

image.png

训练


image.png

loss采用混合监督损失。

Experiments


我们评估了我们的方法在几个图像分类任务以及一个简单的游戏。我们首先描述了我们所有实验中常见的设计选择:

image.png

mnist手写字母图像识别结果


ab989a352af1d405d17ba08796697d2c.png

来自MNIST测试集的输入图像,其中Glimpse路径以绿色(正确分类)或红色(错误分类)覆盖。

第2-7栏:网络选择的6个亮点。每个图像的中心显示全分辨率的一瞥,外部低分辨率区域是通过将低分辨率的一瞥放大到全图像的尺寸来获得的。瞥见路径清楚地表明,学习策略避免了在输入空间的空或噪声部分进行计算,并直接探索了感兴趣对象周围的区域。

结论


介绍了一种新颖的视觉注意力模型。制定作为一个以一睹窗口为递归神经网络输入和使用网络的内部状态来选择下一个位置关注以及生成控制信号在动态环境中。虽然模型是不可微的,但是所提出的统一架构是使用策略梯度方法从像素输入到操作端到端进行训练的。这个模型有几个吸引人的特性。首先,参数的数量和RAM执行的计算量都可以独立于输入图像的大小进行控制。其次,该模型能够忽略图像中存在的杂波,将视网膜集中在相关区域。

我们的实验表明,在一个混乱的对象分类任务中,RAM的性能显著优于具有相同数量参数的卷积架构。此外,我们的方法的灵活性允许许多有趣的扩展。例如,可以使用另一个操作来扩展网络,该操作允许网络在任何时间点终止并做出最终的分类决策。我们的初步实验表明,一旦有了足够的信息来进行可靠的分类,网络就可以学会停止Glimpse。该网络还可以控制视网膜采样图像的尺度,使其能够在固定大小的视网膜中适应不同大小的对象。在这两种情况下,可以使用前面描述的策略梯度过程将额外的操作简单地添加到操作网络fa中并对其进行训练。鉴于RAM取得的令人鼓舞的结果,将该模型应用于大规模对象识别和视频分类是未来工作的一个自然方向。

开源代码


https://github.com/kevinzakka/recurrent-visual-attention

目录
打赏
0
0
0
0
6
分享
相关文章
基于结构化状态空间对偶性的贝叶斯注意力机制设计与实现
本文介绍了一种贝叶斯风格的注意力机制,用于处理长序列文本预测。传统注意力机制在处理长文本时计算复杂度高,而贝叶斯方法通过引入不确定性建模和领域知识,特别适用于小数据集或需要融入领域知识的场景。
57 3
基于结构化状态空间对偶性的贝叶斯注意力机制设计与实现
《长文本处理新曙光:深入剖析多头隐式注意力机制显存优化奥秘》
Transformer架构在自然语言处理等领域带来革命性变革,但其多头注意力机制(MHA)在处理长文本时显存占用呈几何级数增长,限制了应用。为此,多头隐式注意力机制(MLA)应运而生。MLA通过低秩联合压缩键值矩阵,将高维矩阵映射到低维潜在空间,显著减少显存占用,同时保持语义完整性。这使得长文本处理任务如文档翻译、知识库问答等在资源有限的硬件环境下也能高效运行。MLA结合分布式推理技术,进一步提升系统性能,未来有望在医疗、金融等领域发挥重要作用。
CNN中的注意力机制综合指南:从理论到Pytorch代码实现
注意力机制已成为深度学习模型的关键组件,尤其在卷积神经网络(CNN)中发挥了重要作用。通过使模型关注输入数据中最相关的部分,注意力机制显著提升了CNN在图像分类、目标检测和语义分割等任务中的表现。本文将详细介绍CNN中的注意力机制,包括其基本概念、不同类型(如通道注意力、空间注意力和混合注意力)以及实际实现方法。此外,还将探讨注意力机制在多个计算机视觉任务中的应用效果及其面临的挑战。无论是图像分类还是医学图像分析,注意力机制都能显著提升模型性能,并在不断发展的深度学习领域中扮演重要角色。
252 10
Transformer、RNN和SSM的相似性探究:揭示看似不相关的LLM架构之间的联系
通过探索大语言模型(LLM)架构之间的潜在联系,我们可能开辟新途径,促进不同模型间的知识交流并提高整体效率。尽管Transformer仍是主流,但Mamba等线性循环神经网络(RNN)和状态空间模型(SSM)展现出巨大潜力。近期研究揭示了Transformer、RNN、SSM和矩阵混合器之间的深层联系,为跨架构的思想迁移提供了可能。本文深入探讨了这些架构间的相似性和差异,包括Transformer与RNN的关系、状态空间模型在自注意力机制中的隐含作用以及Mamba在特定条件下的重写方式。
284 7
Transformer、RNN和SSM的相似性探究:揭示看似不相关的LLM架构之间的联系
ICML 2024:揭示非线形Transformer在上下文学习中学习和泛化的机制
【7月更文挑战第10天】Rensselaer Polytechnic Institute和IBM的研究者探讨了非线性Transformer在上下文学习的理论基础。他们展示了Transformer如何通过注意力层聚焦相关上下文,并利用MLP层进行预测,揭示了其在不需微调情况下的泛化能力。尽管研究局限于二进制分类和单层模型,它为理解复杂模型在不同任务和领域的潜在适应性提供了新视角。[论文链接:](https://arxiv.org/pdf/2402.15607)**
67 1
Gradformer: 通过图结构归纳偏差提升自注意力机制的图Transformer
Gradformer,新发布的图Transformer,引入指数衰减掩码和可学习约束,强化自注意力机制,聚焦本地信息并保持全局视野。模型整合归纳偏差,增强图结构建模,且在深层架构中表现稳定。对比14种基线模型,Gradformer在图分类、回归任务中胜出,尤其在NCI1、PROTEINS、MUTAG和CLUSTER数据集上准确率提升明显。此外,它在效率和深层模型处理上也表现出色。尽管依赖MPNN模块和效率优化仍有改进空间,但Gradformer已展现出在图任务的强大潜力。
249 2
麻省理工提出“跨层注意力”,极大优化Transformer缓存
【7月更文挑战第4天】麻省理工学院的研究团队提出了一种新的Transformer优化技术——跨层注意力(CLA),旨在解决大型模型的缓存问题。CLA通过相邻层间共享键值头减半KV缓存,提高内存效率,允许处理更长序列和批量。实验显示,CLA在10亿至30亿参数模型中实现了性能与内存使用的良好平衡,但可能增加计算开销,并非所有模型适用。论文链接:[arXiv:2405.12981](https://arxiv.org/abs/2405.12981)
162 0
强化学习基础篇【1】:基础知识点、马尔科夫决策过程、蒙特卡洛策略梯度定理、REINFORCE 算法
强化学习基础篇【1】:基础知识点、马尔科夫决策过程、蒙特卡洛策略梯度定理、REINFORCE 算法
 强化学习基础篇【1】:基础知识点、马尔科夫决策过程、蒙特卡洛策略梯度定理、REINFORCE 算法