论文笔记之:Attention For Fine-Grained Categorization

简介: Attention For Fine-Grained Categorization Google ICLR 2015      本文说是将Ba et al. 的基于RNN 的attention model 拓展为受限更少,或者说是非受限的视觉场景。

 

Attention For Fine-Grained Categorization

Google ICLR 2015

  

  本文说是将Ba et al. 的基于RNN 的attention model 拓展为受限更少,或者说是非受限的视觉场景。这个工作和前者很大程度上的不同在于,用一个更加有效的视觉网络,并且在attention RNN之外进行视觉网络的预训练。

  前人的工作在学习 visual attention model 时已经解决了一些计算机视觉问题,并且表明加上不同的attention mechanisms 可以有效的提升算法的性能。但是之前的工作基本都是受限的环境或者基于玩具这种数据集,本文的算法可以处理更加具有挑战性的因素,如:遮挡等更加复杂的场景。下面这个数据集就给出了案例:

  

 

    本文模型框架主要来源于“ Multiple Object Recognition with Visual Attention ”,大体上是一直的,主要有一下几点不同

  1. our model chooses actions for N glimpses and then classifies only after the final glimpse, as opposed to the sequence task in Ba et al. 每一个实验当中 glimpse的个数是固定的。

  2. 因为数据集中的图像是不断变化的,那么“foveal” glimpses patches 的大小和输入图像最短边的比例保持一致。

  3. 用“vanilla” RNN 来代替 LSTM,在 glimpse n 处,$r_n^{(1)}$ and $r_n^{(2)}$ 都由4096个点构成,当$i =1, 2$时,$r_n(i)$ 和 $r_{n+1}(i)$ 是全连接的。 

  4. 本文并非将 glimpse visual core $G_{image}(x_n|W_{image})$ and $G_{loc}(l_n|W_{loc})$的输出进行元素级相乘,而是将其输出进行concatenate实现线性组合,然后使其通过一个全连接层。

 

  最后,然后是最大的不同之处在于:将visual glimpse network $G_{image}(x_n|W_{image})$ 替换为 基于"GoogleLeNet" model的更加强大且有效的视觉核心(visual core)

 

  由于是基于他人的框架,所以本文对模型方面的介绍较少,我待会回去解释下那个引用的文章,结合那篇文章,来理解这个paper。

  

  


    留下空白页,谈谈自己的感受

  我先去看看那个文章,回头再补回来!等我!!!

  

 

 

 

 

 

 

 

 

 

 

 

相关文章
|
6月前
|
机器学习/深度学习 自然语言处理 数据处理
论文《Attention is All You Need》
论文《Attention is All You Need》
309 1
|
机器学习/深度学习 编解码 自然语言处理
Vision Transformer 必读系列之图像分类综述(二): Attention-based(上)
Transformer 结构是 Google 在 2017 年为解决机器翻译任务(例如英文翻译为中文)而提出,从题目中可以看出主要是靠 Attention 注意力机制,其最大特点是抛弃了传统的 CNN 和 RNN,整个网络结构完全是由 Attention 机制组成。为此需要先解释何为注意力机制,然后再分析模型结构。
800 0
Vision Transformer 必读系列之图像分类综述(二): Attention-based(上)
|
6月前
|
机器学习/深度学习 数据可视化 TensorFlow
[transformer]论文实现:Attention Is All You Need(上)
[transformer]论文实现:Attention Is All You Need(上)
53 2
|
6月前
|
机器学习/深度学习 并行计算 数据可视化
[transformer]论文实现:Attention Is All You Need(下)
[transformer]论文实现:Attention Is All You Need(下)
72 2
|
机器学习/深度学习 自然语言处理 并行计算
【Transformer系列(3)】 《Attention Is All You Need》论文超详细解读(翻译+精读)
【Transformer系列(3)】 《Attention Is All You Need》论文超详细解读(翻译+精读)
1417 0
【Transformer系列(3)】 《Attention Is All You Need》论文超详细解读(翻译+精读)
|
机器学习/深度学习 自然语言处理 算法
【论文精读】COLING 2022-KiPT: Knowledge-injected Prompt Tuning for Event Detection
事件检测旨在通过识别和分类事件触发词(最具代表性的单词)来从文本中检测事件。现有的大部分工作严重依赖复杂的下游网络,需要足够的训练数据。
176 0
【论文精读】COLING 2022-KiPT: Knowledge-injected Prompt Tuning for Event Detection
|
机器学习/深度学习 存储 自然语言处理
【论文解读】A review on the attention mechanism of deep learning
注意力已经成为深度学习中最重要的概念之一。本文旨在对近年来提出的最新注意力模型作概述。我们建立了一个较为通用的模型,此外根据四个标准即注意力的柔软性、输入特征的形式、输入表示和输出表示来对当前注意力模型进行分类。最后讨论了注意力在深度学习可解释上的作用。
892 0
|
机器学习/深度学习 存储 自然语言处理
论文推荐:Rethinking Attention with Performers
重新思考的注意力机制,Performers是由谷歌,剑桥大学,DeepMind,和艾伦图灵研究所发布在2021 ICLR的论文已经超过500次引用
138 0
|
机器学习/深度学习 编解码 算法
【论文泛读】 YOLO v2:Better,Faster,Stronger
【论文泛读】 YOLO v2:Better,Faster,Stronger
【论文泛读】 YOLO v2:Better,Faster,Stronger
|
机器学习/深度学习 存储 传感器
Unsupervised Learning | 对比学习——13篇论文综述
Unsupervised Learning | 对比学习——13篇论文综述
2015 0
Unsupervised Learning | 对比学习——13篇论文综述
下一篇
无影云桌面