CNN高效感受野的惊奇发现

简介: 在这篇文章中,“高效感受野”(ERF)的理念和在卷积神经网络(CNN)上自然产生的视觉有着惊人的关系。

更多深度文章,请关注云计算频道:https://yq.aliyun.com/cloud


感受野(receptive field)是怎样一个东西呢,从CNN可视化的角度来讲,就是输出featuremap某个节点的响应对应的输入图像的区域就是感受野。

卷积神经网络(CNN)的高效感受野是影响特定网络单元的输入空间的区域。请注意,这个输入区域不仅可以是网络,也可以是从网络中的其他单位的输出区域。因此,相对于我们所考虑的输入和作为这部分输入区域的“接收器”而言,这个感受野是能够计算的。通常,当提到感受野这个术语时,它考虑到的是与网络输入(即网络的输入图像)相关的最终输出单元(即一个二进制分类任务的单个单元)。

CNN上,我们很容易看到可以使用不同的方法增加感受野,如:堆积层,抽样、扩张等。在理论上,当你叠加更多层,你可以线性增加你的感受野,然而,在实践中,事情远比我们想的要难,就像罗,文杰等人在文章中向我们展示的一样。文章中,他们阐述了“高效感受野”概念;而概念背后的直觉是:并不是所有的感受野的像素有助于输出单元的响应。在进行前向传递时,我们可以看到正是因为中心感受野是多输出单元的计算,它们才可以使用许多不同的路径将其信息传送并且输出。

在下面的图中,我们可以看到左边的输入像素,之后我们有一个特征映射使用一个3×3卷积滤波器的输入像素,最后输出另一个3×3的过滤结果左图像中像素内部的数字表示这个像素是卷积步骤的一部分(滤波器的每个滑动步骤)。正如我们所看到的,一些中央的像素将通过网络中的许多不同路径传播它们的信息,而边界上的像素则沿着一条路径传播。

8464c926ed92e1009da8723481e9166257924ddf

1

通过观察上面的图像,高效感受野对最终输出计算的影响看起来更像是高斯分布而不是均匀分布,这并不令人惊讶。更有趣的是,这种感受野是动态的,而且在训练过程中会发生变化。这对反向传播的影响是,与边界像素相比,中央像素将具有更大的梯度大小。

在那篇文章中,他们做了一些实验,用多种不同的架构来可视化有效的感受野,我在这里复制了我发现的最有趣的东西

d7b36e4a6841a359d0e010745a4b79e3af2943f5

2

 

 

正如我们从图1中看到的,他们比较了层数、初始化方案和不同激活的效果,结果令人吃惊。我们可以很清楚地看到高斯分布,也可以看到相关的稀疏性。同样的,在图三中也做了一些比较。

e5bff121f6b5cfcc810ab8b2e6559175601bab93

3

 

  正如我们所看到的,大幅度增加训练后,高效感受野的大小是非常动态的,这意味着,正如作者所说的,在训练开始时,可以采用变化的方案增加感受野以达到更好的初始状态。他们实际上开发了一种不同的初始化方案,并能提高30%的训练速度,然而,这些结果并不一致。

d05ff0852461a6216a3d60b7144c090b3d0851d5

4

 

更有趣的是,高效感受野与人眼视觉的关系非常密切,它产生了敏锐的中央视觉,由锥细胞的高密度区域所产生。

 

fc4238745dc96981d0702710bfe9ee994abb23c3

5

我们的中心视野迅速衰减,就像一个与高斯分布非常相似的有效的接收场。令人惊奇的是,这一效应在CNN上自然呈现。

     PS:出于好奇,一些鸟类做复杂的空中运动,比如蜂鸟,它们有两个视网膜中央窝,而不是单个的,这意味着它们不仅在中央区域有敏锐的视觉,而且在两边有敏锐的视觉。




以上为译文

本文由阿里云云栖社区组织翻译。文章原标题《The effective receptive field on CNNs》,作者:Christian S. Perone,译者:黄小凡,审校:袁虎。

文章为简译,更为详细的内容,请查看原文

相关文章
|
12月前
|
计算机视觉
迟到的 HRViT | Facebook提出多尺度高分辨率ViT,这才是原汁原味的HRNet思想(二)
迟到的 HRViT | Facebook提出多尺度高分辨率ViT,这才是原汁原味的HRNet思想(二)
168 0
|
3月前
|
机器学习/深度学习 人工智能 编解码
Backbone往事 | AlexNet~EfficientNet,10多个网络演变铺满了炼丹师们的青葱岁月
Backbone往事 | AlexNet~EfficientNet,10多个网络演变铺满了炼丹师们的青葱岁月
41 0
|
9月前
|
机器学习/深度学习
|
10月前
|
存储
学习向量感受
学习向量感受
|
12月前
|
机器学习/深度学习 编解码 vr&ar
迟到的 HRViT | Facebook提出多尺度高分辨率ViT,这才是原汁原味的HRNet思想(一)
迟到的 HRViT | Facebook提出多尺度高分辨率ViT,这才是原汁原味的HRNet思想(一)
163 0
|
12月前
|
机器学习/深度学习 存储 算法
大脑带来的启发:深度神经网络优化中突触整合原理介绍
大脑带来的启发:深度神经网络优化中突触整合原理介绍
126 0
|
12月前
|
机器学习/深度学习 编解码 人工智能
即插即用系列|Make FCN Great Again: 全局感受野助力全卷积神经网络涅槃重生!
即插即用系列|Make FCN Great Again: 全局感受野助力全卷积神经网络涅槃重生!
118 0
|
机器学习/深度学习 编解码 计算机视觉
手撕 CNN 经典网络之 VGGNet(理论篇)
2014年,牛津大学计算机视觉组(Visual Geometry Group)和Google DeepMind公司一起研发了新的卷积神经网络,并命名为VGGNet。VGGNet是比AlexNet更深的深度卷积神经网络,该模型获得了2014年ILSVRC竞赛的第二名,第一名是GoogLeNet(我们之后会介绍)。
|
机器学习/深度学习 算法 数据挖掘
手撕 CNN 经典网络之 AlexNet(理论篇)
大家好,我是红色石头! 第一个典型的CNN是LeNet5网络,而第一个大放异彩的CNN却是AlexNet。2012年在全球知名的图像识别竞赛 ILSVRC 中,AlexNet 横空出世,直接将错误率降低了近 10 个百分点,这是之前所有机器学习模型无法做到的。
168 0
|
机器学习/深度学习 数据可视化 固态存储
感受野和特征图的深度理解
​ 经典目标检测和最新目标跟踪都用到了RPN(region proposal network),锚框(anchor)是RPN的基础,感受野(receptive field, RF)是anchor的基础。本文介绍感受野及其计算方法,和有效感受野概念。同时也向大家补充特征图的相关知识~ ​
280 0
感受野和特征图的深度理解