理解卷积神经网络的利器:9篇重要的深度学习论文(下)

简介: 为了更好地帮助你理解卷积神经网络,在这里,我总结了计算机视觉和卷积神经网络领域内许多新的重要进步及有关论文。

      手把手教你理解卷积神经网络(一)

理解卷积神经网络的利器:9篇重要的深度学习论文(上)”文章,本文继续介绍过去五年内发表的一些重要论文,并探讨其重要性。论文15涉及通用网络架构的发展论文69则是其他网络架构的论文。点击原文即可查看更详细的内容。

5.Microsoft ResNet2015

现在,将一个深度卷积神经网络的层数增加一倍,再增加几层,也仍然不可能达到2015年微软亚洲研究院提出的ResNet架构的深度。ResNet是一种新的包含152层的网络架构,它使用一个特殊的结构记录分类、检测和定位。除了在层数方面进行创新外,ResNet还赢得了2015ImageNet大规模视觉识别挑战赛的冠军,误差率低达3.6%(在现有的技术水平上,误差率通常在5-10%)

残差块

残差块的原理是,输入x通过卷积-残差函数-卷积系列,得到输出F(x)然后将该结果加到原始输入x,用H(x)= F(x)+ x表示。在传统的卷积神经网络中,H(x)=F(x)因此,我们不只计算从xF(x)变换,而是计算H(x)= F(x)+ x下图中的最小模块正在计算一个“增量”或对原始输入x轻微改变以获得轻微改变后的表示。作者认为,优化残差映射比优化原始未引用的映射容易。

11b3c64a2678ab42846f6c73fbfa4c7c22ec70e0

残差块可能比较有效的另一个原因是,在反向传播的后向传递期间,由于加法运算可以作用于梯度,梯度将会更容易地通过残差块。

主要论点

1.极端深度” - Yann LeCun

2.包含152

3.有趣的是,仅在经过前两层之后,将数组224*224压缩56x56

4.普通网络中,单纯的增加层数会导致更高的训练和测试误差(详细请看论文

5.该模型尝试构建了一个1202网络,可能是由于过拟合,测试精度较低

重要性

3.6%的误差率!这一点足够重要ResNet模型是目前我们所拥有的最好的卷积神经网络架构,残差学习理念的一个伟大创新。我相信即使在彼此之上堆叠更多层,性能也不会再有大幅度的提升了,但肯定会有像过去两年那样有创意的新架构。

6.基于区域的卷积神经网络:R-CNN2013年);Fast R-CNN2015年); Faster R-CNN2015年)

有些人可能会说,R-CNN的出现比以前任何与新网络架构有关的论文都更具影响力。随着第一篇论述R-CNN的论文被引用超过1600次,加州大学伯克利分校的Ross Girshick团队创造出了计算机视觉领域最有影响力的进展之一:研究表明Fast R-CNNFaster R-CNN更适合对象检测,且速度更快。

R-CNN架构的目标解决对象检测问题。现在,我们想给定的图像上所包含的所有对象绘制边界框,可分为两步候选区域的选择和分类。

作者指出,任何类不可知候选区域方法都应该适用。选择性搜索专门用于R-CNN能够产生2000个不同的最有可能包含指定对象的区域,候选区域产生后,会被转换为图像大小的区域,送入一个训练好的卷积神经网络(在这种情况下为AlexNet),为每个区域提取特征向量。然后,这组向量作为一组线性支持向量机的输入,这些线性支持向量机对每个类进行训练并输出一个分类。向量也被送入边界框回归器以便获得最准确的位置坐标。最后,使用非极大值抑制来抑制彼此具有明显重叠的边界框。

 d990056186960ad576e388afcb39a71e2dd78782 

Fast R-CNN

对原始模型进行改进原因有三:模型训练需要经历多个步骤ConvNets支持向量机边界框回归器)计算成本很高,运行速度很慢(R-CNN处理一张图像需要53秒)。为了提高运行速度,Fast R-CNN共享不同候选区域之间卷积层的计算交换了候选区域的生成顺序,同时运行卷积神经网络。在这个模型中,图像图像首先送入卷积网络,然后从卷积网络的最后一个特征映射获得候选区域的特征,最后被送入全连接层、回归以及分类头部

e9acc6898f0a3b8e6460dd02f0deba91a687be1e 

Faster R-CNN

Faster R-CNN致力于R-CNNFast R-CNN比较复杂的训练步骤简单化。作者在最后一个卷积层后插入候选区域生成网络,该网络能够查看最后的卷积特征映射并产生候选区域后面使用与R-CNN相同的方法:感兴趣区域化、全连接层、分类和回归头。

c59dce3060e5d93417a246522d89eb25a66400bc 

重要性

除了能够准确识别图像中的特定对象Faster R-CNN能够该对象进行准确定位,这是一个质的飞跃现在,Faster R-CNN已经成为对象检测程序一个标准。

7.生成敌对网络(2014

Yann LeCun网络可能是下一重大进展。在介绍这篇文章前,我们先个对抗的例子:将一个经过扰动的图像经过卷积神经网络(已经在ImageNet数据集训练且运行良好,以使预测误差最大化。因此,预测出来的对象类别有所改变,而图像看起来与没有经过扰动的图像相同。从某种意义上来说对抗就是用图像愚弄卷积网络。

47aa6e4e90aa4ebbc4d4029f07914fb0bc37b166 

这个对抗的例子着实让很多研究人员感到惊讶,并且迅速成为一个大家感兴趣的话题。现在让我们来谈谈生成对抗网络,它包含两个模型:一个生成模型和一个判别模型。判别器用来确定给定的图像是否真的自数据集,还是人为创建的;生成器用来是创建图像,以便判别器得到训练生成正确的输出。这可以看作一个博弈游戏,打个比方:生成模型就像伪造者团队,试图制造和使用假币判别模型就像警察,试图检测假币。生成器试图欺骗判别器,而判别器努力不被欺骗。随着模型训练,两种方法都得到改进,直到真币假币无法区分

重要性

这看起来很简单,但为什么我们很看重网络?正如Yan Le LeunQuora中所说的那样,现在判别器已经意识到数据的内在表示,因为它已经被训练的能够了解数据集中真实图像与人工创建图像之间的差异。因此,可以像卷积神经网络那样,将它用作特征提取器。另外,你可以创建很逼真的人造图像(链接)。

8.Generating Image Descriptions2014

卷积神经网络循环神经网络结合起来会发生什么?Andrej Karpathy团队研究了卷积神经网络双向循环神经网络的组合,并撰写了一篇论文用来生成图像不同区域的自然语言描述。基本上,图像经过该模型后输出效果如下

4d668f134cee42fd46edfe51267171007dbfac27 

这真是令人难以置信!我们来看看这与普通的卷积神经网络有何区别。传统的卷积神经网络上,训练数据中每个图像都有一个明确的标签。论文中描述的模型已经训练样例,该样例具有与每个图像相关联的文本。这种类型的标签被称为弱标签,其中文本片段指图像的未知部分。使用这些训练数据,深层神经网络能够推断出文本片段和他们所要描述的区域之间的潜在关系(引自论文)。另一个神经网络将图像转换成一个文本描述。让我们分别看看这两个部分:对齐模型和生成模型

对齐模型

对齐模型的目标是能够将视觉图像和文本描述对齐,该模型图像和文本转化为二者之间的相似性度量值

首先将图像输入R-CNN模型,检测单个对象,该模型在ImageNet数据集上进行训练,排名前19位(加上原始图像)的对象区域嵌入500维空间现在在每个图像中,我们20个不同的500向量(用v表示),用来描述图像的信息。现在我们需要关于文本的信息,将文本嵌入到同一个多维度空间中一步骤采用双向递归神经网络完成。从高层次来看,这是为了解释给定文本中单词的上下文信息。由于图像和文本的信息都在相同的空间中,因此我们可以计算内部表示,来输出相似性度量。

生成模型

对齐模型的主要目的是创建一个数据集:包含图像区域和对应的文本生成模型将从该数据集中进行学习,生成给定图像的描述。该模型将图像送入一个卷积神经网络,由于全连接层的输出成为另一个循环神经网络的输入,softmax则可以被忽略。对于那些不熟悉循环神经网络的人来说,该模型可以理解为产生句子中不同单词的概率分布(循环神经网络也需要像卷积神经网络一样进行训练)。

35fa89a6e015c56507914fdc5f962177796b3e3c 

重要性

Generating Image Descriptions的创新之处在于:使用看似不同的循环神经网络和卷积神经网络模型创建一个非常实用的应用程序,它以某种方式将计算机视觉和自然语言处理领域结合在一起。在处理跨越不同领域的任务时如何使计算机和模型变得更加智能方面,它的新想法为我们打开一扇新的大门

9.空间变换网络Spatial Transformer Network2015年)

最后,我们来介绍一篇同样很重要的论文,该模型的主要亮点就是引入了一个变换模块,它以某种方式输入图像进行变换,以便后续网络能够容易对图像进行分类。作者不再对卷积神经网络的主要架构进行修改,而是在图像输入到特定的卷积层之前对图像进行变换。这个模块希望纠正姿态规范化(针对对象倾斜或缩放的场景)和空间注意力(拥挤图像中关注需要分类的对象)。对于传统的卷积神经网络来说,如果希望模型能够同时适用于不同尺度和旋转的图像,那么需要大量的训练样例才能使模型进行正确的学习这个变换模块是如何解决这个问题的呢?

处理空间不变性的传统卷积神经网络模型中的实体是最大池化一旦我们知道原始输入数组(具有较高激活值)中的特定特征,其确切位置就不如相对于其他特征的相对位置那么重要。这种新的空间变换器是动态的,它会针对每个输入图像产生不同的变换,而并像传统的最大池化那样简简单和预定义。我们来看看这个变换模块是如何运行的。该模块包括:

1.定位网络,输入数组转化并输出必须使用的空间变换参数。对于仿射变换来说,参数或θ可以是六维的。

2采样网格,这是使用本地化网络中创建的仿射变换(θ常规网格进行变形的结果。

3.采样器,输入特征映射进行变形。

12e3af67a72739a57fd871f5a96df28c27237847 

这个模块可以卷积神经网络的任何一个节点,基本上可以帮助网络学习如何特征映射进行变换,从而最大限度地减少训练期间的成本函数。

86104adb61b831f727c0cca61dad3532b5ac399c 

重要性

这篇文章之所以能够引起我的注意,其主要原因对卷积神经网络的改进不一定需要对网络的整体架构做巨大的改变,我们不需要再创建下一个ResNetInception架构。本文对输入图像进行仿射变换这一思路,使模型更加适用于图像的平移缩放和旋转。


 数十款阿里云产品限时折扣中,赶紧点击领劵开始云上实践吧!

以上为译文。

本文由北邮@爱可可-爱生活 老师推荐,阿里云云栖社区组织翻译。

文章原标题《A Beginner's Guide to Understanding Convolutional Neural Networks》,译者:Mags,审校:袁虎。

文章为简译,更为详细的内容,请查看原文 

相关文章
|
7天前
|
机器学习/深度学习 人工智能
类人神经网络再进一步!DeepMind最新50页论文提出AligNet框架:用层次化视觉概念对齐人类
【10月更文挑战第18天】这篇论文提出了一种名为AligNet的框架,旨在通过将人类知识注入神经网络来解决其与人类认知的不匹配问题。AligNet通过训练教师模型模仿人类判断,并将人类化的结构和知识转移至预训练的视觉模型中,从而提高模型在多种任务上的泛化能力和稳健性。实验结果表明,人类对齐的模型在相似性任务和出分布情况下表现更佳。
19 3
|
4天前
|
机器学习/深度学习 自然语言处理 TensorFlow
深度学习的奥秘:探索神经网络背后的魔法
【10月更文挑战第22天】本文将带你走进深度学习的世界,揭示神经网络背后的神秘面纱。我们将一起探讨深度学习的基本原理,以及如何通过编程实现一个简单的神经网络。无论你是初学者还是有一定基础的学习者,这篇文章都将为你提供有价值的信息和启示。让我们一起踏上这段奇妙的旅程吧!
|
4天前
|
机器学习/深度学习 人工智能 算法
【车辆车型识别】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+算法模型
车辆车型识别,使用Python作为主要编程语言,通过收集多种车辆车型图像数据集,然后基于TensorFlow搭建卷积网络算法模型,并对数据集进行训练,最后得到一个识别精度较高的模型文件。再基于Django搭建web网页端操作界面,实现用户上传一张车辆图片识别其类型。
12 0
【车辆车型识别】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+算法模型
|
5天前
|
机器学习/深度学习 人工智能 自动驾驶
深度学习中的卷积神经网络(CNN)及其应用
【10月更文挑战第21天】本文旨在深入探讨深度学习领域的核心组成部分——卷积神经网络(CNN)。通过分析CNN的基本结构、工作原理以及在图像识别、语音处理等领域的广泛应用,我们不仅能够理解其背后的技术原理,还能把握其在现实世界问题解决中的强大能力。文章将用浅显的语言和生动的例子带领读者一步步走进CNN的世界,揭示这一技术如何改变我们的生活和工作方式。
|
2天前
|
机器学习/深度学习 算法 计算机视觉
深度学习与生活:如何利用卷积神经网络识别日常物品
【10月更文挑战第24天】在这篇文章中,我们将探索深度学习如何从理论走向实践,特别是卷积神经网络(CNN)在图像识别中的应用。通过一个简单的示例,我们将了解如何使用CNN来识别日常生活中的物体,如水果和家具。这不仅是对深度学习概念的一次直观体验,也是对技术如何融入日常生活的一次深刻反思。文章将引导读者思考技术背后的哲理,以及它如何影响我们的生活和思维方式。
|
19天前
|
机器学习/深度学习 人工智能 算法框架/工具
深度学习中的卷积神经网络(CNN)及其在图像识别中的应用
【10月更文挑战第7天】本文将深入探讨卷积神经网络(CNN)的基本原理,以及它如何在图像识别领域中大放异彩。我们将从CNN的核心组件出发,逐步解析其工作原理,并通过一个实际的代码示例,展示如何利用Python和深度学习框架实现一个简单的图像分类模型。文章旨在为初学者提供一个清晰的入门路径,同时为有经验的开发者提供一些深入理解的视角。
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
深度学习中的卷积神经网络(CNN)及其应用
【9月更文挑战第24天】本文将深入探讨深度学习中的一种重要模型——卷积神经网络(CNN)。我们将通过简单的代码示例,了解CNN的工作原理和应用场景。无论你是初学者还是有经验的开发者,这篇文章都将为你提供有价值的信息。
80 1
|
12天前
|
机器学习/深度学习 人工智能 监控
深入理解深度学习中的卷积神经网络(CNN):从原理到实践
【10月更文挑战第14天】深入理解深度学习中的卷积神经网络(CNN):从原理到实践
42 1
|
8天前
|
机器学习/深度学习 人工智能 自动驾驶
深入理解深度学习中的卷积神经网络(CNN)
【10月更文挑战第18天】深入理解深度学习中的卷积神经网络(CNN)
19 0
|
10天前
|
机器学习/深度学习 算法 数据安全/隐私保护
基于贝叶斯优化卷积神经网络(Bayes-CNN)的多因子数据分类识别算法matlab仿真
本项目展示了贝叶斯优化在CNN中的应用,包括优化过程、训练与识别效果对比,以及标准CNN的识别结果。使用Matlab2022a开发,提供完整代码及视频教程。贝叶斯优化通过构建代理模型指导超参数优化,显著提升模型性能,适用于复杂数据分类任务。

热门文章

最新文章