题目
ImageNet Classification with Deep Convolutional Neural Networks
用深度卷积神经网络进行ImageNet分类
摘要
我们训练了一个大型的深度卷积神经网络,将ImageNet LSVRC-2010竞赛中的120万张高分辨率图像划分为1000个不同的类别。在测试数据上,我们取得了37.5%和17.0%的top-1和top-5错误率,大大优于以前的最先进水平。 该神经网络有6000万个参数和65万个神经元,由5个卷积层组成,其中一些层之后是最大集合层。和三个全连接层,最后是1000路softmax。为了使训练更快,我们使用了非饱和神经元和一个非常有效的GPU实现的卷积操作。为了减少全连接层的过度拟合,我们采用了最近开发的一种叫做 "dropout "的正则化方法,事实证明这种方法非常有效。我们还在ILSVRC-2012比赛中使用了这个模型的一个变体,并取得了15.3%的top-5测试错误率,而第二好的作品则达到了26.2%。
注:ILSVRC(ImageNet Large Scale Visual Recognition Challenge)是近年来机器视觉领域最受追捧也是最具权威的学术竞赛之一,代表了图像领域的最高水平。ImageNet数据集是ILSVRC竞赛使用的是数据集,由斯坦福大学李飞飞教授主导,包含了超过1400万张全尺寸的有标记图片。ILSVRC比赛会每年从ImageNet数据集中抽出部分样本,以2012年为例,比赛的训练集包含1281167张图片,验证集包含50000张图片,测试集为100000张图片。
ILSVRC竞赛包含多种任务,图像分类只是其中之一。主要采用top-5错误率的评估方式,即对于每张图给出5次猜测结果,只要5次中有一次命中真实类别就算正确分类,最后统计没有命中的错误率。而top-1错误率是每次给出一个猜测结果
1 引言
目前的物体识别方法主要使用机器学习方法。为了提高它们的性能,我们可以收集更大的数据集,学习更强大的模型,并使用更好的技术来防止过度拟合。直到最近,在数万张图像的数量级上标记图像的数据集相对较小(例如NORB, Caltech-101/256,CIFAR-10/100 )。简单的识别任务可以通过这种规模的数据集得到很好的解决,尤其是当它们被标签保护性的转换所增强时。例如,目前在MNIST数字识别任务上的最佳错误率(<0.3%)接近人类的表现。但现实环境中的物体表现出相当大的差异性,因此要学会识别它们,就必须使用更大的训练集。有必要使用大得多的训练集。 而事实上,小型图像数据集的缺点已经被广泛认可,但直到最近才有可能收集有数百万张图像的标记数据集。新的大型数据集包括LabelMe和ImageNet,前者由数十万张完全分割的图像组成,后者由超过2.2万个类别中的1500万张标记的高分辨率图像组成。
为了从数以百万计的图像中学习数以千计的物体,我们需要一个具有较大学习能力/容量的模型。然而,物体识别任务的巨大复杂性意味着这个问题甚至不能由ImageNet这样大的数据集来指定,所以我们的模型还应该有很多先验知识来弥补我们没有所有数据。卷积神经网络 (CNNs)构成了这样一类模型。它们的能力可以通过改变其深度和广度来控制,而且它们还对图像的特点做出了强有力的、大多是正确的假设(即统计数据的静止性和像素依赖性的局部性)。因此,与具有类似大小层的标准前馈神经网络相比,CNNs的连接和参数要少得多,因此它们更容易训练。连接和参数要少得多,因此它们更容易训练,而它们的理论上的最佳表现可能只是稍微差一点。
尽管CNNs具有吸引人的特质,尽管其局部结构具有相当的效率,但它们在大规模应用于高分辨率图像方面的成本仍然过高。幸运的是,目前的GPU与高度优化的二维卷积实现相搭配,足以促进有趣的大型CNNs的训练,而且最近的数据集,如ImageNet,包含足够的标记实例来训练这样的模型,而不会出现严重的过拟合。
本文的具体贡献如下:我们在ILSVRC-2010和ILSVRC-2012比赛中使用的ImageNet子集上训练了迄今为止最大的卷积神经网络之一,并取得了迄今为止在这些数据集上报告的最佳结果。我们写了一个高度优化的二维卷积和训练卷积神经网络所固有的所有其他操作的GPU实现,我们公开提供了这个实现。我们的网络包含一些新的和不寻常的特征,这些特征提高了它的性能并减少了它的训练时间,这些将在第3节中详细介绍。我们的网络规模使得过拟合成为一个重要的问题,即使有120万个标记的训练实例,所以我们使用了几种有效的技术来防止过拟合,这些技术将在第4节描述。我们最终的网络包含五个卷积层和三个全连接层,这个深度似乎很重要:我们发现,去除任何一个卷积层(每个卷积层包含的参数不超过模型的1%)都会导致性能下降。最后,网络的规模主要受限于当前GPU上的可用内存量和我们愿意容忍的训练时间。我们的网络在两个GTX580 3GB GPU上需要五到六天的时间来训练。我们所有的实验表明,只要等待更快的GPU和更大的数据集出现,我们的结果就可以得到改善。
7 讨论
我们的结果表明,一个大型的深度卷积神经网络能够在一个极具挑战性的数据集上使用纯粹的监督学习取得破纪录的结果。值得注意的是,如果去掉一个卷积层,我们网络的性能就会下降。例如,去掉任何一个中间层,都会使网络的top-1性能损失约2%。因此,深度对于实现我们的结果真的很重要。
为了简化我们的实验,我们没有使用任何无监督的预训练,即使我们预计它将有所帮助,特别是如果我们获得足够的计算能力来大幅增加网络的规模,而不获得相应的标记数据量的增加。到目前为止,随着我们的网络规模的扩大和训练时间的延长,我们的结果已经有所改善,但是我们与达到人类视觉系统的时空推理能力(infero-temporal pathway of the human visual system)还相距甚远。最终,我们希望在视频序列上使用非常大的深度卷积网络,因为时间结构提供了非常有用的信息,而这些信息在静态图像中是缺失的或远不明显。
————————————————
版权声明:本文为CSDN博主「zqwlearning」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。