计算机视觉中一些优秀的文章

简介: 最近几年人工智能异常火热,人工智能包含很多方向,其中计算机视觉就是相对研究较多的一个方向,CVPR、ICCV、ECCV....顶会、期刊数不胜数,paper也自然不再少数,每年发表的文章数量非常庞大,而学习英语文章又相对非常耗时,所以选取出一些优秀的文章则变得至关重要,在这里,我把一些经典、优秀的文章整理一下,方便入门的同学学习,如果嫌下载麻烦,可以关注微信公众号,回复"cv"获取。

我个人对计算机视觉更喜欢用传统和深度两个层面去分类,传统方法方法主要工作包括两块,特征提取和机器学习,例如经典的HOG、DPM等。深度学习方法这几年非常耀眼,自从2012年AlexNet在ImageNet上一站成名之后,计算机视觉如雨后春笋一般,出现了VGG、ZF-Net、R-CNN系列、ResNet、U-net、SSD、YOLO系列,下面简单介绍一些我认为值得看的文章,不做详细的阐述,如果感兴趣可以下载看一下。

1.png


LeNet:提前卷积神经网络自然避不开卷积神经网络,这是最先提出卷积神经网络的文章,由大牛LeCun和Bengio所作,LeNet是一个简单的5层神经网络,主要分为两个模块,卷积块和全连接块,前2层是两个卷积层,后3层是3个全连接层,共5层,每个卷积层后面跟随一个最大池化层(池化层不计入网络层数)。

https://itb.biologie.hu-berlin.de/~zito/teaching/CNSIII-2006/proj6/proj6_2.pdf

2.jpg


AlexNet:LeNet出现之后的很长时间里,卷积神经网络并没有什么出彩的表现,在这期间表现最优秀的是支持向量机这一类的传统机器学习算法,直到2012年AlexNet在ImageNet上一举夺魁才带领卷积神经网络再次走入人们的视野。AlexNet包含8层,前5层是卷积层,后3层是全连接层,其中第1、2、5卷积层后面紧跟着最大池化层。

http://120.52.51.16/www.cs.cmu.edu/afs/cs/Web/People/epxing/Class/10715/reading/imagenet.pdf

3.png

VGG:AlexNet虽然表现很优秀,但是却没能提供明确的网络架构设计规则,VGG提出使用简单的基础块提高网络的重复使用能力。这也指导了后来很多网络架构的设计,VGG也被用为很多目标检测模型的基础网络层。

http://120.52.51.14/www.cs.cmu.edu/~jeanoh/16-785/papers/simonyan-iclr2015-vgg.pdf

4.png

NiN:AlexNet、VGG这些卷积神经网络的架构都是由一系列卷积层最后加上一个全连接层,然后再用softmax之类的回归函数输出结果,NiN和这两个卷积神经网络最主要的区别就是利用了1*1的卷积层,这样做更加有利于空间信息的传递。

https://arxiv.org/pdf/1312.4400.pdf



5.jpg


GoogLeNet:GoogLeNet是在NiN的基础上做了进一步的改进,GoolgLeNet中比较出名的是Inception块,它是GoogLeNet的基础块。AlexNet这些网络都是在网络的深度上不断加深,而Inception是在网络的宽度了做了一个改进,提出了并行连接的思想。

http://www.micc.unifi.it/bagdanov/pdfs/GoogLeNet.pdf


6.png


ResNet:从LeNet到AlexNet再到VGG,网络的深度逐渐加深,精度也随之升高,但是问题是,网络加深,精度一定升高吗?答案是否定的,随着网络加深,随之而来的可能会导致梯度消失和梯度爆炸等问题,而ResNet的出现具有重要的意义,它基于恒等映射的思想提出了跳跃连接,这一思想对后续的深度神经网络的设计有着很深的影响。

https://arxiv.org/pdf/1512.03385.pdf

7.jpg

DenseNet:DenseNet就是受ResNet影响的一个网络架构,它有稠密层和过渡层两个模块组成。和ResNet主要的区别之处在于,ResNet是把后一个模块和前一个模块的输出相加,DenseNet是把前一个模块和后一个模块在通道维上做连接。

http://www.cs.cmu.edu/~jeanoh/16-785/papers/huang-cvpr2017-densenet.pdf

8.png


R-CNN:目标检测是计算机视觉领域很重要的一项工作,而R-CNN是将深度神经网络应用于目标检测的一个开创性工作,由R-CNN延伸而来的有后来的Fast R-CNN、Faster R-CNN、Mask R-CNN。R-CNN首先选取若干个提议区域,提议区域可以通过图像分割等手段选取,标注提议区域的类别和边界框(偏移量),然后,用卷积神经网络对每个提议区域做前向计算抽取特征。之后,我们用每个提议区域的特征预测类别和边界框。R-CNN需要把每个提议区域都进行前向计算,这样有大量的重叠,增加了计算量,Fast R-CNN主要的改变在于只对整幅图像进行前向计算,而且引入了兴趣区域池化层和选择性搜索。Fast R-CNN通常需要在选择性搜索中生成较多的提议区域,以获得较精确的目标检测结果。Faster R-CNN提出将选择性搜索替换成区域提议网络(RPN),从而减少提议区域的生成数量,并保证目标检测的精度。Mask R-CNN主要用于像素级的分割,Mask R-CNN在Faster R-CNN的基础上做了修改,Mask R-CNN将兴趣区域池化层替换成了兴趣区域对齐层,即通过双线性插值(bilinear interpolation)来保留特征图上的空间信息,从而更适于像素级预测。

https://arxiv.org/pdf/1311.2524.pdfhttps://arxiv.org/pdf/1504.08083.pdfhttp://cseweb.ucsd.edu/classes/sp17/cse252C-a/CSE252C_20170426.pdf

http://openaccess.thecvf.com/content_ICCV_2017/papers/He_Mask_R-CNN_ICCV_2017_paper.pdf

9.png


FCN:全卷积网络(fully convolutional network,FCN)采用卷积神经网络实现了从图像像素到像素类别的变换。与之前介绍的卷积神经网络有所不同,全卷积网络通过转置卷积(transposed convolution)层将中间层特征图的高和宽变换回输入图像的尺寸,从而令预测结果与输入图像在空间维(高和宽)上一一对应:给定空间维上的位置,通道维的输出即该位置对应像素的类别预测。

https://arxiv.org/pdf/1411.4038.pdf


10.jpg


SSD:这是一个可以和YOLO相媲美的网络模型,兼备速度和精度,因此得到了广泛的应用。SSD结合了多尺度、锚框等思想。具体来说SSD由基础网络块和若干个多尺度特征块组成,基础网络块主要用于特征提取,可以用VGG,也可以用ResNet,多尺度特征块主要用于类别和边界框的预测。

https://arxiv.org/pdf/1512.02325.pdf

11.png

YOLO:YOLO的主要特点就是快,它的核心思想是利用整张图作为网络的输入,直接在输出层回归 bounding box(边界框) 的位置及其所属的类别。其后也有多个升级版本,YOLO9000,可以识别更多种类的物体,YOLOv3引入了多尺度思想,解决了对小物体检测准确率较低的问题,因此,目前的YOLO是兼备速度和精度的,所以应用也非常广泛。

http://grail.cs.washington.edu/wp-content/uploads/2016/09/redmon2016yol.pdf

http://sse.tongji.edu.cn/yingshen/course/PR2017Fall/readings/Yolo%209000%20better%20faster%20stronger.pdf

https://arxiv.org/pdf/1804.02767.pdf

深度计算机视觉中主要是围绕着卷积神经网络进行研究,上述提到的是这几年比较具有代表性的网络模型,每种模型之间有共通之处,也都有很多值得借鉴的思想,例如,跳跃连接、多尺度特征、端到端等等,如果想从事计算机视觉方面的工作,这些经典的网络模型是绕不开的,如果感兴趣的话可以通过文章提供的链接下载一下,如果觉得下载麻烦,我已经把内容打包共享,可以后台回复cv获取下载链接,如果觉得有帮助,麻烦分享扩散一下。





相关文章
|
2月前
|
机器学习/深度学习 编解码 资源调度
2024年3月的计算机视觉论文推荐
从去年开始,针对LLM的研究成为了大家关注的焦点。但是其实针对于计算机视觉的研究领域也在快速的发展。每周都有计算机视觉领域的创新研究,包括图像识别、视觉模型优化、生成对抗网络(gan)、图像分割、视频分析等。
46 0
|
2月前
|
机器学习/深度学习 人工智能 TensorFlow
人工智能与图像识别:基于深度学习的卷积神经网络
人工智能与图像识别:基于深度学习的卷积神经网络
37 0
|
2天前
|
机器学习/深度学习 数据采集 算法
探索深度学习在图像识别中的应用
【5月更文挑战第11天】 随着人工智能技术的飞速发展,深度学习已经成为了计算机视觉领域的核心动力。尤其是在图像识别任务中,深度神经网络以其强大的特征提取和学习能力,不断刷新着分类、检测及分割等领域的性能标准。本文将深入探讨深度学习在图像识别中的应用,重点分析卷积神经网络(CNN)的架构演变、损失函数与优化策略的选择,以及数据增强和迁移学习等关键技术的作用。通过具体案例,我们将展示深度学习技术如何推动图像识别精度的不断提升,并探讨未来发展趋势。
|
3天前
|
机器学习/深度学习 算法 决策智能
深度学习在图像识别中的最新进展
【5月更文挑战第10天】深度学习在图像识别领域取得显著进展,包括自监督学习提升无标签数据泛化能力,强化学习优化目标检测,多模态学习增强识别鲁棒性,以及创新模型架构如ResNet和GAN提升识别准确率。未来,随着技术进步,深度学习在图像识别的应用将更广泛深入。
|
4天前
|
机器学习/深度学习 数据采集 算法
探索基于深度学习的图像识别技术
【5月更文挑战第9天】 在本文中,我们将深入分析并讨论一种前沿技术——基于深度学习的图像识别。这一技术已经成为计算机视觉领域的重要分支,并在医疗、安防、自动驾驶等多个行业中得到广泛应用。文章首先概述了深度学习的基本理论,然后重点探讨了卷积神经网络(CNN)在图像处理中的应用,最后通过一个实际案例来展示该技术的有效性和潜力。我们旨在为读者提供一个清晰、系统的技术概览,以及对未来发展趋势的展望。
|
12天前
|
机器学习/深度学习 监控 自动驾驶
基于深度学习的图像识别技术及其应用
【5月更文挑战第1天】 随着人工智能技术的飞速发展,深度学习已成为推动计算机视觉领域进步的关键力量。本文旨在探讨基于深度学习的图像识别技术,并分析其在多个领域的实际应用。首先,文章概述了深度学习在图像处理中的基本概念和关键技术;其次,详细讨论了卷积神经网络(CNN)的结构和工作原理;然后,通过实例展示了图像识别技术在医疗诊断、自动驾驶以及安全监控中的应用;最后,探讨了当前面临的挑战及未来的发展趋势。本文不仅为专业人士提供了深入的技术分析,也为非专业读者呈现了图像识别技术的广泛应用前景。
24 5
|
12天前
|
机器学习/深度学习 自然语言处理 算法
深度学习在图像识别中的应用进展
【4月更文挑战第30天】 随着计算机视觉技术的迅速发展,深度学习已成为推动图像识别领域进步的核心动力。本文综述了近年来深度学习技术在图像识别任务中的创新应用,包括卷积神经网络(CNN)的变体、生成对抗网络(GAN)以及注意力机制等。分析了这些方法如何优化模型性能,提高识别准确率,并探讨了目前面临的主要挑战和未来的发展方向。
|
16天前
|
机器学习/深度学习 算法 计算机视觉
揭秘深度学习在图像识别中的应用
【4月更文挑战第27天】随着人工智能技术的飞速发展,深度学习已经成为了计算机视觉领域的核心驱动力。本文将深入探讨深度学习在图像识别任务中的应用,包括卷积神经网络(CNN)的基本概念、关键技术以及优化策略。通过对比传统机器学习方法,我们将揭示深度学习如何提高图像识别的准确性和效率。
19 2
|
29天前
|
机器学习/深度学习 数据采集 算法
深度学习在图像识别方面的应用
【4月更文挑战第8天】
32 3
|
29天前
|
机器学习/深度学习 数据采集 自然语言处理
深度学习在自然语言处理方面的应用
【4月更文挑战第8天】
35 2