计算机视觉中一些优秀的文章

简介: 最近几年人工智能异常火热,人工智能包含很多方向,其中计算机视觉就是相对研究较多的一个方向,CVPR、ICCV、ECCV....顶会、期刊数不胜数,paper也自然不再少数,每年发表的文章数量非常庞大,而学习英语文章又相对非常耗时,所以选取出一些优秀的文章则变得至关重要,在这里,我把一些经典、优秀的文章整理一下,方便入门的同学学习,如果嫌下载麻烦,可以关注微信公众号,回复"cv"获取。

我个人对计算机视觉更喜欢用传统和深度两个层面去分类,传统方法方法主要工作包括两块,特征提取和机器学习,例如经典的HOG、DPM等。深度学习方法这几年非常耀眼,自从2012年AlexNet在ImageNet上一站成名之后,计算机视觉如雨后春笋一般,出现了VGG、ZF-Net、R-CNN系列、ResNet、U-net、SSD、YOLO系列,下面简单介绍一些我认为值得看的文章,不做详细的阐述,如果感兴趣可以下载看一下。

1.png


LeNet:提前卷积神经网络自然避不开卷积神经网络,这是最先提出卷积神经网络的文章,由大牛LeCun和Bengio所作,LeNet是一个简单的5层神经网络,主要分为两个模块,卷积块和全连接块,前2层是两个卷积层,后3层是3个全连接层,共5层,每个卷积层后面跟随一个最大池化层(池化层不计入网络层数)。

https://itb.biologie.hu-berlin.de/~zito/teaching/CNSIII-2006/proj6/proj6_2.pdf

2.jpg


AlexNet:LeNet出现之后的很长时间里,卷积神经网络并没有什么出彩的表现,在这期间表现最优秀的是支持向量机这一类的传统机器学习算法,直到2012年AlexNet在ImageNet上一举夺魁才带领卷积神经网络再次走入人们的视野。AlexNet包含8层,前5层是卷积层,后3层是全连接层,其中第1、2、5卷积层后面紧跟着最大池化层。

http://120.52.51.16/www.cs.cmu.edu/afs/cs/Web/People/epxing/Class/10715/reading/imagenet.pdf

3.png

VGG:AlexNet虽然表现很优秀,但是却没能提供明确的网络架构设计规则,VGG提出使用简单的基础块提高网络的重复使用能力。这也指导了后来很多网络架构的设计,VGG也被用为很多目标检测模型的基础网络层。

http://120.52.51.14/www.cs.cmu.edu/~jeanoh/16-785/papers/simonyan-iclr2015-vgg.pdf

4.png

NiN:AlexNet、VGG这些卷积神经网络的架构都是由一系列卷积层最后加上一个全连接层,然后再用softmax之类的回归函数输出结果,NiN和这两个卷积神经网络最主要的区别就是利用了1*1的卷积层,这样做更加有利于空间信息的传递。

https://arxiv.org/pdf/1312.4400.pdf



5.jpg


GoogLeNet:GoogLeNet是在NiN的基础上做了进一步的改进,GoolgLeNet中比较出名的是Inception块,它是GoogLeNet的基础块。AlexNet这些网络都是在网络的深度上不断加深,而Inception是在网络的宽度了做了一个改进,提出了并行连接的思想。

http://www.micc.unifi.it/bagdanov/pdfs/GoogLeNet.pdf


6.png


ResNet:从LeNet到AlexNet再到VGG,网络的深度逐渐加深,精度也随之升高,但是问题是,网络加深,精度一定升高吗?答案是否定的,随着网络加深,随之而来的可能会导致梯度消失和梯度爆炸等问题,而ResNet的出现具有重要的意义,它基于恒等映射的思想提出了跳跃连接,这一思想对后续的深度神经网络的设计有着很深的影响。

https://arxiv.org/pdf/1512.03385.pdf

7.jpg

DenseNet:DenseNet就是受ResNet影响的一个网络架构,它有稠密层和过渡层两个模块组成。和ResNet主要的区别之处在于,ResNet是把后一个模块和前一个模块的输出相加,DenseNet是把前一个模块和后一个模块在通道维上做连接。

http://www.cs.cmu.edu/~jeanoh/16-785/papers/huang-cvpr2017-densenet.pdf

8.png


R-CNN:目标检测是计算机视觉领域很重要的一项工作,而R-CNN是将深度神经网络应用于目标检测的一个开创性工作,由R-CNN延伸而来的有后来的Fast R-CNN、Faster R-CNN、Mask R-CNN。R-CNN首先选取若干个提议区域,提议区域可以通过图像分割等手段选取,标注提议区域的类别和边界框(偏移量),然后,用卷积神经网络对每个提议区域做前向计算抽取特征。之后,我们用每个提议区域的特征预测类别和边界框。R-CNN需要把每个提议区域都进行前向计算,这样有大量的重叠,增加了计算量,Fast R-CNN主要的改变在于只对整幅图像进行前向计算,而且引入了兴趣区域池化层和选择性搜索。Fast R-CNN通常需要在选择性搜索中生成较多的提议区域,以获得较精确的目标检测结果。Faster R-CNN提出将选择性搜索替换成区域提议网络(RPN),从而减少提议区域的生成数量,并保证目标检测的精度。Mask R-CNN主要用于像素级的分割,Mask R-CNN在Faster R-CNN的基础上做了修改,Mask R-CNN将兴趣区域池化层替换成了兴趣区域对齐层,即通过双线性插值(bilinear interpolation)来保留特征图上的空间信息,从而更适于像素级预测。

https://arxiv.org/pdf/1311.2524.pdfhttps://arxiv.org/pdf/1504.08083.pdfhttp://cseweb.ucsd.edu/classes/sp17/cse252C-a/CSE252C_20170426.pdf

http://openaccess.thecvf.com/content_ICCV_2017/papers/He_Mask_R-CNN_ICCV_2017_paper.pdf

9.png


FCN:全卷积网络(fully convolutional network,FCN)采用卷积神经网络实现了从图像像素到像素类别的变换。与之前介绍的卷积神经网络有所不同,全卷积网络通过转置卷积(transposed convolution)层将中间层特征图的高和宽变换回输入图像的尺寸,从而令预测结果与输入图像在空间维(高和宽)上一一对应:给定空间维上的位置,通道维的输出即该位置对应像素的类别预测。

https://arxiv.org/pdf/1411.4038.pdf


10.jpg


SSD:这是一个可以和YOLO相媲美的网络模型,兼备速度和精度,因此得到了广泛的应用。SSD结合了多尺度、锚框等思想。具体来说SSD由基础网络块和若干个多尺度特征块组成,基础网络块主要用于特征提取,可以用VGG,也可以用ResNet,多尺度特征块主要用于类别和边界框的预测。

https://arxiv.org/pdf/1512.02325.pdf

11.png

YOLO:YOLO的主要特点就是快,它的核心思想是利用整张图作为网络的输入,直接在输出层回归 bounding box(边界框) 的位置及其所属的类别。其后也有多个升级版本,YOLO9000,可以识别更多种类的物体,YOLOv3引入了多尺度思想,解决了对小物体检测准确率较低的问题,因此,目前的YOLO是兼备速度和精度的,所以应用也非常广泛。

http://grail.cs.washington.edu/wp-content/uploads/2016/09/redmon2016yol.pdf

http://sse.tongji.edu.cn/yingshen/course/PR2017Fall/readings/Yolo%209000%20better%20faster%20stronger.pdf

https://arxiv.org/pdf/1804.02767.pdf

深度计算机视觉中主要是围绕着卷积神经网络进行研究,上述提到的是这几年比较具有代表性的网络模型,每种模型之间有共通之处,也都有很多值得借鉴的思想,例如,跳跃连接、多尺度特征、端到端等等,如果想从事计算机视觉方面的工作,这些经典的网络模型是绕不开的,如果感兴趣的话可以通过文章提供的链接下载一下,如果觉得下载麻烦,我已经把内容打包共享,可以后台回复cv获取下载链接,如果觉得有帮助,麻烦分享扩散一下。





相关文章
|
机器学习/深度学习 自然语言处理 算法
计算机视觉相关干货文章-20190807
计算机视觉相关干货文章-20190807
|
机器学习/深度学习 人工智能 算法
2019年上半年收集到的AI计算机视觉方向干货文章
2019年上半年收集到的AI计算机视觉方向干货文章
|
机器学习/深度学习 计算机视觉
AIGC核心技术——计算机视觉(CV)预训练大模型
【1月更文挑战第13天】AIGC核心技术——计算机视觉(CV)预训练大模型
1018 3
AIGC核心技术——计算机视觉(CV)预训练大模型
|
机器学习/深度学习 PyTorch 算法框架/工具
Azure 机器学习 - 使用 ONNX 对来自 AutoML 的计算机视觉模型进行预测
Azure 机器学习 - 使用 ONNX 对来自 AutoML 的计算机视觉模型进行预测
382 0
|
人工智能 测试技术 API
AI计算机视觉笔记二十 九:yolov10竹签模型,自动数竹签
本文介绍了如何在AutoDL平台上搭建YOLOv10环境并进行竹签检测与计数。首先从官网下载YOLOv10源码并创建虚拟环境,安装依赖库。接着通过官方模型测试环境是否正常工作。然后下载自定义数据集并配置`mycoco128.yaml`文件,使用`yolo detect train`命令或Python代码进行训练。最后,通过命令行或API调用测试训练结果,并展示竹签计数功能。如需转载,请注明原文出处。
|
7月前
|
存储 人工智能 自然语言处理
关于计算机视觉中的自回归模型,这篇综述一网打尽了
这篇综述文章全面介绍了自回归模型在计算机视觉领域的应用和发展。文章首先概述了视觉中的序列表示和建模基础知识,随后根据表示策略将视觉自回归模型分为基于像素、标记和尺度的三类框架,并探讨其与生成模型的关系。文章详细阐述了自回归模型在图像、视频、3D及多模态生成等多方面的应用,列举了约250篇参考文献,并讨论了其在新兴领域的潜力和面临的挑战。此外,文章还建立了一个GitHub存储库以整理相关论文,促进了学术合作与知识传播。论文链接:https://arxiv.org/abs/2411.05902
221 1
|
机器学习/深度学习 编解码 人工智能
Vision Mamba:将Mamba应用于计算机视觉任务的新模型
Mamba是LLM的一种新架构,与Transformers等传统模型相比,它能够更有效地处理长序列。就像VIT一样现在已经有人将他应用到了计算机视觉领域,让我们来看看最近的这篇论文“Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Models,”
1198 7
|
人工智能 测试技术 PyTorch
AI计算机视觉笔记二十四:YOLOP 训练+测试+模型评估
本文介绍了通过正点原子的ATK-3568了解并实现YOLOP(You Only Look Once for Panoptic Driving Perception)的过程,包括训练、测试、转换为ONNX格式及在ONNX Runtime上的部署。YOLOP由华中科技大学团队于2021年发布,可在Jetson TX2上达到23FPS,实现了目标检测、可行驶区域分割和车道线检测的多任务学习。文章详细记录了环境搭建、训练数据准备、模型转换和测试等步骤,并解决了ONNX转换过程中的问题。
|
编解码 机器人 测试技术
2024年6月计算机视觉论文推荐:扩散模型、视觉语言模型、视频生成等
6月还有一周就要结束了,我们今天来总结2024年6月上半月发表的最重要的论文,重点介绍了计算机视觉领域的最新研究和进展。
476 8
|
自然语言处理 监控 自动驾驶
大模型在自然语言处理(NLP)、计算机视觉(CV)和多模态模型等领域应用最广
【7月更文挑战第26天】大模型在自然语言处理(NLP)、计算机视觉(CV)和多模态模型等领域应用最广
942 11

热门文章

最新文章