随着计算机设备的不断升级以及大规模数据集的建立,计算机视觉与深度学习技术得到快速发展,对图片视频数据的处理速度得到大幅提升。计算机设备通过接收图像数据,并利用深度学习算法,从而拥有了感知图像内容的能力。目前,通过将深度学习技术与计算机视觉技术相结合,产生了一系列变革与新应用,其中目标检测、识别技术成为了众多应用的关键技术之一。
目标检测识别主要是对图片中的物品进行类别判断与定位。目标检测的发展如图 1 所示。传统的目标识别包括函数式判别方法,通过一组函数来描述计算过程,使得计算机在给定了输入数据后能够快速判别物品类型,然而在很多应用下,输入与输出之间对应的映射关系很难被发现,传统方法无法解决这种复杂的映射关系。因此,研究人员开始采用机器学习算法来计算输入输出的映射关系,增强了智能处理的能力,然而直接使用机械学习的算法在训练图像数据中,图像识别的正确度达不到预想的效果。针对此问题,研究人员采用特征提取算法,将图像对应的像素空间进行映射为特征空间,从而用特征向量对图像进行更本质的描述。
2012 年深度学习首次实现监督式训练深度卷积神经网络,Geoffrey Hinton 的研究团队通过利用基于 CNN 的 AlexNet 在 ImageNat 图像识别数据集上取得巨大成果,其创新点在于使用了 ReLU 激活函数,其特点是输入信号为正数输出不变,输入为负时,输出为 0,从而加速了收敛速度,这为目标识别技术的研究提供了强力解决方法。从此,计算机视觉很多方法都采用卷积神经网络作为特征提取的方法,深度学习的有监督学习也成为了主要的学习方向,随后一系列基于候选框与深度学习结合的算法被提出。利用区域推荐的方法,首先通过 CNN 网络生成候选框,对这些候选框进行分类与去重,该类算法包括 2014 年提出的 R-CNN 和Fast R-CNN以及2015年提出的Faster R-CNN,其中R-CNN,采用了AlexNet获取图像的特征向量,Faster R-CNN 是对 R-CNN、Fast R-CNN 的性能的改善,采用 ResNet网络提取卷积特征,使用区域生成网络(RPN)来推荐候选区域以提升检测框的生成,并将 RPN 与 Fast R-CNN 进行耦合,实现了 end to end 的目标识别网络,使得目标检测性能有了大的提高。随着对目标识别检测精度要求的提高,基于深度学习的回归方法被提出,该算法在检测过程可以一步得出待识别物体类型以及所在图像的位置坐标值,如 2015 年首次被 Joseph Redmon 等人提出的YOLO,2016 年提出的 SSD,相比较于 R-CNN 系列有着更好的检测速度。之后Joseph Redmon 团队又相继提出 YOLOv2,YOLOv3。2020年YOLOv4,YOLOv5 又相继被提出。