计算机视觉是一个跨学科的领域,涉及的部分学科如图计算机视觉涉及的部分学科
在20世纪60年代后期,一些涉及了人工智能相关方向的大学开始研究计算机视觉,它旨在模仿人类的视觉系统,开始的时候,开发者希望利用计算机视觉从图像中提取三维结构,以实现对整个场景的理解。20世纪70年代的研究包括从图像中提取边缘、标记线条、进行非多面体和多面体建模、将对象表示为较小结构的互连、光流以及运动估计等,为当今的计算机视觉奠定了基础。
计算机视觉是深度学习最先取得突破性成就的领域。2012年,在ILSVRC大赛上,基于卷积神经网络的AlexNet模型获得了当年图像分类的冠军。历年ILSVRC比赛冠军模型错误率如图8-2所示。从下图中可以看出,在2012年以前,传统的视觉处理方法错误率最低的为2011年的25.80%。在2012年,将深度学习引入计算机视觉后,错误率降到了16.40%。从2013年开始,比赛中的前20名都使用了深度学习算法。2013年之后,ILSVRC比赛就基本上只有深度学习算法参赛了。2012—2016年,通过对算法的研究以及优化,识别错误率在不断地下降,这让图像分类问题得到了很好的解决。在2015年,当年的冠军模型ResNet将错误率下降到了3.60%,要低于人工标注的错误率5.1%,实现了计算机视觉上的突破。
历年ILSVRC比赛冠军模型错误率
神经网络和深度学习极大地推动了计算机视觉的发展,发展较好的几个方向如下。
1.图像分类
在图像分类问题中,图像上只有单一类别,将很多带有标记的数据集进行训练之后,可以对新的、未知的、具有单一类别的图像进行预测,类似于教小孩子看图识物,这种方法是数据驱动的方法,也是图像分类最常用的方法。例如,对猫的类别进行训练后,再将下图所示的照片输入网络进行预测,在网络训练效果不错的前提下,可以识别出这是一只猫。
猫的照片
2.目标检测
与图像分类不同,进行目标检测的图像中并不一定只有单一类别的物体。在处理这类问题时,需要在数据上针对各个对象画出边界框和标签,训练完成后可以对新的图像进行预测,目标检测如图所示,方框可以圈出猫的位置。
目标检测
3.语义分割
语义分割与目标检测不同,语义分割需要对每个像素进行语义上的理解,由于需要对每个像素属于图像上的哪个部分做出分类,所以每个像素都拥有标签,语义分割如图所示。
语义分割
计算机视觉比较突出的应用领域如下。医学图像检验:从图像数据中提取信息以诊断患者患病类别;工业领域:在该领域,计算机视觉有时被称为机器视觉,如产品质量把控,机器视觉也大量运用于农业上,以去除不良幼苗或除虫;安防、娱乐领域:传统机器学习的方法运用于人脸识别时并不能很好地满足精度要求,并且同一个人在不同光照、姿态下的特征会有差异,在深度学习运用于计算机视觉后,算法能够提升识别准确率;光学字符识别:将计算机无法理解的图