深度学习方法是通过大量图像数据训练网络模型,使模型学习更多的目标特征,训练好的模型能够自动从图像中提取目标特征,不易受外界环境的干扰。与传统图像处理技术相比,深度学习方法检测性能更佳,识别精度更高,有更强的泛化能力和更好的鲁棒性。因此,越来越多的研究人员开始用深度学习代替传统图像处理技术。
近年来有很多优秀的目标检测模型被提出,为使用目标检测模型解决裂缝检测问题奠定了基础。Girshick 等人提出基于目标候选框的双阶段目标检测模型 R-CNN,拉开了将深度学习运用在目标检测领域的序幕。该方法要求模型输入图像尺寸大小一致,当图像大小不一致时,需要对图像进行放缩,容易造成图像失真。何恺明等人提出 SPP-Net 解决 R-CNN 重复运算的问题,通过空间金字塔池化整合图像的多尺度特征,使网络不容易受目标尺寸信息变化所带来的影响。Girshick对 R-CNN 进行了改进并提出了 Fast R-CNN,通过 ROI Pooling 层生成和候选区域框尺寸相同的特征向量,解决了重复运算的问题,提高了检测速度,但仍然难以满足实时性需求。Ren 等人对 Fast R-CNN 和区域生成网络 RPN(Region proposal network,RPN)进行组合得到 Faster R-CNN,通过共享卷积层特征实现对候选区域的提取,进一步加快检测速度。双阶段检测模型精度高于单阶段检测模型,虽然其检测速度经过了多次提升,但仍然满足不了大部分目标检测场景的实时性需求。Redmon 提出 YOLO(You only look once)目标检测算法,首次利用回归思想来处理目标检测问题,网络直接进行目标区域定位和目标类别的判断。为了解决YOLO 召回率低的问题,Redmon 对 YOLO 进行改进并提出了 YOLOv2 目标检测算法,采用 Darknet-19 作为主干特征提取网络,并引入锚框机制,提升了检测精度和速度。Liu 提出 SSD 算法,引入多种不同尺度特征图分别进行检测,并利用小卷积预测类别置信度和有误差的边界框偏移量。Redmon 在 YOLOv2 的基础上提出 YOLOv3,采用 Darknet-53 作为主干特征提取网络以加深网络深度,并引入 FPN 思想进行多尺度检测,使得对各尺度目标的检测效果都有了很大的提升。最近,Bochkovskiy 等人在 YOLOv3 基础上提出 YOLOv4,其为主干网络 Darknet53融入 CSPNet 结构,并为深层网络引入 SPP 和 PANet 实现特征融合,并结合了多种优化技巧,具有更高的检测精度和更快的速度,是现阶段最好的目标检测算法之一。
当前也有很多优秀的语义分割模型被提出,为使用语义分割模型解决裂缝检测问题奠定了基础。Long 等人提出了一种全卷积神经网络(Fully ConvolutionalNetworks,FCN) ,用卷积层替换全连接层实现了像素级别的分类,拉开了全卷积神经网络用于处理语义分割问题的序幕[20]。Badrinarayanan 等人提出了与 FCN 结构类似的 SegNet 模型,首先在编码器进行池化时记录索引信息,然后在解码上采样时根据记录的索引信息恢复像素所对应的位置,能够实现较好的分割效果。Ronneberger 等人随后提出了具有 U 型编解码对称结构的 U-Net 网络,并引入跳跃连接实现高低层网络信息融合。与 FCN 相比,U-Net 能够在少样本量的情况下实现较好的图像分割效果。Google 团队提出的 DeepLab 系列,将多尺度信息和空洞卷积相结合,让每一层都能提取到多尺度特征以获得更多图像信息。何恺明等人基于 Faster R-CNN 提出了 Mask R-CNN 模型,可以在检测目标的同时进行高质量的语义分割。