视觉目标跟踪的主要任务是在一组图像序列中寻找目标。与计算机视觉中的其他视觉任务相同,目标跟踪同样需要用相机摄像头来取代人眼进行目标搜索和观察,获取目标及其背景的数字图像信息,然后通过扮演人脑角色的人工智能来解析和处理数码信息。跟踪并不局限于跟踪视频中某一物体,除了对连续视频图像序列中目标运动信息进行预测外,还包括上下文建模、时空信息等研究内容,以实现对目标运动状态的解析和了解,提供针对物体语义内容上进行分析理解的数据保障,从而为完成更高级的视觉任务提供数据支持。
起初跟踪聚焦于单一运动目标的视觉任务需求,即单目标跟踪。主流算法主要围绕相关滤波和孪生网络展开研究。最小输出误差平方和滤波器(Minimum Output Sum of Squared Error Filter,MOSSE)将信号处理领域的相关滤波技术与跟踪领域问题结合起来,实现了超高速的跟踪性能。核函数逐点循环跟踪(Circlulant Structure with Kernels,CSK)和核相关滤波器(Kernelized Corrleation Filters,KCF)都是基于MOSSE改进的算法。CSK提出结合核方法解决跟踪问题,KCF提出循环矩阵提高跟踪速度。基于相关滤波的算法相较于同期其他跟踪算法具有更高的鲁棒性,不仅可以实现超高的算法效率,而且具有良好的精度,但是在复杂场景中进行跟踪时,漂移现象时有发生,极大地制约了相关滤波跟踪的性能。尽管有各种改进的方法如大边距循环跟踪(Large Margin with Circulant Feature,LMCF)、连续卷积算子跟踪(Continues Convolution Operators for Tracking,C-COT)等提高了精度,但是运行速度小于每秒1帧,以速度降低为代价提升了精确度,体现不出相关滤波的高速优势。
基于回归的深度学习框架加快了计算的速度,使算法更加实用,以孪生神经网络为基础的深度学习算法的发展尤为突出。全卷积暹罗网络(Fully Convolutional Siamese Networks,SiamFC)通过权重相同的两个同框架网络衡量两个输入的相近程度,使用深度卷积神经网络AlexNet的SiamFC首先创建了跟踪领域端到端的相关滤波与深度学习结合的方法。基于区域跟踪的暹罗网络(Siamese Region Proposal Network,SiamRPN)进一步提高了基于孪生思想的算法精度,它在预测跟踪轨迹前先粗略地预测目标的尺度和位置。干扰感知暹罗网络(Distraction-Aware Siamese Networks,DaSiamRPN)通过数据增强使算法拥有鉴别同类目标的抗千扰能力,在视觉目标跟踪挑战(Visual Object Tracking,VOT)上的性能超越了当时的高效卷积跟踪算子(Efficient Convolutional Operators,ECO)。进化暹罗网络的视觉跟踪算法(Evolution of Siamese Visual Tracking,Siam RPN++)引入深度残差网络(Resual Network,ResNet)和区域候选网络(Region Proposal Networs,RPN)等结构,成为2015在线目标跟踪评估基准(Online Tracking Benchmark 2015,OTB2015)上的第一名。跟踪算法前沿研究方向如下图所示。
由于多目标跟踪任务的景像繁杂性,它的建模困难得多。单目标跟踪是对一个目标连续数据的滤波。多目标除了需要实现邻接两帧之间相同目标多个数据的联系之外,同时也存在着频繁遮挡、目标偏小、目标相似性明显、运动轨迹起止时间未知等问题。在设计多目标跟踪算法时主要从以下方面进行考虑:一是如何判断同一帧图像内不同跟踪对象的相似度,涉及到包括外观特征、运动特征等特征提取的建模;二是如何识别不同帧之间的相同目标,涉及到数据关联和目标检测。
多目标的跟踪策略主要有两种,一是基于检测的跟踪(Tracking By Detection,TBD),另一种是基于初始框的跟踪(Detection Free Tracking,DFT), 上图清晰地表现了两类算法的区别。DFT与单目标跟踪有相似之处,都需要在初始化目标时由人工标记视频第一帧中的目标,然后在检测的同时进行跟踪。由于人工初始化的方式无法标记第一帧中没有出现过的目标,而多目标跟踪本身包含新旧目标消失出现的场景,因此在跟踪过程中出现的未经人工初始化的新目标将无法被跟踪。
人工标注的不完整性会造成跟踪结果的不稳定性,因而TBD比DFT更常用,也是目前学术界和工业界主流的多目标跟踪策略。
TBD是指基于检测进行跟踪,基于TBD策略的MOT包括一个独立的检测过程、一个检测结果和跟踪器轨迹连接的过程。TBD跟踪目标的数量和类型都与检测算法的结果相关,通常检测结果具有一定的不可预测性,所以该方法的性能基本取决于检测成果的好坏。简单的在线和实时深度关联度量足艮踪(Simple Online Realtime Tracking with Deep Assocation Metric,DeepSORT)是基于TBD策略的MOT算法,通过设计检测结果和跟踪预测结果的关联策略实现跟踪。此外基于TBD的算法还有降低检测不稳定性影响的基于深度学习候选人选择与再识别的实时多跟踪(Multiple Tracking with Deeply Selection,MOTDT)。