准确和鲁棒的视觉目标跟踪是最具挑战性和最基本的计算机视觉问题之一。它需要估计图像序列中目标的轨迹,仅考虑其初始位置和分割,或者以边界框的形式粗略近似。鉴别相关滤波器(DCF)和深度Siamese 网络(SNs)已经成为主要的跟踪范例,这促进了领域的重大发展。随着视觉目标跟踪在过去十年中的快速发展,本次综述基于九个跟踪基准的结果,对90多个DCF和Siamese 跟踪器进行了系统和全面的审查。首先介绍了DCF和Siamese 跟踪核心公式的背景理论。然后,区分并全面回顾了这两种跟踪范式中的共享和特定开放研究挑战。此外,论文还深入分析了DCF和Siamese 跟踪器在九个基准上的性能,涵盖了视觉跟踪的不同实验方面:数据集、评估指标、性能和速度比较。在分析的基础上,针对突出的开放挑战提出建议,从而完成调查。
视觉目标跟踪(VOT)是计算机视觉中的一个基本开放问题,任务是估计图像序列中目标的轨迹和状态。VOT具有广泛的应用,包括自动驾驶、机器人、智能视频监控、运动分析和医学成像。给定任意目标对象的初始状态,VOT中的主要挑战是学习在后续帧中搜索目标对象时使用的外观模型。近年来,由于引入了多种跟踪基准,如TrackingNet、VOT2018和GOT-10K,VOT受到了极大的关注。尽管最近取得了进展,VOT仍然是一个开放的研究问题,可能比以往任何时候都更加活跃。
通用目标跟踪的核心挑战是在线学习任意目标的外观模型,仅考虑其初始状态。几个现实世界的因素使学习准确的外观模型变得复杂,例如,目标对象可能经历部分或完全遮挡、比例变化和变形。此外,还有影响目标外观的环境因素,包括照明变化和运动模糊,另一个因素是场景通常包括具有相似外观的对象或背景结构,这些对象或背景容易与目标本身混淆。为了应对这些挑战,文献中提出了大量的跟踪器,这些跟踪器有助于提高跟踪的技术水平(SOTA)!
在过去十年中,鉴别相关滤波器(DCF)和深度Siamese 网络(SN)一直是VOT的两个最突出的范例。在基于DCF的跟踪中,通过最小化最小二乘损失,在感兴趣区域上在线训练相关滤波器。然后通过快速傅里叶变换(FFT)卷积训练滤波器,在连续帧中检测目标。在深度Siamese 跟踪框架中,通过最大化目标和背景外观之间的距离,同时最小化两个补丁与目标本身之间的距离来离线学习嵌入空间。SN由两个相同的子分支组成:一个用于目标模板,另一个用于搜索区域。网络将模板和搜索区域都作为输入,并输出搜索区域中每个位置与目标的局部相似度。随着DCF和SN的设计,近年来跟踪界主要关注这两种范式,多年来,这两个框架显著提高了若干数据集的跟踪性能,如VOT数据集的性能改善,如图1所示。
本文对流行的基于DCF和Siamese 的跟踪范式进行了系统的回顾。两种范式都有相同的目标,即学习一个准确的目标外观模型,该模型可以有效地将目标对象与背景区分开来。尽管在解决上述目标方面出现了不同的基本范式,但深度学习给这两种范式带来了一些重要的相似之处和共同的挑战。例如,(i)特征表示:两种范式都利用不同的特征表示来估计目标平移和尺度变化,利用从预训练网络中提取的深度特征表示是两种范式共享的最近趋势。然而,在这两种跟踪范式中,深度架构和特征层次的选择仍然是一个开放的问题。(ii)目标状态估计:DCF和Siamese 跟踪器的核心公式仅涉及如何估计目标对象的平移。因此,两种范式都没有提供用于估计完整目标状态的显式方法,例如,处理由边界框参数化的细长对象,这在大多数应用中至关重要。(iii)离线培训:虽然最初只有Siamese 跟踪受益于端到端离线培训,但最近的DCF跟踪[5]、[24]也利用大规模离线学习,将其与高效且可区分的在线学习模块集成,以实现稳健的跟踪!
这两种流行的范式虽然有共同的属性,但也有特定的问题。例如,(i)边界伪影:DCF跟踪器通常利用训练样本的周期性假设来学习在线分类器,这引入了严重降低目标模型质量的不期望的边界效应。(ii)优化:损失函数最小化也给DCF跟踪器带来了挑战,特别是当目标特定约束(如空间或时间等)在回归损失内正则化时。(iii)在线模型适应性:当目标外观因照明条件或快速运动等的变化而发生变化时,预计学习的模型能够应对这些变化。DCF跟踪器具有通过损失函数随时间更新外观模型的能力。在第一帧,DCF通过FFT有效地建立前景和背景的模型,保证目标周围的高斯峰值响应。另一方面,Siamese跟踪没有继承这种在线模型更新机制。Siamese 跟踪器要么依赖于预训练的特征空间的适合性以及其中的互相关,要么通过微调深度网络来适应当前对象和背景,这在计算上是昂贵的操作,因此,在线适应性是Siamese 跟踪器的一个重要问题!
此外,还有一些概念可以在两种范式之间相互转化。例如,可以在端到端DCF跟踪pipelines中使用基于深度anchor的或anchor-free的边界框回归,DCF跟踪器利用了更深层次网络的潜力,ResNet驱动的DCF跟踪器可以进一步用于稳健的外观建模。虽然只有DCF跟踪器具有在线更新外观模型的能力,但该组件也可用于Siamese跟踪管道中的时间外观建模。Siamese跟踪器采用了鲁棒的多通道特征融合,其中离线优化了权重,DCF跟踪器缺乏这种能力,因此可能利用这种技术。Siamese跟踪器可以从空间或时空正则化中受益,以在计算互相关层内的相关响应图时惩罚背景像素。这些见解为基于两种范式中的最佳模式开发强大的跟踪框架开辟了新的可能性。
本次调查与之前的VOT调查之间的主要差异如下。与以往的VOT调查不同,本文仅关注两种表现最好的跟踪范式,即DCF和SN。论文提出了DCF和Siamese跟踪核心点以及广泛的背景理论。然后,提供了90多个DCF和Siamese跟踪器的概述,以及这两种范式向基于分割的跟踪演变。
DCFS和Siamese跟踪范式介绍
1.鉴别相关滤波器
判别相关滤波器(DCF)是一种用于学习线性回归的监督技术。近年来,基于DCF的跟踪器在多个跟踪基准上表现出优异的性能,DCF成功的关键是通过循环移位训练样本实现的密集采样的计算效率近似,这允许在学习和应用相关滤波器时使用快速傅里叶变换(FFT)。通过利用傅里叶变换的特性,DCF在线学习相关滤波器,通过有效地最小化最小二乘输出误差来在连续帧中定位目标对象。为了估计下一帧中的目标位置,之后将学习滤波器应用于最大响应的目标位置的感兴趣区域。然后通过用该估计值注释新样本,以迭代方式更新过滤器。
标准DCF跟踪pipelines
对于跟踪,DCF首先在线学习滤波器w,然后通过检测执行跟踪。一旦在当前帧中跟踪目标,则递归地学习模型,DCF跟踪pipelines的框图如图2所示。
目标检测:设m为当前图像帧的编号,在其中定位目标。从上一帧中,得到滤波器w_{m-1},其自初始帧以来已被递归更新。提取以预测目标位置为中心的图像块z,这里,z具有与训练补丁x_j相同的大小N_1×N_2。然后通过应用学习滤波器使用卷积预测每个位置n的目标分数s(n)∈ Ω !
Model update:
2.Siamese Tracking
深度学习模型彻底改变了许多机器学习应用,成功的关键是在大量数据上离线学习功能。这种离线训练模型能够从大量注释数据中学习复杂而丰富的关系,通过将其作为相似性学习问题,端到端离线训练模型也被用于通用目标跟踪。深度SNs已被广泛用于学习目标图像和搜索图像区域之间的相似性,SNs首先用于签名验证任务,然后适用于其他应用,包括指纹识别、立体匹配、地面到空中图像匹配和局部补丁描述符学习。在VOT中,离线深度网络在大量目标图像对上进行训练,以在训练期间学习匹配函数,然后在跟踪期间在线评估该网络作为函数。Bertineto等人揭示了SN的威力,并提出了VOT的完全卷积SN(SiamFC),SiamFC使用了主干特征提取器,并比较了相似性以确定目标对象在每个帧中的位置。
它还利用了使搜索可行的完全卷积特性,并被大多数后续基于SNs的跟踪器采用。SiamFC由两个分支组成,模板分支和检测分支。模板分支接收前一帧中的目标图像块作为输入,而检测分支接收当前帧中的图像块作为输出。这两个分支共享CNN参数,使得两个图像块编码适合于跟踪的相同变换,SiamFC的跟踪pipelines如图3所示。
SN的主要目的是克服预训练的深度神经网络的局限性,并充分利用端到端学习的优势在实时应用上。离线训练视频用于指导Siamese 跟踪器处理各种跟踪挑战,包括旋转、视点变化和照明变化等,并在连续帧中定位目标对象!
训练pipelines在SiamFC中,考虑一对训练图像(x,z),大小为127×127×3的输入x是从第一帧中目标的GT框导出的参考图像。大小为255×255×3的输入z是每个帧的较大搜索区域。将这些对(x,z)输入到CNN中以获得两个特征图(例如,使用主干架构的最后一层)。通过使用相同权重的相同子网络,参考图像被编码为大小6×6×128的特征向量,搜索区域被嵌入为大小为22×22×128的特性向量,然后使用互相关来匹配两个特征图!
目标是响应图g_ρ(x,z)的最大值对应于目标位置,为了实现这一目标,网络在从视频集合中提取的数百万对随机对上进行离线训练,以跟踪通用对象,logistic loss的平均值通常用于训练网络:
测试pipelines
为了证明SiamFC的有效性及其在大规模数据集上训练时的泛化能力,采用了一种简单的跟踪算法,首先提取新帧中x和z的特征表示。然后将x的特征表示与z的特征表示进行比较,这是通过提取以先前估计为中心的窗口在每个新帧中获得的位置,面积为目标大小的四倍。然后对两个特征图进行互相关,得到大小为17×17×1的分数,还对相关图使用余弦窗来惩罚大位移。分数图中最高分数的位置被恢复到其相应位置,该位置被选为该帧的预测边界框中心。最初的SiamFC跟踪器在GPU上以140FPS的实时速度获得了令人惊讶的好结果。但是,它不会更新模型,因此无法处理较大的外观变化。本着同样的精神,Tao等人提出了SINT,其中欧几里得距离被用作相似性度量,而不是互相关,Held等人提出了GOTURN,其中使用了边界框回归。类似地,Valmadre等人提出了CFNET,其中相关滤波器作为匹配函数中的单独块添加到x中,并使该网络更浅但更有效。
凭借这些跟踪优势,SiamFC还缺少目标规模估计组件。为了解决这个问题,区域建议网络(RPN)用于预测传统SiamFC跟踪器内的目标规模,RPN获取输入图像并估计一组矩形目标建议,每个建议都有一个对象性得分,为此,在最后一个卷积层输出的卷积特征图上滑动一个小网络。Li等人提出了SiamRPN跟踪器,该跟踪器包含RPN组件。
SiamRPN的输出包括一个分类和一个回归分支,用于对位置和尺度估计的目标边界框进行回归。与经典SiamFC跟踪器相比,SiamRPN显示出更高的精度,因此,SNs在推理和离线学习中都具有计算效率。SNs已经证明了SOTA跟踪性能,因此在跟踪社区中受到了很多关注,图4显示了文献中有影响力的Siamese 追踪器!
DCFS和Siamese 跟踪范式的常见开放问题
本节主要讨论两种范式的共同挑战,包括主干架构、目标状态估计、这些跟踪器向基于分割的跟踪器演变,以及将这些跟踪器集成到多目标跟踪pipelines中。
主干结构
在离线训练中,骨干特征提取网络在捕获目标的低级细粒度和高级语义信息方面起着主导作用。这里,骨干网络,如AlexNet、VGG-16或VGG-19和ResNet18或ResNet50,用于优化跟踪数据集上的深度特征。与依赖于预训练的网络不同,任务特定的深度特征学习有助于改进跟踪问题本身的表示,这两种跟踪模式都证明了使用强大骨干网络取得了令人鼓舞的性能。
例如,Valmadre等人提出了一种CFNET,它以离线方式跟踪相关滤波器的端到端学习。CFNET采用AlexNet模型的变体,并利用所有卷积层进行消融研究。第二个卷积层显示了有希望的跟踪结果。其他跟踪器,如CREST[118]和ACFN[18]也以在线方式遵循相同的策略。CREST利用VGG-16模型从conv4-3层提取特征图,使用PCA降维将特征通道减少到64个。在这些跟踪器中,目标是改进目标回归。与利用从预训练网络中提取的深度特征的跟踪器相比,这些方法表现出了相当的性能。最近,ATOM中引入了端到端目标尺度估计组件,而DiMP和PrDiMP中改进了经典DCF模型的分辨强度,ATOM利用ResNet-18预训练模型作为骨干网络。对于目标分类,它使用块4特征,而目标估计组件同时使用块3和4特征。DiMP和PrDiMP采用ResNet-18和ResNet-50 backbone架构,他们利用从第三块提取的特征进行模型预测。DCF跟踪器中端到端特征学习的最新趋势[5],[24],[26]在多个基准上产生了优异的跟踪性能,为探索DCF中更复杂的端到端特性学习铺平了道路。
在早期的Siamese 跟踪器(例如,SiamFC、GOTURN、SINT、SiamRPN)中,对修改的预训练AlexNet进行了微调。SiamFC使用五层提取卷积特征,并利用最后一层特征进行离线训练。GOTURN使用所有层提取特征,并利用最后一个完全连接层的特征来训练目标函数。使用从主干提取的一组不同特征,SINT显示出显著的性能改进。SiamRPN固定了前三个卷积层,仅微调了最后两个卷积层。各种跟踪器(FlowTrack、MemTrack和EAST)也使用了AlexNet。然而,据观察,这些跟踪器的性能仍然有限,因为AlexNet是一个相对较浅的网络,并且不会产生非常强的特征表示。
Li等人提出了ResNet驱动的SiamRPN++跟踪器,在SNs中,当在没有零填充的情况下使用修改的AlexNet时,目标的学习空间特征表示不满足空间平移不变性约束。
SiamRPN++采用了ResNet-50架构,并对其进行了一些改进,以适应跟踪任务,SiamRPN++利用conv3、conv4和conv5块的输出,并将它们送入三个SiamRPN模块。对于多层特征融合,还引入了加权和和深度互相关模块,提出了一种融合不同卷积块的丰富特征表示的分层聚合。三个RPN模块的输出具有相同的空间大小。三个输出的加权和用于生成最终特征图,权重与网络一起离线端到端优化。由于深度架构,SiamRPN++可能具有更多的参数,这些参数需要更多的计算资源,并降低了跟踪速度。因此,与前代相比,跟踪器还配备了深度互相关层以提高效率。在搜索区域和模板区域之间执行深度方向的互相关,以获得多通道响应图,然后将响应与1×1核卷积,以将其维数减少到更少的信道。使用该技术,通过降维显著减少了参数的数量,并稳定了训练过程,最后的降维响应图被用作分类和回归分支的输入。
利用深度ResNet架构,许多Siamese 跟踪器的性能得到了改善。Zhang等人也研究了相同的问题,并提出了SiamDW,其中浅骨干AlexNet被深度网络取代,包括Inception、VGG-19和ResNet。据调查,除了特征填充之外,神经元的感受野和网络跨步也是这样一个更深的网络不能直接取代浅层网络的主要原因。此外,还评估了来自不同层和不同架构的特征,并将性能最佳的候选特征和架构用于跟踪器。这两项研究中的结果表明,与经典的基于SNs的跟踪器相比,具有优异的性能。有了这些基础,包括SiamCAR、Ocean和SiamBAN等在内的最新跟踪器也采用了强大的深度架构。这些最近的跟踪器从ResNet-50的最后三个残余块中提取特征,并融合以获得多通道响应图。ResNet骨干网由于其简单性和强大的性能,已成为Siamese 跟踪的既定首选方案。此外,深度互相关对于获得多通道特征图也引起了极大的关注。然而,视觉transformer网络的最新进展预计将在未来几年对跟踪社区产生重大影响。
目标状态估计
这两种跟踪范式在准确性和鲁棒性方面都显示了很有希望的结果。但是,当目标移动时,其模板大小(也称为边界框大小)也会发生变化,这两种范式都面临严重的scale变化挑战。因此,准确的尺度估计对这些跟踪器提出了巨大的挑战,处理bounding box大小以实现精确的目标尺度估计是一个既定的研究方向。跟踪社区在这方面取得了显著进展,并提出了处理这一问题的潜在解决方案,本文讨论了为两种范式提出的尺度估计方法!
多分辨率尺度搜索方法:DCF中的一种直接策略是在不同的图像尺度上应用学习的平移滤波器w。也就是说,首先通过不同的比例因子调整图像的大小,然后进行特征提取。将每个尺度上的特征图与学习滤波器w卷积以计算目标分数,就可以通过找到所有尺度上的最大得分来估计目标位置和尺度的变化。这是一种常见的策略,通常应用于跟踪和检测。Li等人提出了SAMF跟踪器,其中使用标准DCF公式联合训练平移和缩放滤波器,结果表明,与标准DCF相比,性能显著提高。这种比例自适应组件已用于许多基于DCF的跟踪器,如CACF、CFAT和FD-KCF。然而,这种方法具有较高的计算成本,因为必须以多个分辨率应用平移滤波器以实现缩放精度。Siamese 跟踪器也受益于这种scale估计方法,在经典SiamFC中,通过组合一小批缩放图像,在一次前向扫描中搜索多个尺度,然后计算最大响应。包括RASNET、SA Siam、StructSiam、UDT、UDT++、TADT、GradNet、RTINET和FlowTrack在内的早期跟踪器都采用了这种方法。
判别尺度空间搜索方法:Danelljan等人提出了DCF跟踪中精确尺度估计的替代策略。与[79]不同,目标估计分两步进行,以避免exhaustive search在尺度和平移上。由于两个帧之间的尺度变化通常较小或中等,因此首先通过在当前尺度估计处应用正常平移滤波器w来找到目标平移。然后,在比例维度中应用单独的一维filter来更新目标大小。尺度滤波器类似于平移滤波器进行训练,但通过从一组不同尺度中提取目标外观的样本来在尺度维度上操作。上述比例滤波器方法的优点有两方面。首先,通过减少搜索空间来提高计算效率;第二,训练尺度滤波器以区分不同尺度下目标的外观,这可以导致更准确的估计。所提出的比例滤波器组件已用于多种跟踪器,包括STAPLE、MUSTer、ASRCF、CACF、BACF、CSR-DCF、MCCT和LCT。此外,后续的fDSST跟踪器通过应用PCA和子网格插值减少了DSST的计算成本。Siamese tracker无法探索这种scale估计技术!
边界框回归方法:上述方法显示了改进的性能,然而,它们取决于比例因子参数和在线准确的滤波器响应,这些方法不会以离线方式利用深度特征表示。因此,这些方法在出现突然的scale变化时表现出性能下降。精确的目标尺度估计是一项复杂的任务,需要高层次的先验知识。边界框取决于目标的姿态和view,不能将其建模为简单的图像变换(例如,统一图像缩放),因此,在线学习准确的目标估计非常困难!在目标检测方法中,box回归已被广泛用于目标精确定位。为了利用端到端深度特征学习的优势进行目标尺度估计,该组件最近被用于基于DCFs的跟踪器。在ATOM中,受IoU Net的启发,训练了特定于目标的特征。由于原始IoU Net是类特定的,因此不适合通用跟踪,因此提出了一种新的架构,用于将目标特定信息集成到IoU预测中。这是通过引入基于调制的网络组件来实现的,该组件将目标外观结合在参考图像中以获得目标特定的IoU估计,这进一步使目标估计组件能够在大规模数据集上离线训练。在跟踪期间,通过简单地最大化每个帧中的预测IoU重叠来找到目标边界框。结果表明,与经典的多尺度搜索方法相比,性能有了显著提高。最近的几个DCF跟踪器,包括DiMP、PrDiMP和KYS,也使用了这种策略进行状态估计。在PrDiMP中,它使用基于能量的模型来预测边界框的非归一化概率密度,而不是预测IoU。这是通过最小化KL散度到标签噪声的高斯模型来训练的。Siamese tracker还探索了用于尺度估计的bounding box方法。文献中提出了两种不同类型的方法,包括基于anchor的和anchor-free的box回归。
Anchor-based Bounding Box Regression Method:Li等人提出了RPN驱动的Siamese 跟踪器,其输出分类(Lcls)和回归(Lreg)分量,用于估计位置和比例。与采用多尺度搜索进行尺度估计的SiamFC不同,SiamRPN首先在每个卷积特征地图位置初始化不同尺度和纵横比的前K个方案(即所谓的锚),并应用一些策略来确定其中的最佳方案。它丢弃了生成的距离中心太远的边界框,并通过对分数应用余弦窗口和比例变化惩罚来重新排列提案。RPN共享特征,从而实现高效的区域建议计算。与经典的多尺度空间搜索方法相比,该方法改进了Siamese 跟踪范式。许多最新的跟踪器,如DaSiamRPN、SiamRPN++、SiamDW、SPLT、C-RPN、SiamAttn、CSA和SPM等,也基于相同的概念。
Anchor-free Bounding Box Regression Method: Chen等人提出了SiamBAN跟踪器,其中使用anchor-free box回归来估计目标scale。跟踪器避免了与没有任何预设锚框的目标边界框关联的超参数。跟踪器利用全卷积网络的表达能力对目标进行分类,并以统一的方式回归其边界框。与SiamRPN类似,SiamBAN包括分类模块,其对相关层的每个点执行前景背景分类,回归模块对相应位置执行边界框预测。虽然基于anchor的边界框回归可以处理Siamese 跟踪器中的比例和纵横比变化,但它主要有两个缺点。首先,它通常需要一组非常大的anchor来覆盖图像中的几乎所有对象,并且由于图像中的目标可能只占据很小的区域,在正样本和负样本之间产生巨大的差距,这会大大降低预测模型的性能。其次,anchor的使用引入了许多超参数和选择,包括anchor的数量、尺寸和纵横比。在某种程度上,更好的跟踪结果在很大程度上取决于预设的anchor。另一方面,基于anchor-free边界框回归的跟踪器不需要选择具有先验知识的框。它的最大优点是根据网络的输出直接预测对象的类别和位置信息,而无需设置先验框的繁琐过程。由于其简单和方便,与基于anchor的RPN尺度估计方法相比,anchor-free跟踪器进一步提高了跟踪性能。Ocean和SiamCAR跟踪器也使用了相同的方法进行尺度估计,目标检测能力在两种范式的目标状态估计组件中都取得了显著进展。使用RPN和anchor-free边界框回归的最新趋势揭示了在端到端模式中进一步探索这些技术。基于深度DCF的跟踪器还可以利用这些基于anchor的和anchor-free的回归方法进行鲁棒跟踪。
Offline Training
为了解决这个问题,跟踪社区通过利用外部图像和视频数据集学习外观模型,取得了显著进展。目标检测、图像分类和目标分割数据集(包括ImageNet ILSVRC2014、ILSVRC2015、COCO、YouTubeBB和YouTube VOS)已被这两个跟踪器家族广泛使用。这些数据集充分覆盖了大量的语义,并且不关注特定的对象,否则,调整后的网络参数将过度适合离线训练中的特定对象类别,数据集通常用每帧中目标对象的边界框进行注释。
端到端DCF跟踪器充分利用大规模训练数据集来学习稳健的判别模型。例如,CFNET、ATOM、DiMP和PrDiMP使用了TrackingNet、LaSOT、GOT10K、ILSVRC2014和COCO数据集以及一些增强技术。DiMP从序列中输入一组多个训练样本,并在成对的训练和测试集上进行训练。每组由与其边界框配对的图像组成,然后使用训练样本预测目标模型,在测试帧上进行评估,ATOM和PrDiMP跟踪器采用了相同的策略。在Siamese 跟踪中,使用图像对训练网络,使用一幅图像预测目标模板,另一幅图像评估跟踪器。与DCF范式不同,标准Siamese 公式不能在跟踪过程中利用已知干扰物的外观。因此,当与目标本身相似的物体出现时,Siamese 的方法往往会遇到困难。例如,当视图中有相同语义类的其他对象时,就会发生这种情况。早期Siamese tracker在训练期间仅从同一视频中采集训练图像对,这种抽样策略不关注具有语义相似的干扰物对象的挑战性案例。为了解决这个问题,文献中已经开发了hard negative开采技术。例如,Zhu等人在DaSiamRPN中引入了hard negative挖掘技术,通过在训练过程中加入更多的语义hard negative对来克服数据不平衡问题。构建的负对由相同和不同类别的标记目标组成,该技术帮助DaSiamRPN通过更多地关注细粒度表示来克服漂移。Voigtlander等人提出了另一种使用嵌入网络和最近邻近似的hard negative挖掘技术。对于每个GT边界框,使用预训练的网络为相似的目标外观提取嵌入向量。然后使用索引结构来估计近似最近邻居,并使用它们来估计嵌入空间中目标对象的最近邻居。利用更多训练数据和设计数据挖掘技术的这一最新趋势已在多个基准上显示出优异的跟踪性能,为探索离线训练中更复杂的技术打开了许多大门!
两种范式向基于分割的跟踪器演变
精确的目标分割为跟踪提供了可靠的对象观察,分割和跟踪的结合可以解决几个跟踪问题,包括旋转边界框、遮挡、变形和缩放等,并从根本上避免跟踪失败。因此,分割分支可以充当跟踪器的补充组件。在文献中,基于分割的方法已被纳入DCF和基于Siamese的跟踪器中,用于在存在非矩形目标的情况下改进滤波器学习。例如,在DCF跟踪中,Bertineto等人使用基于颜色直方图的分割方法来改善在变化的照明变化、运动模糊和目标变形下的跟踪。Lukezic等人提出了一种使用基于颜色的分割方法来正则化滤波器学习的空间可靠性图,提出了一种使用手工特征的实时跟踪器,并使用深度特征实现了类似的性能。Kart等人将CSR-DCF跟踪器扩展为基于颜色和深度分割的RGB深度跟踪,因为深度线索提供了更可靠的分割图。Lukezic等人提出了一种单镜头分割跟踪器,以解决联合框架内的VOT和视频目标分割问题。目标用两个判别模型编码,用于联合跟踪以及分割任务。许多跟踪和分割基准都报告了结果,并证明了其好处。最近,Robinson等人使用从ATOM借来的快速优化方案,为视频对象分割任务采用了一种强大的判别模型,Bhat等人也使用目标模型辨别能力进行更稳健的视频目标分割。
最近,SNs也被扩展以执行视频对象分割和跟踪。Siamese跟踪器速度很快,提供实时性能,而视频分割方法速度慢且不实时,因此,将这两个问题结合起来,可以为跟踪和分割提供有效的解决方案。Wang等人提出了一个SN来同时估计二进制掩码、边界框和相应的背景前景得分,这种多级深度网络缺乏联合处理视觉跟踪和目标分割以提高鲁棒性的机会。Lu等人采用了无监督视频对象分割任务,其中基于SN[90]内的共同关注机制提出了一种新的架构。
多目标跟踪pipelines中两种范式的集成
多目标跟踪(MOT)是估计视频序列中多个目标的轨迹的任务。MOT具有挑战性,因为成功的方法不仅需要在每一帧中准确检测感兴趣的对象,还需要在整个视频中关联它们。尽管DCF和Siamese跟踪器有希望朝着单目标跟踪的方向发展,但这两种范式也已集成到MOT管道中,以定位每帧中的多个目标。例如,Zhu等人在统一框架中集成了ECO跟踪器,以处理鲁棒目标关联的噪声检测[173]。Chu等人将区分性实例感知KCF跟踪器集成到MOT框架中[20]。最近,Zhou等人,基于综合分割的判别跟踪器用于多对象分割[171]。跟踪器分支在线训练每个目标的单独单个目标跟踪模型,以将目标与其周围目标区分开来。
Taixe等人提出了MOT中第一批用于目标关联的SN。Yin等人整合了经典的SiamFC跟踪器,并提供了一个统一的模型来估计对象运动和亲和网络。最近的研究还成功地整合了SiamRPN和GOTURN跟踪器,以在存在闭塞的情况下提高MOT性能。上述MOT方法提高了鲁棒性,并减轻了在存在单个对象跟踪器的情况下对外部检测器的依赖。利用单目标跟踪范式作为MOT模型的一个组成部分的这一最新趋势在多个基准上表现出了优异的性能,为进一步探索DCF和SN的固有特性开辟了新的方向!
原文首发微信公众号【自动驾驶之心】:一个专注自动驾驶与AI的社区(https://mp.weixin.qq.com/s/NK-0tfm_5KxmOfFHpK5mBA)