DCFS和Siamese跟踪器的明显开放问题
DCF跟踪pipeline中的显著问题
尽管具有重要的有前途特性,但标准DCF框架在应用于通用对象跟踪任务时面临着几个不同的挑战,包括特征表示、边界伪影和优化。下面我们确定并讨论了开发基于DCF的跟踪pipeline的这些重要挑战!
1)特征表达
在目标跟踪中,文献中研究了各种视觉特征。当应用线性判别模型(如DCF)时,找到有区别但不变的特征尤其重要,因为DCF仅限于找到线性决策边界。已经在基于DCF的跟踪框架内探索了手工制作的特征[22]、[39]、[129]、深度特征[13]、[51]、[116]、混合特征和端到端特征学习[24]。接下来将详细介绍基于DCF的跟踪器中使用的不同类型的功能。
手工制作的特点:早期的DCF跟踪器,如MOSSE和CSK,已经利用了强度特性进行目标跟踪。除了强度特征之外,局部颜色和强度直方图特征也用于DCF跟踪器,例如RPAC、LCT+、LCT和CACF。包括RGB和LAB在内的简单颜色表示已用于基于DCFs的跟踪器,如STAPLE(RGB)、SCT(RGB+LAB)和ACFN(RGB+AB)。为了实现更具辨别力的图像表示,ACA研究了不同的颜色描述符,并提出将颜色名称(CN)特征与强度通道一起使用。ACA跟踪器进一步引入了自适应降维技术来压缩CN特征,从而在速度和跟踪性能之间提供了折衷。CN特征也已用于几种后续的基于DCFs的跟踪器中,如MCCT、MKCF、MUSTer、CSR-DCF、CCOT、ECO、UPDT、AutoTrack、ARCF、GFS-DCF、RPCF和DRT。
基于DCF的跟踪器中采用的另一个流行的手工特征是定向梯度直方图(HOG),HOG通过收集图像梯度的统计信息来捕获形状信息,HOG形成在密集的图像网格中。在DCF范式中,KCF是第一个利用HOG特征进行跟踪的跟踪器。一些DCF跟踪器,如MCCF、CFLB、BACF、SRDCF、STRFC、RPCF、GFS-DCF、RPT、RCF、LMCF、PTAV、StruckCF、CFAT和LSART,已经利用了HOG特征。由于其速度和有效性,这些功能已成为手工方法中的首选。此外,HOG特征还被有效地与CN特征相结合,以利用形状和颜色信息。
深度特征:近年来,深度学习已使计算机视觉的许多领域发生了革命性变化。深度卷积神经网络(CNN)已证明特别适合于图像相关任务,他们将一系列可学习的卷积和非线性运算应用到图像上。然而,将深度特征用于目标跟踪已被证明具有挑战性,这主要是由于在深度学习的最初几年,用于跟踪的训练数据不足,以及特征的高维度。因此,许多基于DCF的跟踪器,如HCF、HDT、CCOT、ECO、ASRCF和RPCF,使用在ImageNet数据集上预训练的深度神经网络进行图像分类。尽管进行了分类训练,但这种深度表示适用于广泛的视觉任务。
在DCF框架内,从卷积层提取深度特征,Ma等人将分层深度卷积特征用于视觉跟踪,从每个卷积层计算相关响应图,然后将较小的权重分配给较早的层,并将较高的权重分配到较晚的层,以实现更精确的跟踪。HDT跟踪器还采用了来自同一网络的六个卷积层的深度特征。DeepSRDCF跟踪器使用imagenet-vgg-m-2048网络,并对用于跟踪的卷积特征图进行了分析,表明了浅层的重要性。浅层包含高空间分辨率的低层信息,对于精确的目标定位非常重要。另一方面,深层特征地图对复杂的外观变化(如变形和平面外旋转)具有高度不变性。因此,更深的层具有提高跟踪鲁棒性的潜力,同时在很大程度上不受小的平移和尺度变化的影响,在DCF框架内融合浅层和深层卷积层的精确策略一直是一个令人感兴趣的话题。在CCOT中,提出了DCF框架的连续域公式,该公式能够集成多分辨率特征。ECO研究了降低CCOT计算成本的策略,并缓解了过度拟合的风险。其他跟踪器,如HDT、HCF、MCCT、MCPF、MCPF、LMCF、STRRC、TRACA、DRT、UPDT和GFS-DCF,使用后期融合策略集成深度特征。该策略是在每个单独的特征表示,然后聚合特征响应图。
2)边界伪影
在DCF公式中,标准卷积被循环卷积有效地代替,以确保DFT的适用性,从而得到用于评估目标预测的公式。圆形卷积提高了计算效率,但作为缺点,它引入了不需要的边界伪影。DCF范式的基本概念是训练能够将目标与背景图像区域区分开来的滤波器w,由于周期性的影响,大部分原始背景内容被较小图像块的合成重复所取代。因此,该模型在训练过程中看到的背景样本较少,严重限制了其辨别能力。此外,由于周期性重复导致的失真,预测的目标分数仅在图像块的中心附近准确。因此,搜索区域的大小是有限的。正如传统上在信号处理中执行的那样,DCF方法通常通过将样本x乘以窗函数来预处理样本。然而,该技术并不试图解决上述问题,仅用于消除边界区域的不连续性。文献中提出了几种解决方案来克服上述边界伪影问题,为此,提出了几种方法,这些方法在DCF目标函数[21],[30],[42],[65],[74]中结合了目标特定的空间、时空和平滑度约束。
空间正则化:在SRDCF中,Danelljan等人提出了一个空间正则化框架来控制滤波器的空间范围,以缓解边界问题[30]。空间正则化组件被集成到多通道DCF公式中,如下:
约束优化:虽然SRDCF[30]旨在惩罚目标区域外的滤波器系数,但Kiani等人建议引入硬约束。该策略强制滤波器系数w(n)在目标区域外为零,所得DCF公式可通过引入二元掩模P来表示如下:
隐式方法:利用GFS-DCF,Xu等人提出了一种联合组特征选择模型,该模型同时学习三个正则化项,包括用于特征选择的空间正则化、用于特征信道选择的信道正则化和用于增强滤波器权重平滑度的低秩时间正则化项。Mueller等人提出正则化每个目标patches的上下文信息,在每一帧中,CACF对几个上下文patches进行采样,这些patches充当负样本。
空间公式:Danelljan等人和Bhat等人提出了ATOM和DiMP跟踪器。这两种跟踪器都采用低分辨率的深度特征(步幅16),以便首先粗略但稳健地定位目标对象。由于分辨率较低,目标滤波器尺寸较小,Danelljan等人发现,可以使用专用高效的迭代求解器在空间域中直接学习滤波器。这种方法允许ATOM和DiMP完全避免边界伪影问题,因为不执行训练样本的周期性扩展。基于正则化的(SRDCF,STRFC)和基于约束的(CFLB/BACF)公式都取得了巨大的成功,并在广泛的跟踪器中使用。然而,最近的深度学习方法(ATOM/DiMP)通过直接优化空间域中的滤波器,完全避免了边界伪影问题。因此,尽管傅里叶域在计算上对高分辨率特征地图很有吸引力,但当使用强大的低分辨率深度特征时,高效的空间域优化方法在在线学习中占优势。因此,最近在基于DCF的跟踪中构成当前SOTA的工作,[26]采用了纯空间公式,不需要额外的策略来缓解边界效应。通过进一步将滤波器扩展到多通道输出,后一种策略也证明了其用于分割。
3)Optimization
在标准DCF公式中,通过使用最小二乘解计算DFT系数进行推断。然而,当模型变得更加复杂和先进时,例如,通过引入多分辨率特征图和目标特定约束(如空间正则化和时间正则化),不能使用简单的最小二乘解来执行模型推断。由于计算效率在大多数应用中是一个关键因素,因此这些修改需要替代的推理方法。因此,在基于DCF的跟踪中,寻找有效且鲁棒的推理方案是一个关键问题。通过最小化多通道损耗来执行模型推断,这是DCF框架的基础。然而,它不允许任何有效的封闭形式解决方案。因此,许多DCF跟踪器(如CACF、CSK、KCF、MUSTer、SP-KCF和CFAT)在原始域或对偶域中使用可对角化情况来推导近似模型推断方案。这些损失函数分别依赖于单个特征信道D=1和单个训练样本m=1的非常严格的假设。此外,这些解决方案不能从上述额外的规则化中受益,文献中介绍了几种用于模型推断的有效优化方法,以最小化损失函数。
Gauss-Seidel方法:在线最小化DCF损失函数及其空间正则化变量是一个极具挑战性的问题,因为滤波器w包含数万或数十万个要优化的参数。在[30]中,提出了一种基于迭代高斯-塞德尔方法的优化方法,以最小化空间正则化损失函数。同样的策略也在其采用深度特征的变体DeepSRDCF中被考虑。通过采用基于Gauss-Seidel的优化,跟踪器实现了每秒几帧的跟踪速度。虽然还不是实时的,但与以前的方法相比,它表现出了卓越的鲁棒性和准确性,但比许多竞争对手更快。
基于共轭梯度的方法:为了为使用深度特征铺平道路并进一步提高计算效率,CCOT中使用了基于共轭梯度(CG)的策略,CG可以应用于任何一组满秩的正规方程Aw~=b。
交替方向乘子法(ADMM)方法:当经典DCF公式根据额外正则化增长时,该公式成为约束优化问题,可以使用有效的凸或非凸解算器(如基于ADMM的优化方法)来解决。ADMM方法最近被用于许多基于DCF的跟踪器中,以有效地解决DCF损失函数,特别是当引入额外的正则化时。基于ADMM的优化方法为每个子问题提供了封闭形式的解决方案,并在很少的迭代内经验收敛。在ADMM中,通过将模型分解成更小的部分来求解模型,这样就更容易处理。增广拉格朗日公式通常用于将约束优化模型转换为无约束模型,并将拉格朗日惩罚作为附加变量,然后以迭代方式解决无约束模型的每个子问题。BACF、DRT、AutoTrack、ARCF和RPCF等跟踪器已采用ADMM作为有效解决方案。ACFN、CREST和DSLT+跟踪器使用梯度下降等其他优化方法进行网络优化!
流行的选择:共轭梯度和ADMM(STRFC、BACF、RPCF、ASRCF、GFS-DCF和MCCT)都是DCF跟踪器的热门选择。两者都支持使用例如空间正则化或约束来减轻边界伪影所需的更复杂的DCF公式。最近的方法DiMP采用了空间域公式中的最陡下降,而PrDiMP将其与牛顿近似相结合,以最小化非线性KL发散目标。
Siamese跟踪pipelines中的显著问题
经典SN在精度和效率方面都优于DCF跟踪器,然而SN在离线训练中存在大量注释图像对、缺乏在线适应性和损失函数公式化方面也存在一些局限性。下面确定并讨论了开发基于Siamese强大跟踪器的重要挑战,还简要描述Siamese跟踪中这些问题的细节及其近年来开发的潜在解决方案。
1)Online Model Update
在SiamFC中,目标模板在第一帧中被初始化,然后在视频的其余部分保持固定。跟踪器不执行任何模型更新,因此,性能完全依赖于SN的一般匹配能力。然而,在存在跟踪挑战的情况下,外观变化通常很大,如果无法更新模型,则会导致跟踪器失败。在这种情况下,使模型适应当前目标外观非常重要。在文献中,跟踪社区还提出了这方面的潜在解决方案!
移动平均更新方法:许多最近的SOTA跟踪器,包括GOTURN、SINT和SiamAttn等,采用了一种简单的线性更新策略,使用固定学习率的运行平均值。虽然它提供了一种集成新信息的简单方法,但由于恒定的更新速率和简单的线性组合,跟踪器无法从漂移中恢复以前的外观模板。
学习动态SN方法:Guo等人提出了DSiam跟踪器,并设计了动态变换矩阵。包括目标外观变化和背景抑制在内的两个不同的在线变换矩阵被合并在经典SN中,这两个矩阵都在傅里叶域中用封闭形式的解来求解。DSiam提供了有效的在线学习,但它忽略了历史目标变化,这对于更平滑地适应示例模板很重要。
动态内存网络方法:Yang等人提出了MemTrack,它动态地写入和读取先前的模板,以应对目标外观变化,长期短期存储器用作存储器控制器。该网络的输入是搜索特征图,并且该网络输出用于存储器块的读取和写入过程的控制信号。该方法使跟踪器能够记住长期目标外观,然而,它只关注于结合先前的目标特征,而忽略了背景杂波中的辨别信息,这导致了在存在剧烈目标变化时的精度差距。为了解决这一不足,Yang等人提出了一种负记忆单元,该单元存储干扰物的模板,用于消除对象模板中的错误响应。
梯度引导方法:Li等人提出了GradNet,其中通过前馈和反向操作对梯度信息进行编码以更新目标模板。跟踪器利用来自梯度的信息来更新当前帧中的模板,然后合并自适应过程以简化基于梯度的优化过程。与上述方法不同,该方法充分利用了后向梯度中的判别信息,而不是仅仅集成先前的模板。与它他方法相比,这会提高性能,但是,以反向传播方式计算梯度会带来计算负担!
2)Loss Functions
跟踪性能还取决于SNs内采用的损失函数,SNs中使用了不同的损失函数,用于回归、分类或两项任务,下面将更详细地总结这些发展!
Logistic Loss:经典SiamFC采用Logistic Loss,包括DSiam、RASNET、SA-SIAM、CFNET、SiamDW和GradNet等在内的各种其它追踪器都使用了逻辑损失来训练基于SiamFC的模型。该训练方法通过最大化目标pos对上的相似性分数和最小化目标negative对上的相似度分数。
对比损失:定义为:
Triplet Loss: 上述损失仅利用图像之间的成对关系,而忽略了目标的正面和负面实例之间的潜在结构联系,Yan等人提出了SPLT跟踪器,其中在训练期间采用了Triplet Loss:
交叉熵损失:SNs中的分类成分通常从目标检测方法中借用。为了合并这一分支,使用了交叉熵损失(Lcls)。Li等人提出了采用交叉熵损失的SiamRPN跟踪器。其它跟踪器,如SiamRPN++[72]、SiamAttn[158]、Ocean[168]、CLNET[34]、SPM[131]、C-RPN[38]等,也已通过使用交叉熵损失的训练分类分支建立在SiamRPN跟踪器上。
回归损失:为了训练回归网络,使用了三种类型的损失函数,包括平滑L1范数、联合交叉(IoU)损失和正则化线性回归。在SiamRPN跟踪器[73]中,该范数用于训练回归分支,在此之后研究表明,包括SiamRPN++、SiamAttn、CLNET、SPM和C-RPN在内的其他跟踪器也使用smoothL1损失训练了跟踪器的回归分支。
正则化线性回归:为了用相关滤波器作为独立层来正则化SNs,在许多Siamese跟踪器中使用了线性回归损失,包括CFNET、TADT、RTINE、DSiam、FlowTrack、UDT和UDT++等。然后通过封闭形式的解决方案来解决岭回归问题,并以端到端的方式训练滤波器。从广义上讲,这些跟踪器的训练有点类似于端到端DCF训练。典的SiamFC使用强大的嵌入来定位目标对象,而无需在线模型更新。然而,使用固定的目标模板来比较外观可以防止学习者利用任何可能有助于辨别的视频特定线索。与经典Siamese跟踪不同,在这些跟踪器中使用相关滤波器作为单独的层有助于区分目标和背景区域,从而利用视频中的目标特定信息。目前,文献中对所采用的损失函数没有普遍共识,相反,最近的SOTA方法采用了不同的替代方案。在上述方法中,交叉熵损失仍然是一种流行的选择,对于最近的跟踪器也是如此。
实验比较
论文彻底分析了59个DCF和33个基于Siamese的跟踪器性能。这些跟踪器性能已经在九个跟踪基准上进行了定量比较:在线跟踪基准100(OTB100)、Temple Color 128(TC128)、无人机123(UAV)、视觉目标跟踪2014(VOT)、VOT2016、VOT2018、TrackingNet、大规模单目标跟踪(LaSOT)和通用目标跟踪10000(GOT-10K)。图5显示了来自不同跟踪基准的示例帧,比较跟踪器的定量结果直接取自各自的论文或其它论文。本文还评估了具有代表性的跟踪器,并再现了跟踪性能,以进行公平比较。
跟踪Datasets
为了对视觉跟踪器提供标准和公平的性能评估,随着时间的推移,提出了一些基准。除了short跟踪,最近的几个数据集提供了短期和长期跟踪序列。公开可用的基准数据集包含各种跟踪挑战,包括尺度变化(SV)、视野外(OV)、变形(DEF)、低分辨率(LR)、照明变化(IV)、面外旋转(OPR)、OCClusion(OCC)、背景杂波(BC)、快速运动(FM)、面内旋转(IPR)、运动模糊(MB)、部分OCClusions(POC)、相机突然运动(CM)、,纵横比变化(ARC)、全聚焦(FOC)、视点变化(VC)、相似物体(SOB)、物体颜色变化(OCC)、绝对运动(AM)、目标旋转(ROT)、场景复杂度(SCO)、快速相机运动(FCM)、低分辨率物体(LRO)和移动变化(MOC)。表1给出了实验比较中使用的每个数据集的描述,有关每个跟踪数据集的详细描述,请参阅补充材料。
Performance Evaluation Measures
为了比较跟踪器的性能,文献中提出了不同的评估指标,以评估鲁棒性、准确性和速度方面的有效性。
Precision Plot:精度图基于中心位置误差,该误差定义为目标物体的预测中心与帧中地面真实中心之间的平均欧几里德距离,然而,该误差不能准确地计算跟踪性能。因此,采用距离精度,其定义为目标对象位于T像素的中心位置误差内的帧的百分比,使用阈值T=20像素的该度量对跟踪器进行排名。通过绘制阈值范围内的距离精度来生成精度图。
平均重叠:该度量估计地面真实值和估计边界框之间的平均重叠,如成功图[60]所示。
SR0.50和SR0.75:这些度量表示测量成功跟踪帧百分比的成功率,其中重叠精度超过0.50和0.75的阈值。使用[140]中定义的一次通过评估标准来测量OTB100、TC128、UAV123和LaSOT数据集上的精度和跟踪性能。这些数据集上的跟踪器通过初始化第一帧上的边界框并让其运行到序列结束来评估,在VOT系列中,一旦跟踪器偏离目标,它就会重置。根据VOT评估协议[47]、[66]、[68],在精度(A)、鲁棒性(R)和预期平均重叠(EAO)度量方面比较跟踪器。A是成功跟踪期间预测和地面实况边界框之间的平均重叠。R测量跟踪器在跟踪过程中丢失目标(失败)的次数,一旦跟踪器丢失目标对象,重置机制会在一些帧后启动。EAO是跟踪器期望在具有与给定数据集相同视觉特性的大量短期序列上获得的平均重叠的估计量。
定量比较
表2、3、4和5显示了基于DCF的典型跟踪器在九个跟踪基准上的性能比较。虽然早期使用深度特征基于DCF的跟踪器在OTB100上取得了很好的性能,但它们在最近更具挑战性的大规模数据集(如LaSOT)上提供了较差的结果。例如,ECO在OTB上获得了91.0%的PR分数,但在LaSOT上仅获得30.1%的PR分数,相比之下,最近的端到端DCF框架,如DiMP及其继任者PrDiMP,在OTB100和LaSOT上都取得了令人印象深刻的性能。例如,PrDiMP在OTB100、UAV123和LaSOT上的PR得分分别为90.3%、87.8%和60.9%。在现有的基于DCF的跟踪器中,DiMP和PrDiMP在大多数基准上都取得了优异的结果。PrDiMP在UAV123、LaSOT和GOT10K上取得了顶级性能,同时在OTB100、VOT2016和VOT2018-ST上也取得了竞争性成绩(前三名)。这些现代DCF跟踪器(DiMP和[6],[26])的成功归功于其高效的端到端可训练架构,该架构能够通过充分利用目标和背景外观信息来学习有区别的目标模型预测。这些跟踪器使用特定的优化过程,在几次迭代中学习强大的模型。例如,PrDiMP利用更一般的牛顿近似来解决KL发散目标,此外,这些现代跟踪器包括专用的目标估计组件,以执行深度bounding box回归,并且还避免边界伪影的问题。
表2、表3、表4和表5还显示了代表性暹罗跟踪器在九个基准3上的性能比较。在最近的Siamese方法中,观察到跟踪器关注不同的基本问题,例如在线模型更新、重新检测组件、改进的区域细化、有效的box回归以及弥合对象跟踪和对象分割之间的差距。例如,SiamAttn引入了一种注意力机制,以自适应地更新目标模板,并在OTB100、UAV123、VOT2016上获得最佳性能,同时在LaSOT、VOT2018-ST和TrackingNet上也获得了竞争性的结果(排名前三)。SiamAttn在OTB100、UAV123、LaSOT和TrackingNet上的AUC得分分别为71.2%、65.0%、56.0%和75.2%。此外,它在VOT2016和VOT2018-ST上分别获得53.7%和47.0%的EAO分数。SiamRPN引入了基于锚的RPN组件,用于准确的规模估计,并获得了比SiamFC更好的性能(VOT2016上的EAO为34.4%)。SiamBAN引入无锚边界框回归,在VOT2016数据集上获得了超过SiamRPN 50.5%的最高性能。SiamR CNN引入了与基于tracklet的动态编程方案相结合的重新检测架构,并在TC128(64.9%的AUC分数)、LaSOT(64.8%的AUC得分)、GOT-10K(64.9%mAO分数)和TrackingNet(81.2%的AUC分)上获得了最高性能,同时在其他数据集上也获得了竞争性结果(在前三名中)。Ocean引入了一种方法来改进不精确的边界框预测以及学习对象感知特征,并在VOT2018-ST上获得了最佳性能(48.9%EAO分数)。D3S是一种单camera分割跟踪器,使用两个具有互补属性的目标模型,并在VOT2018-ST和VOT2020-ST上获得最佳结果(48.9%和43.9%EAO分数)。
图6显示了近年来不同基准(OTB100、LaSOT、GOT-10k和TrackingNet)的跟踪性能改进趋势。可以观察到近年来OTB100的性能已经饱和,几个视觉跟踪器获得了超过90%的PR分数(表2),这可能是由于许多相对容易的视频。然而,最近推出的LaSOT、GOT10K和TrackingNet都显示出类似的趋势,最近的跟踪器在这些数据集上取得了一致的改进。在图1中的VOT数据集上也观察到了类似的趋势,例如,LaSOT的最佳报告AUC评分仍在65%左右。类似地,尽管近年来在性能上有了令人印象深刻的飞跃,但仍有很大的空间来进一步提高VOT数据集中的跟踪性能。这表明,这些新的具有挑战性的基准对SOTA跟踪器来说仍然非常具有挑战性,它们的引入对推动视觉跟踪研究的边界做出了重大贡献。
本文还使用相同的训练数据集、相同数据集上的超参数调整以及相同机器上的速度比较,评估了一些具有代表性的SOTA跟踪器。有关更多实施细节,请参阅补充材料(第二节)。表6显示了这些代表性跟踪器的性能比较。总体而言,离线跟踪器在VOT数据集上表现出一致的性能改进。例如,DiMP是两个VOT数据集上基于DCF的跟踪器中表现最好的,EAO得分分别为49.1%和45.1%。同样,SiamCAR在Siamese追踪器中表现最好。用于尺度估计的无锚边界框回归组件也在SiamBAN和SiamCAR跟踪器中显示了有希望的性能改进。例如,与SiamRPN中使用的基于锚的尺度估计相比,与经典SiamFC跟踪器相比,SiamCAR中的无锚边界框回归实现了12.0%的改进和21.9%的改进。上述数据集也具有截然不同的性质和特征,LaSOT和UAV123含有长序列和多个干扰物。在这里实现高性能的跟踪器显示出强大的鲁棒性和重新检测能力。论文观察到,最近的跟踪器DiMP和PrDiMP获得了强大的结果,并且SiamR CNN中的干扰物感知轨迹生成提高了此类场景中的鲁棒性。与LaSOT相比,TrackingNet和GOT10k包含短序列,其中鲁棒性和重新检测能力的重要性要小得多。相反,这些数据集以高度精确的边界框预测来奖励跟踪器,例如SiamR CNN和PrDiMP,在Siamese跟踪器中,我们观察到SiamR CNN和SiamAttn在多个数据集中取得了最一致的良好结果。SiamAttn的例外是LaSOT,而SiamR CNN在VOT上举步维艰。在基于DCF的方法中,PrDiMP在所有评估的数据集!
速度比较
跟踪速度是评估跟踪器特别是满足实时要求的另一个非常重要的指标。然而,评估跟踪速度并不简单,因为许多关键因素都会影响跟踪速度,包括特征提取、模型更新方法、编程语言,以及最重要的是跟踪器所使用的硬件。我们使用特斯拉V100 GPU以表6所示的每秒帧数(FPS)评估了具有代表性的跟踪器的跟踪速度。总的来说,DCF跟踪范式还需要显示跟踪速度的显著改进。
一些结论
端到端跟踪框架的重要性:这些框架最近表现出了出色的性能。尽管端到端离线学习是Siamese跟踪的先决条件,但最近的DCF方法也成功地采用了这种模式。因此,学习基本特征以及预测头对于优化性能至关重要,这在过去几年中才有可能,因为引入了大规模的训练数据集。
稳健目标建模的重要性:尽管基于Siamese的方法在许多领域都表现出色,但基于端到端DCF的方法在具有挑战性的长期跟踪场景(如LaSOT)中仍然显示出优势。这表明了鲁棒在线目标外观建模的重要性,通过在网络架构中嵌入辨别学习模块来实现。这样的方法有效地整合了背景外观线索,并且可以在使用在线学习的跟踪过程中容易地更新。
目标状态估计:基于Siamese的方法通过利用邻近目标检测领域的进展,推动了更精确的bounding box回归的发展。最近的基于单阶段(anchor-free)的方法,例如Ocean,实现了简单、准确和高效的边界框回归。此外,这些策略是通用的,可以很容易地集成到任何视觉跟踪架构中。
分割的作用:尽管边界框回归的任务在跟踪方面取得了实质性进展,但这种目标状态模型本质上是有限的。相反,分割保证了对目标的像素精确估计,这在许多应用中是非常期望的。此外,分割提供了改进跟踪本身的潜力,例如通过帮助目标模型更新。此外,如示例[149]所示,分割进一步有助于精确边界框的回归,并有助于估计跟踪对象的尺度。因此,未来的努力应旨在将精确分割整合到稳健的跟踪框架[109],[142]中。
主干架构:ResNet架构在一些计算机视觉应用中经受住了时间的考验。在视觉跟踪中,它仍然是最流行的特征提取选择。该架构简单、有效,并允许以多种分辨率提取特征。尽管在推进SOTA的边界时有效,但对于具有较难计算约束的平台(如CPU)上的实时应用程序,它仍然需要计算成本。一个非常有趣的未来方向。
因此,开发适合跟踪任务的高效骨干网络。还可以提出融合细粒度和语义信息的融合策略,以增强跟踪器的辨别能力。此外,基于视觉vit的主干架构可以作为特征提取器模块或作为vit主干的端到端训练用于跟踪任务。
估计几何:在某些应用中,例如在增强现实中,需要在帧之间进行精确的几何变换,以使添加的图形显示为附加到对象。对于平面对象,需要在参考视图和当前视图之间进行至少仿射变换,但最好是单应性。对于非平面对象,问题与对象三维形状的在线重建相关[141]。DCF和Siamese方法都没有提供精确的几何对应,这仍然是一个开放的研究问题。
transformer的角色:transformer在各种视觉任务中取得了成功,最近的跟踪方法以不同的方式使用transformer。[14] ,[136]结合Siamese跟踪器的任一DCF,利用vit进行特征增强。[97]使用vit在存在干扰物的情况下在帧之间关联目标对象。
参考
[1] Visual Object Tracking with Discriminative Filters and Siamese Networks: A Survey and Outlook
原文首发微信公众号【自动驾驶之心】:一个专注自动驾驶与AI的社区(https://mp.weixin.qq.com/s/NK-0tfm_5KxmOfFHpK5mBA)