前言
随着深度学习技术的快速发展,近年来基于孪生网络的跟踪算法成为目标跟踪领域的主流方向之一。 这些孪生网络跟踪器将视觉跟踪问题表示为通过目标模板特征与搜索区域特征交叉相关后得到的向量学 习目标与搜索区域的相似度。
跟踪器简介
SiamFC 算法利用孪生网络(Siamese network),在视频序列 ILSVRC2015 离线训练一个相似性度量函 数,在跟踪过程中利用该模型,选择与模板最相似的候选作为跟踪结果。 SINT(Siamese instance search network)算法,利用孪生网络直接学习目标模板和候选目标的匹配函数,在线跟踪过程中只用初始 帧的目标作为模板来实现跟踪。在孪生网络获得目标位置的基础上,Siamese-RPN 网络,采用经典的卷积 网络提取目标特征以及区域生成网络(RPN)辅助目标定位。
在目标定位的过程中,采用两种类型的子网 络,一是分类网络预测前景与背景信息,预测最有可能的目标大致区域,二是位置回归网络对目标区域进 行精确的定位预测。DaSiamRPN 方法对 Siamese-RPN 进行进一步优化和改进,以着重处理训练数据不平 衡、自适应的模型增量学习及长程跟踪等问题。在训练阶段采取样本增强策略,利用现有的目标检测数据 集(如 ImageNet 检测集和 COCO 检测集)扩充正样本数据,以此提升目标跟踪器的泛化能力,并显式地 增加不同视频段同类样本以及不同类样本作为负样本,以此提升目标跟踪器的判别能力。在 SiameseFC 特征层后加入反卷积网络,使得特征网络更多地关注目标的细节表述,并结合上下文感知的相 关滤波抑制背景干扰,并且使得模型可以在线更新;,在 SiameseFC 基础上提出一种双模板的跟踪算法,通过对候选目标与基准模板和动态模板相似性结果融合,并依据跟踪置信度对 动态模板进行更新,使模板更新速度与目标表观变化相适应的同时抑制模板过更新。采用目标 干扰因子在线学习机制来抑制目标显著变化所带来的影响,从而实现有效可靠的自适应匹配跟踪。
已有经验借鉴
上述跟踪器通常依靠多尺度搜索方案或预定义的锚框来准确估计目标的尺度和纵横比。它们通常需要 冗长的启发式配置。为了解决这个问题,将视觉跟踪问题视为并行分类和回归问题,因此直 接对对象进行分类并在统一的 FCN 中对其边界框进行回归。通过将视觉跟踪任务分解为像素类别分类和 对象边界框回归两个子问题,提出了一种新颖的全卷积连体网络,以逐像素方式解决端到端 的视觉跟踪问题。
提议的框架 SiamCAR 由两个简单的子网络组成:一个用于特征提取的 Siamese 子网络 和一个用于边界框预测的分类回归子网络。类似的,提出一种基于像素上直接预测方式的高鲁棒 性跟踪算法—无锚框全卷积孪生跟踪器,直接在每个像素上进行分类和预测目标框。通过去掉锚框,大大 简化了分类任务和回归任务的复杂程度,并消除了锚框和目标误匹配问题。在训练中,还进一步添加了同 类不同实例的图像对,从而引入了相似语义干扰物,使得网络的训练更加充分。