【视觉目标跟踪最高峰】VOT Challenge 2017 亚军北邮团队技术分享(附代码)

在线体验各类最新模型,更有模型 免费Token 额度领取!
立即体验
简介:

视觉跟踪领域国际顶级赛事 Visual-Object-Tracking Challenge (VOT) 2017年结果出炉,结合传统滤波及深度学习的方案取得最佳成绩。本文是第二名北京邮电大学代表团队的技术分享。他们基于滤波的框架,抛弃传统特征,只使用CNN特征,减少了特征冗余,缓解了模型过拟合,使追踪器在速度和精度上都有不小的提高。代码分享链接:https://github.com/he010103/CFWCR.git

随着深度学习在计算机视觉方面大放异彩,近几年物体追踪也得到了飞速的发展。物体追踪解决的问题是在一段时间内对于同一个物体在复杂的背景下(如遮挡,光照,物体旋转等),进行持续高速的跟踪。因此,物体追踪是监控,安防,自动驾驶,无人机,智能家居等应用中必须解决的关键课题。

作为视觉跟踪领域的最高峰,Visual-Object-Tracking Challenge (VOT) 是国际目标跟踪领域最权威的测评平台,由伯明翰大学、卢布尔雅那大学、布拉格捷克技术大学、奥地利科技学院联合创办,旨在评测在复杂场景下单目标短时跟踪的算法性能。由于每年的评测序列都会更新,且标注的精确度一年一年提高,VOT竞赛也被视为视觉跟踪领域最难的竞赛,远远超过了其他数据集。因此,每年最好的追踪算法都会在上面一展拳脚,在激烈的比拼中擦出灵感的火花。

今年的比赛 VOT 2017,作为 ICCV 2017的一个workshop,吸引了来自全世界的38个队伍参加(CMU,中科院,法国科学院,香港理工,华中科技大学,国防科大,美国海军研究院,牛津大学,中国科技大学,浙江大学等),提交了38个新的算法参加了比赛,加上组委会自行提交的13个算法,总共对比分析了51个跟踪器在VOT2017 数据集上的表现。

在公开的38个队伍中,大连理工大学的卢湖川教授队伍夺得第一名。由北京邮电大学董远教授指导,北京飞搜科技&北京邮电大学代表队何智群、樊应若、庄骏飞、白洪亮提交的结果(CFWCR)获得VOT 2017竞赛公开的60个评测序列中第二名。

VOT 竞赛,检验当前单目标追踪最高标准

VOT 2017与VOT 2016相比,VOT 2016中某些序列已经被多数tracker准确跟踪,所以在VOT 2017中,将VOT 2016的10个评测效果差图像序列替换如图1,并且保证总体的序列属性分布不变。与此同时,VOT2017相对于VOT2016对所有序列的还对所有序列的ground truth进行了重新标定,精确到像素级别,然后重新拟合矩形框。

41f02145e5824fd561a17f21cb9748f62db8ebf3

VOT2017使用EAO(Expected Average Overlap)、Accuracy、Robustness三个主要指标对跟踪结果进行评估,

  • 平均重叠期望(EAO)是对每个跟踪器在一个短时图像序列上的非重置重叠的期望值,是VOT评估跟踪算法精度的最重要指标。
  • 准确率(Accuracy)是指跟踪器在单个测试序列下的平均重叠率(两矩形框的相交部分面积除以两矩形框的相并部分的面积)。
  • 鲁棒性(Robustness)是指单个测试序列下的跟踪器失败次数,当重叠率为0时即可判定为失败。


今年的VOT结果如下:

388fb31940b4f90e1dd042188b3c773a35c6b970

图2 VOT2017结果图


VOT 2017结果显示,目前跟踪算法的主流方法主要分为三种,一是传统的相关滤波方法,二是基于卷积神经网络方法,三是深度卷积特征和传统的协同滤波相结合的方法。

其中,使用深度卷积特征和协同滤波结合的方法效果最好。例如今年VOT第一名,大连理工大学卢老师的LSART,他们提出的追踪器以一种新的方式结合了CNN和相关滤波,通过设计算法让CNN专注于特定区域的回归,相关滤波专注于全局的回归,在最后对回归的结果进行组合,以互补的方式得到物体的精确定位。

今年VOT的51个tracker中,深度特征和相关滤波结合的方法共9种,采用如VGG网络提取特征再输入到相关滤波框架内,以非端到端线上更新滤波参数,达到准确追踪的效果。这9种深度特征和相关滤波结合的方法在VOT2017种表现均较为出色,包揽了前四名。

VOT 2017视觉跟踪第二名技术:单卷积特征的相关滤波解决方案

北京飞搜科技&北京邮电大学代表队提交的结果(CFWCR)获得VOT 2017竞赛公开的60个评测序列中第二名。

我们的方法基于业界流行的相关滤波的框架。我们使用了单CNN特征的多尺度追踪方案。现有很多追踪器融合了CNN特征和传统的机器学习特征,如hog特征,CN颜色特征等。在我们的实验中,我们发现CNN的浅层特征具有物体轮廓的信息,高层的深度特征具有物体的语义信息,将CNN的浅层和高层特征进行融合,能使追踪器具有很好的性能。

CNN的特征和传统特征的融合会使得特征的冗余太多,容易导致参数更新的时候模型过拟合,解决过拟合的一种方法是用PCA对特征进行降维。但是,过于复杂的特征组合方式不太利于超参数的精调,我们摒弃了传统的特征,只使用了CNN的特征。这一做法,减少了我们的特征冗余,模型过拟合的情况得到很大的缓解,使得我们的追踪器无论是在速度上还是精度上都有了不小的提高。

daccb6ca6e7465f171c228a68b9a1b6527ea461c

图3 CFWCR追踪效果对比图


使用相关滤波框架的一大困难是具有很多的超参数,这和目前主流的端到端深度学习训练框架有很大的不同。我们发现用PCA对特征进行压缩,能使得追踪器在追踪速度上有很大的提高,但是性能会略有下降。因此,我们在评测上没有使用PCA,而在实用的追踪系统中用PCA能更好地均衡速度和精度。

此外,我们发现,在评测中,增加候选尺度的数量能使我们的追踪器更好地适应物体在时间序列中形状的变化。最后,我们对CNN的轮廓信息和语义信息进行了加权融合,以最优的方法对特征进行组合。

下面是我们的追踪器在不同的序列长度下的表现曲线。可以看到,我们的算法在短视频序列的表现明显优于其他主流的算法。

db45783ff5265cef21ff0fdb5147bf22fb625169

图4 CFWCR重叠率性能图

视觉跟踪未来展望:充分利用CNN

连续两年的VOT比赛中,基于相关滤波和CNN结合的追踪器表现突出,在性能指标上遥遥领先于其他算法。然而,非端到端的训练框架拥有很多的超参数,线上更新的方式也使得在实际算法部署的过程中,目前性能最优的一些追踪器难以满足实时性的要求。

视觉追踪方向和物体检测、物体分割方向不同的一点,在于CNN并没有完全发挥它的强大作用。未来的视觉追踪方向应该会更加关注实时性和训练的便捷性,端到端训练的追踪器会更多涌现,让CNN能够完全在视觉追踪领域发挥功效。我们也将继续在视觉跟踪领域深入研究,希望能给学术界和工业界做一些小小的贡献!

代码分享链接:https://github.com/he010103/CFWCR.git

参考资料
  • [1]http://www.votchallenge.net
  • [2]http://openaccess.thecvf.com/content_ICCV_2017_workshops/papers/w28/Kristan_The_Visual_Object_ICCV_2017_paper.pdf
  • [3]http://openaccess.thecvf.com/content_ICCV_2017_workshops/papers/w28/He_Correlation_Filters_With_ICCV_2017_paper.pdf
原文发布时间为:2017-11-4
本文作者:何智群
本文来自云栖社区合作伙伴新智元,了解相关信息可以关注“AI_era”微信公众号
相关文章
|
机器学习/深度学习 编解码 自然语言处理
Vision Transformer 必读系列之图像分类综述(二): Attention-based(上)
Transformer 结构是 Google 在 2017 年为解决机器翻译任务(例如英文翻译为中文)而提出,从题目中可以看出主要是靠 Attention 注意力机制,其最大特点是抛弃了传统的 CNN 和 RNN,整个网络结构完全是由 Attention 机制组成。为此需要先解释何为注意力机制,然后再分析模型结构。
1672 0
Vision Transformer 必读系列之图像分类综述(二): Attention-based(上)
|
数据库连接 开发者
.NET 内存管理两种有效的资源释放方式
【10月更文挑战第15天】在.NET中,有两种有效的资源释放方式:一是使用`using`语句,适用于实现`IDisposable`接口的对象,如文件流、数据库连接等,能确保资源及时释放,避免泄漏;二是手动调用`Dispose`方法并处理异常,提供更灵活的资源管理方式,适用于复杂场景。这两种方式都能有效管理资源,提高应用性能和稳定性。
457 2
|
存储 弹性计算 安全
云计算服务选型与成本分析
【7月更文挑战第2天】云计算服务选型与成本分析聚焦企业如何在IaaS、PaaS、SaaS间抉择,考虑云提供商的技术实力、服务范围、成本效益和支持。成本分析涉及硬件、软件和服务成本,通过简单回收期、投资回报率和净现值法评估效益。优化资源配置、弹性伸缩和合理计费是成本控制关键,助力企业高效利用云计算。
1001 2
|
C语言 C++ Linux
查看gcc/g++默认include路径
转自:http://gcc.gnu.org/ml/gcc-help/2007-09/msg00205.html   `gcc -print-prog-name=cc1plus` -v `g++ -print-prog-name=cc1plus` -v   例如,CentOS 6.
2331 0
|
算法 图形学 C++
[EasyX库安装介绍讲解】超详细入门级
[EasyX库安装介绍讲解】超详细入门级
1338 1
|
数据采集 数据安全/隐私保护 Python
Python 快速合并PDF表格转换输出CSV文件
Python 快速合并PDF表格转换输出CSV文件
545 0
Python 快速合并PDF表格转换输出CSV文件
|
算法 Python
NumPy 高级教程——性能优化
NumPy 高级教程——性能优化 【1月更文挑战第2篇】
844 0
|
机器学习/深度学习 数据采集 人工智能
常用激活函数(激励函数)理解与总结
神经网络中的每个神经元节点接受上一层神经元的输出值作为本神经元的输入值,并将输入值传递给下一层,输入层神经元节点会将输入属性值直接传递给下一层(隐层或输出层)。在多层神经网络中,上层节点的输出和下层节点的输入之间具有一个函数关系,这个函数称为激活函数(又称激励函数)。
常用激活函数(激励函数)理解与总结
|
芯片
复习单片机:动态数码管(1 数码管介绍+2 74HC245 和 74HC138 芯片介绍+3 硬件设计+4 软件设计+5 实验现象)
复习单片机:动态数码管(1 数码管介绍+2 74HC245 和 74HC138 芯片介绍+3 硬件设计+4 软件设计+5 实验现象)
2438 0
复习单片机:动态数码管(1 数码管介绍+2 74HC245 和 74HC138 芯片介绍+3 硬件设计+4 软件设计+5 实验现象)

热门文章

最新文章