【ICCV 目标跟踪性能最优】首个应用残差学习的深度目标跟踪算法

简介:

不同于在目标检测和识别等领域取得的丰硕成果,深度学习在目标跟踪领域进展相对缓慢,很大原因是缺乏数据——目标跟踪只有第一帧的标定框作为训练数据,在这种情况下训练一个深度模型十分困难。现有的基于深度学习的方法从几个不同的角度解决这个问题,但在跟踪速度和精度方面仍有很大的提升空间。

在目标追踪界泰斗、UC Merced 杨明玄教授的指导下,香港城市大学、阿德莱德大学、SenseNet的研究人员从深度学习的角度出发,提出了一种端到端的跟踪模型,将特征提取和响应生成融合在深度学习框架中,只采用单层卷积的端到端结构,就达到了利用深度特征的传统协同滤波器的效果。

在此基础上,研究人员还引入残差学习来有效维持模型在目标运动中的预测性能,这也是残差学习的概念首次被用于目标跟踪领域。实验表明,新方法在标准的数据库中取得了state-of-the-art的精度效果。该工作将于10月末在意大利威尼斯举办的计算机视觉顶会ICCV 2017中面向全球学者进行呈现。新智元独家抢先对其内容进行详细报道。

目标跟踪(Object Tracking)一直是计算机视觉中应用广泛而且富有挑战性的问题。简单说,目标跟踪就是在一段视频中,给定第一帧目标物体的位置和大小信息(标定框)后,让跟踪算法在后续的每一帧中对目标物体的位置和大小进行预测。

跟踪算法实时确定目标物体状态,为进一步智能分析提供了先决条件。目标跟踪技术在安防、人机交互和无人驾驶等一系列领域中都有应用。

安防监控场景中行人跟踪和轨迹预测



人机交互中对人手势的跟踪和识别


无人驾驶中临近车辆的跟踪和跟随行驶


在实际应用中,目标跟踪算法的效果受很多因素的制约,本质是由于物体在视频中出现的各种无法预测的变化。典型的制约因素包括:


 物体在视频中从初始帧到当前帧,光照情况发生了剧烈的变化


 物体在视频中运动姿态发生了很大的变化


 物体在视频中出现了局部遮挡或全局遮挡的情况


 物体在视频中与相似背景的混杂(目标汽车的尾灯和迎面而来汽车的头灯)


 物体在视频中的大小发生了显著的变化

现实中制约目标跟踪的因素还有很多。为了克服这些因素带来的不良影响,目前主流的跟踪算法多采用深度卷积特征和传统的协同滤波相结合的方式。虽然在性能上得到了提升,但是深度学习的架构优势并未得到充分的利用(比如HCFT[1],DeepSRDCF[2],C-COT[3])。

另一方面,有一些深度学习模型将跟踪问题转化为了处理物体检测(MDNet[4])和校验(SINT[5])的思路。但是,这种方法在不利用额外的跟踪视频做训练的前提下,其精度无法匹及协同滤波。

下面要介绍的这项工作,从深度学习的角度出发,提出了一种端到端的跟踪模型,并用残差式学习来有效维持模型在目标运动中的预测性能,在标准的数据库中取得了state-of-the-art的精度效果。有鉴于其性能优异,方法创新——首次将残差学习应用于目标追踪,该工作已被ICCV 2017接收。

“CREST”(Convolutional RESidual learning for visual Tracking),也有勇攀高峰之意



充分挖掘深度学习在追踪算法研究中的优势,构建端到端的深度模型做预测

虽然深度学习方法在物体检测和识别方面已经取得了优异的效果,但是在物体跟踪的算法研究中,主流方向依然集中在协同滤波器的各种拓展。纵然使用深度学习,也只是将深度卷积特征作为传统特征的替代,提升跟踪的精度。

协同滤波的优势在于其在频率域的快速运算和对物体位置的密集估计特性,这一优点一直吸引研究人员在此框架内不断做新的探索。但是,协同滤波方法并非没有局限。首先,协同滤波跟输入特征没有关联,这样一个结构并没有对跟踪这个问题有专门的改进。其次,协同滤波器的在线更新方法是人先验设定的,并没有随着物体的在线变化过程而做自适应的调整。

那么,有没有方法改进上述问题呢?从本质上说,协同滤波器是一个与物体特征做卷积从而生成二维高斯响应的过程。训练协同滤波器的系数,即为衡量卷积后的响应与真实高斯响应偏差多少的操作。

协同滤波将物体回归为二维高斯核,其峰值即为物体中心位置。


研究人员发现,这样一种训练方式,可以用L2损失函数训练单层卷积层来等价替换。采用单层卷积替代协同滤波的好处是,特征提取和高斯响应的生成可以紧密地结合在一起,为端到端的训练和预测提供了基础。此外,由于训练卷积层可以采用梯度下降的优化方法,就能够对整个框架为了实现跟踪任务进行一体的优化。另外,在线模型更新的过程也是网络根据物体的变化情况做自适应的调整。相比于传统协同滤波计算封闭解的方法和固定更新方法的人为先验设置,深度学习的优化框架无疑是更优越的。


端到端的预测和优化


同时,用单层卷积层代替协同滤波器,对特征的卷积操作也从频域转换到了时域,从而有效的克服了傅里叶变换带来的边界影响问题。



首次将残差学习用于目标追踪,提升网络预测质量

有了端对端建模,研究人员成功将物体从输入图像回归成二维的高斯响应图,峰值即为物体的位置。那么在理想情况下,网络会准确地对物体进行回归。

而当前文提到的制约因素,比如光照、目标物体大小发生了剧烈的变化,目标物体与背景相似时,网络将无法预测的准确二维高斯响应。这时,峰值发生了变化,导致物体位置预测失败。

为了提升网络预测的高斯响应图的质量,本文提出了残差式学习的概念。具体讲,在单层卷积作为基本映射(Base mapping)的基础上,并行地引入了残差映射(Residual mapping),用这种方法来捕获基本映射和真实高斯响应之间的差异。

残差式学习的框架,由基本映射和残差映射组成


在物体处于平稳状态时,基本映射的输出和真实值的高斯响应很相似,此时残差网络几乎没有什么输出。在物体处于不稳定的状态时,残差网络能够很好的捕获基本映射的输出和真实值高斯响应的差异,通过加法操作补充基本映射的输出,从而使整个网络的输出更逼近真实值,更好地对目标进行定位。

空间域的残差式学习


同时,本文也利用了第一帧的初始信息,将其残差补充于随后帧的预测中,帮助基本映射生成更优的高斯响应。

时域和空域的残差式学习


下图为残差式结构提升网络预测高斯响应的直观显示。


实验评估结果

经过实验,作者发现新的方法只采用单层卷积的端到端结构,达到了利用深度特征的传统协同滤波器的效果。不仅如此,时空域的残差结构还提升了基本映射的精度。与其他跟踪方法相比,该方法在标准数据库上取得了state-of-the-art 的精度结果。

单层卷积(基本映射)与利用深度特征的传统滤波器效果相似

同时,在引入了时空域的残差式结构后,跟踪效果逐步提升。

此外,在标准数据库OTB[6]上,本文提出的CREST方法取得的state-of-the-art的效果。更多的实验结果在文中进行了呈现。



跟踪效果展示

下面是直观的跟踪效果展示,在标准数据库OTB[6]上比较了新方法CREST和目前主流的跟踪方法Staple[7],SRDCF[8],MDNet[4],C-COT[3]。以下为这些跟踪算法在一些挑战性场景下的效果。


当跟踪物体被遮挡时,CREST(红框)能够有效地对物体进行定位。C-COT(绿框)也行。


当跟踪目标出现相似物体的干扰时,MDNet(蓝框)无法有效区分,从而使得跟踪目标丢失。


 当跟踪目标产生剧烈的运动变化时,CREST(红框)可以有效地进行跟踪。MDNet(蓝框)也能。

当跟踪目标与背景相似时,CREST(红框)和MDNet(蓝框)可以进行有效地区分。


可以看到,本文提出的CREST算法在挑战性的场景中,性能优于目前主流的跟踪算法。


结语

本文将利用深度学习框架,对目标跟踪进行了端到端的建模,从而能够进行全局的优化和更新。针对目标物体遇到的挑战性的场景,本文提出的残差式网络结构能够从时域和空域捕获高斯响应的不足,并在整个网络中弥补单层卷积网络的带来的局限性。因此,跟踪的精度在标准数据库上得到了显著的提升。


原文发布时间为: 2017-09-13

本文作者:闻菲

本文来自云栖社区合作伙伴极市网,了解相关信息可以关注极市网。

相关文章
|
2月前
|
存储 监控 JavaScript
基于布隆过滤器的 Node.js 算法在局域网电脑桌面监控设备快速校验中的应用研究
本文探讨了布隆过滤器在局域网电脑桌面监控中的应用,分析其高效空间利用率、快速查询性能及动态扩容优势,并设计了基于MAC地址的校验模型,提供Node.js实现代码,适用于设备准入控制与重复数据过滤场景。
78 0
|
5月前
|
负载均衡 算法 关系型数据库
大数据大厂之MySQL数据库课程设计:揭秘MySQL集群架构负载均衡核心算法:从理论到Java代码实战,让你的数据库性能飙升!
本文聚焦 MySQL 集群架构中的负载均衡算法,阐述其重要性。详细介绍轮询、加权轮询、最少连接、加权最少连接、随机、源地址哈希等常用算法,分析各自优缺点及适用场景。并提供 Java 语言代码实现示例,助力直观理解。文章结构清晰,语言通俗易懂,对理解和应用负载均衡算法具有实用价值和参考价值。
大数据大厂之MySQL数据库课程设计:揭秘MySQL集群架构负载均衡核心算法:从理论到Java代码实战,让你的数据库性能飙升!
|
10天前
|
运维 监控 JavaScript
基于 Node.js 图结构的局域网设备拓扑分析算法在局域网内监控软件中的应用研究
本文探讨图结构在局域网监控系统中的应用,通过Node.js实现设备拓扑建模、路径分析与故障定位,提升网络可视化、可追溯性与运维效率,结合模拟实验验证其高效性与准确性。
77 3
|
21天前
|
机器学习/深度学习 资源调度 算法
遗传算法模型深度解析与实战应用
摘要 遗传算法(GA)作为一种受生物进化启发的优化算法,在复杂问题求解中展现出独特优势。本文系统介绍了GA的核心理论、实现细节和应用经验。算法通过模拟自然选择机制,利用选择、交叉、变异三大操作在解空间中进行全局搜索。与梯度下降等传统方法相比,GA不依赖目标函数的连续性或可微性,特别适合处理离散优化、多目标优化等复杂问题。文中详细阐述了染色体编码、适应度函数设计、遗传操作实现等关键技术,并提供了Python代码实现示例。实践表明,GA的成功应用关键在于平衡探索与开发,通过精心调参维持种群多样性同时确保收敛效率
|
21天前
|
机器学习/深度学习 边缘计算 人工智能
粒子群算法模型深度解析与实战应用
蒋星熠Jaxonic是一位深耕智能优化算法领域多年的技术探索者,专注于粒子群优化(PSO)算法的研究与应用。他深入剖析了PSO的数学模型、核心公式及实现方法,并通过大量实践验证了其在神经网络优化、工程设计等复杂问题上的卓越性能。本文全面展示了PSO的理论基础、改进策略与前沿发展方向,为读者提供了一份详尽的技术指南。
粒子群算法模型深度解析与实战应用
|
21天前
|
算法 数据挖掘 异构计算
【多目标优化算法比较】MOFPA、MOFA、MOCS、MOBA、MOHHO五种多目标优化算法性能对比研究(Matlab代码实现)
【多目标优化算法比较】MOFPA、MOFA、MOCS、MOBA、MOHHO五种多目标优化算法性能对比研究(Matlab代码实现)
【多目标优化算法比较】MOFPA、MOFA、MOCS、MOBA、MOHHO五种多目标优化算法性能对比研究(Matlab代码实现)
|
21天前
|
机器学习/深度学习 算法 安全
小场景大市场:猫狗识别算法在宠物智能设备中的应用
将猫狗识别算法应用于宠物智能设备,是AIoT领域的重要垂直场景。本文从核心技术、应用场景、挑战与趋势四个方面,全面解析这一融合算法、硬件与用户体验的系统工程。
|
2月前
|
机器学习/深度学习 算法 5G
【MUSIC、最大似然与克拉美-罗下界】MUSIC与ESPRIT 算法来估计到达角(AoA),并尝试推导克拉美-罗下界(CRLB)以分析其性能研究(Matlab代码实现)
【MUSIC、最大似然与克拉美-罗下界】MUSIC与ESPRIT 算法来估计到达角(AoA),并尝试推导克拉美-罗下界(CRLB)以分析其性能研究(Matlab代码实现)
|
3月前
|
机器学习/深度学习 人工智能 算法
AI-Compass 强化学习模块:理论到实战完整RL技术生态,涵盖10+主流框架、多智能体算法、游戏AI与金融量化应用
AI-Compass 强化学习模块:理论到实战完整RL技术生态,涵盖10+主流框架、多智能体算法、游戏AI与金融量化应用
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
深度学习模型、算法与应用的全方位解析
深度学习,作为人工智能(AI)的一个重要分支,已经在多个领域产生了革命性的影响。从图像识别到自然语言处理,从语音识别到自动驾驶,深度学习无处不在。本篇博客将深入探讨深度学习的模型、算法及其在各个领域的应用。
491 3

热门文章

最新文章