Hy-Tracker来啦 | 带有YOLO的跟踪算法家族再添新成员,尺度变化和遮挡都不是问题!

简介: Hy-Tracker来啦 | 带有YOLO的跟踪算法家族再添新成员,尺度变化和遮挡都不是问题!

近年来,超光谱目标跟踪在遥感领域引起了广泛关注。具有多个波段的超光谱图像为物体提供了丰富的材料信息,这可以有效地用于目标跟踪。然而,大多数超光谱跟踪器基于检测技术,尚未有人尝试使用YOLO进行超光谱视频中的目标检测和跟踪,原因在于超光谱图像的多波段特性,标注的超光谱视频的稀缺性,以及YOLO在处理遮挡和区分杂乱背景中的性能局限性。

因此,在本文中,作者提出了一种名为Hy-Tracker的新颖框架,该框架旨在将超光谱数据与最先进的目标检测方法相结合,利用YOLOv7在超光谱视频中进行物体跟踪的优势。Hy-Tracker不仅引入了YOLOv7,而且创新地在其之上集成了一个高级跟踪模块。跟踪器对YOLOv7产生的初始检测进行了优化,从而提高了物体跟踪性能。此外,作者将卡尔曼滤波器集成到跟踪器中,以解决尺度变化和遮挡带来的挑战。

在超光谱基准数据集上的实验结果表明,Hy-Tracker在准确跟踪跨帧物体方面具有有效性。

I Introduction

目标跟踪是计算机视觉和遥感领域的一个基本且正在进行的研究主题,并在交通监控、自动驾驶车辆和视频监控等许多应用中得到广泛应用。目标跟踪的主要目标是确定特定物体的尺寸和位置,并准确地跟踪其在连续视频帧中的轨迹,依赖于目标对象的初始位置和尺寸。在RGB视频中设计的传统目标跟踪器在某些具有挑战性的场景中遇到困难,包括背景杂乱、物体和其背景相似的颜色和纹理、同一类别中多个物体的紧密出现以及显著的变形。

相比之下,光谱视频在这些场景中具有明显的优势,因为它们捕获了更广泛的波长范围和比RGB视频更高的光谱分辨率。光谱视频中的每个像素都包含详细的光谱信息,使得可以精确地分析和识别材料和物体。这种独特的光谱特征使跟踪器能够更好地跟踪物体,提供更高的判别能力,并增强在具有挑战性的场景中的目标跟踪准确性。

光谱跟踪器可以广泛地分为两类:相关滤波(CF)方法和支持学习(SL)方法。基于相关滤波的方法依赖于相关滤波器来在光谱视频中建立物体的特征与周围上下文之间的关系。钱等人[11]首次将卷积网络与核化相关滤波器(KCF)框架相结合,用于在光谱视频中跟踪物体。他们使用归一化三维立方体作为固定卷积滤波器来编码局部光谱-空间特征,然后应用KCF进行跟踪。熊等人[13]使用多维梯度(SSHMGs)的色度-空间直方图作为3D局部色度-空间结构以及物质组分的部分丰度,提取目标物体的材料信息。还可以使用傅里叶变换域中的空间-光谱卷积核、定向镶嵌直方图[15]或自适应空间-光谱判别分析提取判别空间-光谱特征。侯等人[17]构建了一个基于相关滤波的方法的框架,使用张量稀疏相关滤波器(CF)并带有空间-光谱加权正则化器,以减少均匀背景中的光谱差异,并基于光谱相似性惩罚滤波器模板。

相反,基于深度学习的方法直接从光谱数据中提取判别特征和复杂模式,在光谱对象跟踪领域表现出显著的性能。乌兹肯特等人[18]提出了一种在线生成光谱跟踪方法,它依赖于似然映射来帮助跟踪,而无需离线的分类器或广泛的超参数调整。他们进一步使用核化相关滤波器(KCF)和深度卷积神经网络(CNN)特征在光谱域中进行航空物体跟踪[19]。刘等人[20]提出了HA-Net,它包括一个光谱分类分支的锚点免 Siamese 网络。这种方法在训练期间利用了全部光谱带,显著增强了物体识别能力。随后,刘等人[21]提出了H3-Net,这是一种针对高光谱-空间-时间分辨率光谱跟踪的框架。这种方法包括一个无监督训练策略和双分支 Siamese 网络结构。H3-Net 框架中深度学习和判别相关滤波器(DCF)的融合进一步增强了特征兼容性和整体跟踪性能。

尽管这些基于深度学习的跟踪器在光谱领域表现出有前景的性能,但它们的性能受到训练数据集不足的限制。为了解决这个挑战,李等人[22]引入了BAE-Net,它通过编码器-解码器架构将光谱带分为多个基于带权重的三通道伪彩色图像。然后将这些伪彩色图像输入到基于对抗学习的跟踪器 VITAL[23]中,生成几个较弱的目标跟踪器,并通过集成学习进行组合以确定精确的目标位置。另一种方法,他们[24]将光谱带根据空间-光谱-时间注意力模块的得分分割为多个伪彩色图像。然而,值得注意的是,[22]和[24]中的弱跟踪器部分提取了物体的光谱信息,因此限制了它们捕获高度判别性特征的能力。因此,SiamF[25]是通过将材料信息与 Siamese 网络融合而引入的。SiamF 包含一个 hyperspectral feature fusion (HFF) 模块,具有密集连接架构。这个模块将来自各个层和波段组的特征集成在一起,并使用全局-局部通道注意来创建一个全面的空域-光谱表示。此外,SiamF 包含在线空域和材料分类器,用于自适应在线跟踪。唐等人[26]引入了异质编码器-解码器(HED)和光谱语义表示(SSR)模块。这些模块用于提取空域和光谱语义特征。他们采用两阶段训练方法来学习相关参数。获得的空域-光谱表示随后被合并以估计最优目标状态。

深度学习模型展示了获取层次数据的潜力,使它们能够自主地从数据集中提取相关特征。为了学习这些复杂的特征,需要大量的数据。在有限数据集上训练的模型通常会表现出过拟合,导致记住训练数据。此外,仅在光谱数据上训练的模型往往忽略了在 RGB 视频中包含的有价值的信息洞察。为了弥合这一差距,刘等人[27]提出了 SiamHYPER,这是一个双深度 Siamese 网络框架,包括一个预训练的基于 RGB 的跟踪器和光谱目标感知模块。李等人[10]开发了 SiamBAG 框架,其中模型使用大量的 RGB 数据而不是光谱数据进行训练。他们最初使用带注意力模块将光谱带分组为多个伪彩色图像。这些图像被 SiamBAG 处理,该框架将来自不同分支的分类响应组合在一起,以提高物体定位。雷等人[28]引入了 SSDT-Net,通过使用迁移学习将传统颜色视频的知识适应于光谱跟踪。它采用双重迁移策略来评估源域和目标域之间的相似性,从而优化深度学习模型的利用率。唐等人[29]设计了一个 BAHT,它利用在颜色视频中预训练的骨干网络来描述目标外观的语义特征。

为了获得更好的语义信息,一些研究人员使用了 RGB 和光谱数据。赵等人[9]使用双分支 Siamese 网络和变换器从 RGB 和光谱数据中分别获取模态特定的特征。这种方法扩展到了双分支变换器跟踪(RANet)架构,根据模态的可靠性来确保使用最有信息量的特征来提高跟踪精度。然而,来自不同视点的数据可能几何上不是很好地对齐。在某些情况下,一些物体或感兴趣的区域可能从一个视点可见,但从一个视点不可见。这种差异使得有效地融合信息变得具有挑战性。因此,迫切需要一个框架来有效地处理数据依赖性并提高跟踪精度。

YOLO  因其强大的 RGB 图像目标检测能力而闻名。然而,令人惊讶的是,YOLO 尚未在光谱视频中应用物体跟踪。这是因为将 YOLO 应用于光谱数据并非易事,因为光谱数据具有多个光谱带、遮挡和适应光谱数据时固有的性能限制。因此,在本文中,作者首次将 YOLO 引入到光谱跟踪领域。作者的贡献有五个方面:

本文首次介绍了一种名为 Hy-Tracker 的新颖跟踪框架,该框架利用了 YOLOv7 的优势,并解决了光谱跟踪所面临的独特挑战。

在 YOLO 之上设计了一个经过优化的跟踪模块,该模块解决了与 YOLO 相关的局限性和挑战,包括遮挡、背景杂乱、快速运动和未见物体的识别。这种优化对于解决这些挑战并确保物体跟踪的准确性和可靠性至关重要。

作者将卡尔曼滤波器集成到跟踪器中,以帮助处理诸如尺度变化和遮挡等挑战,并更好地探索同一物体在不同帧之间的时间域相关性。

在光谱基准数据集上的实验结果验证了 Hy-Tracker 从光谱视频中实现准确物体跟踪的鲁棒性和有效性。

本文的其余部分如下所述。在第 II 节中,作者将深入讨论所提出的跟踪框架。在第 III 节中,作者将介绍并讨论实验结果,包括数据集、评估指标以及 Hy-Tracker 在各种跟踪场景中的性能。最后,作者在第 IV 节中得出结论。

II Hy-Tracker Framework

在这个部分,作者将讨论提出的 Hy-Tracker 框架。Hy-Tracker 框架将一个光谱视频帧(HVF)根据波段间的交叉带间相似度分数分割为许多三通道伪彩色图像。这些伪彩色图像被输入到 YOLOv7 中以生成候选物建议。然后,这些候选物被细化以确定准确的物体大小和位置。

所提出的 Hy-Tracker 框架如图 1 所示。如图所示,该框架包括三个主要模块:

  • 背景感知波段选择
  • YOLO
  • 跟踪器

Background Aware Band Selection (BABS)

YOLO 目标检测方法因其可靠性而闻名,但由于光谱域中存在大量光谱带,直接应用时会遇到挑战。每个光谱带都持有场景中物体的独特信息。光谱数据通常在相邻波段之间表现出强烈的相关性,而并非所有这些波段对物体跟踪同等重要。实际上,同一个跟踪器在不同光谱带上的结果可能不一致。这需要一种能够识别光谱数据中最重要波段并有效集成到计算网络中的方法。

值得注意的是,不同的物体具有独特的物理特性,导致与物体及其局部环境相关的光谱信息的差异。例如,在图 2 中,作者可以观察到物体与相邻局部周围区域的平均光谱差异。与对应物相比,某些光谱带具有明显更高的光谱差异。因此,使用这些更具判别性的波段生成的图像具有为物体提供独特签名的潜力。受此观察启发,作者采用了一种创新的方法选择波段,利用跨波段物体和局部邻域差异分数,如图 3 所示。

让作者考虑一个包含  个波段的超光谱帧 ,这些波段被标记为 ,其中  和  分别表示超光谱帧的高度和宽度。每个波段提取两个区域:物体区域  和局部邻域区域 。区域  对应于感兴趣物体的实际位置,由感兴趣物体的地面真值表示。相比之下,区域  表示距离物体  的填充区域。随后,作者计算每个波段  和  区域与其他所有波段  和  区域的差异分数。这种计算确保了目标物体具有独特性,从而产生唯一的物体签名。以下是计算波段  的差异分数的方程:

函数  是一种余弦相似函数,用于衡量两个图像块之间的相似性。

最后,根据差异分数对波段进行排序,生成多个伪彩色图像。例如,如果一个光谱视频帧包含 16 个波段,并且排序后的波段顺序为 ,那么第一个伪彩色图像是由波段  生成的,第二个图像使用波段 ,以此类推。然后,将这些图像传递给 YOLO 进行候选物生成。

Yolo

YOLO 是一个实时的目标检测框架,最初是由 Redmon 等人在 2016 年提出的。它将图像划分为一个网格,其中每个单元负责预测位于其边界内的物体。在作者的框架中,作者将 YOLOv7 集成到作者的架构中。接下来的部分概述了 YOLOv7 的基本原理。

模型重参数化:YOLOv7 针对模型重参数化做出了特定调整,以减轻由此产生的性能下降。模型重参数化涉及在推理阶段将多个模块合并为一个模块。YOLOv7 在串联模型中删除了连接,允许信息直接从一个层流向另一个层,而无需任何变换。删除这些连接有助于抵消模型简化对性能的负面影响。

从粗糙到精细的标签分配:YOLOv7 采用辅助头在图像中初步检测可能存在物体的潜在区域。这些辅助头生成粗糙标签,并优先考虑高召回率,旨在尽可能多地识别出物体的候选项。YOLOv7 在网络的中间部分添加了辅助头,并在最后阶段添加了一个引导头。

网络拓扑:YOLOv7 将卷积-激活-批处理单元(conv-activation-bn)更改为卷积-批处理单元-激活(conv-bn-activation)。在将卷积层的结果传递到激活函数之前,卷积-批处理单元-激活 normalizes 卷积层的输出,从而减少了推理过程中的操作数量。与卷积-激活-批处理单元相比,这种拓扑结构稳定了激活值,使网络对不同的输入分布更具鲁棒性,因为它将卷积和批处理单元的合并为一个操作。这是因为只有激活与卷积和批处理单元共享非线性。

隐性知识迁移:在 YOLOR 训练中预计算一个向量,作为 YOLOv7 训练中的隐性知识助手。它被添加或乘以 YOLOv7 的特征图,以利用 YOLOR 固有的理解以及卷积层捕获的空间模式。

指数移动平均(EMA)模型:教师模型作为学生模型的指导,可以使其表现出更稳定和鲁棒的效果,尤其是在处理噪声数据或模型在训练过程中性能波动时。为此,YOLOv7 首先以 EMA 方式初始化学生和教师模型,然后训练学生模型在标注数据集上,并分别对标签数据和未标签数据进行预测。教师模型的预测作为软标签,以确保两个模型输出的一致性。使用反向传播方式更新学生模型,并使用教师模型作为学生权重 EMA。通过鼓励学生在未标记数据上将预测与教师模型对齐,学生可以在不过度拟合任何潜在噪声或异常的情况下,从未标记数据中的模式和结构中受益。

Trackers

YOLO 的主要目标是检测场景中的所有物体,而在作者的工作中,物体跟踪专注于在视频序列中的多个帧中跟随特定物体的目标。跟踪的重点是保持物体在时间上的身份和位置,这在诸如多个物体相似的外观、背景杂乱、遮挡、低空间分辨率等场景中具有挑战性。为了解决这些挑战,跟踪器是实现 YOLO 的检测和物体跟踪需求的必要桥梁。跟踪器通过处理动态场景的复杂性,将 YOLO 的检测转换为一个连贯和可靠的目标跟踪系统。因此,作者引入了跟踪器,它包括三个主要模块:分类器、目标提议生成器和卡尔曼滤波器。

Iii-C1 Classifier

分类器的目的是将感兴趣的物体与其他物体和背景区分开来。分类器架构如表 I 所示,包括三个卷积层(conv1-3)和三个全连接层(fc1-3),用于学习并提取输入特征。选择较小的网络的原因是作者正在精炼和微调 YOLO 的输出,并且它具有计算效率和适合在线训练。

Iii-C2 Target Proposal Generator

本步骤的主要目的是生成一组可能包含当前视频帧中目标物体的潜在边界框。这些潜在候选边界框通过高斯分布采样生成,遵循 MDNET 中的方法。该分布由两个主要参数决定:均值和协方差矩阵。均值来自目标物体在前一状态下的估计,用于估算物体在当前帧中的潜在位置。协方差矩阵是对角矩阵,包含特定值 ,其中  表示目标物体边界框的宽度和高度的平均值。

此外,目标物体的大小可能在帧间略有变化。因此,作者通过乘以  来调整每个候选框的缩放值,其中 'sc' 表示从高斯分布中获得的候选框的缩放值。

Iii-C3 Kalman Filter

卡尔曼滤波器是一种递归技术,用于在处理噪声测量或观察时估计动态系统的状态。它特别适用于跟踪物体并基于噪声传感器数据预测其未来状态。卡尔曼滤波器有三个主要步骤。

状态估计:在此步骤中,作者首先估计物体的初始状态,包括其位置、速度以及表示状态估计初始不确定性的协方差矩阵。

预测:预测步骤涉及根据当前状态和状态转移模型估计未来状态。状态和协方差预测见公式 (2) 和 (3)。

在这里, 是目标物体的状态, 是控制输入, 与状态协方差矩阵相关, 表示状态转移矩阵, 是控制输入矩阵,而  表示噪声协方差矩阵。

更新:更新步骤将预测与实际传感器测量相结合,以获得更准确的状态估计。首先,使用公式 4 获得卡尔曼增益:

然后,使用公式 (5) 和 (6) 更新系统状态和协方差矩阵。

其中,'' 表示卡尔曼增益,'z' 表示在时间 't' 测量的观测值,'' 对应于单位矩阵,'' 表示测量矩阵,'' 表示测量噪声的协方差矩阵。

Offline Training and Online Updating

Iii-D1 Offline Training

在离线训练阶段,YOLO 仅使用训练数据集和测试数据集的初始帧进行训练。为了减轻过拟合,作者采用高斯粘贴方法模拟物体在帧间移动。

对于一个具有特定物体位置  的二维高斯分布,其概率分布函数如下所示:

Ii-A2 Online Updating

在在线更新过程中,作者的主要关注点是在跟踪的上下文中优化分类器。为此,作者采用 [34] 中预训练的权重。值得注意的是,在在线更新期间,只有与全连接层(fc1-3)相关的权重(fcw1到fcw3)被更新,而与卷积层(conv1到conv3)相关的权重(cw1到cw3)保持不变。作者使用二进制交叉熵(BCE)损失作为分类器的损失函数,初始学习率设置为 ,并随后更新到 。

在每一帧中,都会生成两种不同的预测:YOLO 的预测和卡尔曼的预测。同时,一组来自目标前状态的  个目标候选项被考虑,如第 II-C2 节所述。然后,这些目标样本和 YOLO 的预测被分类器处理,为它们分配分类分数。接着,通过找到具有最高分类分数的目标状态来选择最优目标状态。如果最优目标状态和前状态之间的缩放超过 5%,则选择卡尔曼预测作为最优目标。在处理每一帧后,卡尔曼滤波器的状态会被更新。此外,作者还对分类器权重(fcw1到fcw3)进行定期更新,每隔 10 帧进行一次。这些权重更新利用了前 10 帧最优输出的正负候选项,以确保持续的适应性和跟踪精度。

III Experimental results and discussion

在本节中,作者将提供实验设置、评估指标、消融研究以及与最先进的超光谱跟踪器的比较分析。

Experimental Settings

在作者的研究中,作者使用了 2022 年超光谱目标跟踪(HOT)挑战赛数据集。该数据集在 25 FPS 的帧率下使用 XIMEA 快门相机和 imec 光谱传感器进行拍摄。数据集中的每一帧最初都以 2D 镶嵌格式捕获,波长范围从 470nm 到 620nm。该数据集包括总共 40 个训练视频和 35 个测试视频。它包括 RGB 和 HSI-False 视频,其中 HSI-False 是从光谱视频中转换而来的彩色视频。值得注意的是,测试视频包含了 11 个具有挑战性的因素,包括变形(DF)、运动模糊(MB)、尺度变化(SV)、视线外(OV)、平面旋转(OPR)、遮挡(OC)、背景杂乱(BC)、平面旋转(IPR)、快速运动(FM)、照明变化(IV)和低分辨率(LR)。数据集的详细描述请参见表 II。

在进行所有实验时,都是在配备了 Intel(R) Core i7-12700 CPU、32 GB RAM 和配备 16 GB 专用图形内存的 NVIDIA RTX A4000 GPU 的机器上进行的。

Evaluation Metrics

在作者的实验中,作者使用了四个评估指标,包括成功图、精确图、曲线下的面积(AUC)和给定 20 像素阈值的准确率(DP@20pixels)。值得注意的是,作者使用了单次评估(OPE) 技术来记录所有实验结果。

成功图,其中 x 轴是重叠阈值,y 轴是成功率(SR),显示跟踪器的表现如何。成功率是通过计算实际地面真实值和预测边界框之间的交集与并集(IoU)来确定的。这个指标如下所示:

在这里, 代表一个从 0 到 1 的阈值值,而 'N' 表示帧数。如果作者定义  为目标物体预测表示的面积, 为地面真实表示的面积,那么 IoU 定义如下:

在这里, 和  表示目标物体的真实边界框和预测边界框之间的 IoU。当 IoU 超过阈值  时,认为一帧被成功跟踪。曲线靠近图的上右角表示跟踪器性能优越。

精度图,其中 x 轴表示实际和预测边界框的中心位置误差(CLE), 的计算是实际和预测边界框的中心之间的欧几里得距离,定义如下:

其中, 和  分别表示目标物体真实边界框和预测边界框的中心位置。真实边界框和预测边界框的中心位置之间的  差异被定义为 ,定义如下:

在这里, 表示一个从 0 到 50 像素的阈值, 表示帧数。如果  小于 ,则认为一帧被成功跟踪。曲线靠近图的上左角表示跟踪器性能优越。

Ablation Study

在本节中,作者强调了 Hy-Tracker 架构中 YOLO、跟踪器和卡尔曼滤波器在三种视频格式(RGB、HSI-False 和 HSI)上的显著贡献。

这种分析的结果请参见表 IV,成功和精确图请参见图 4。值得一提的是,在仅考虑 YOLO 进行跟踪时,作者选择所有候选提案中的最高置信度。

参考表 IV 的结果,可以看出同时集成 YOLO、跟踪器和卡尔曼滤波器使 Hy-Tracker 在所有视频格式上都有显著改进。在 RGB 视频中,AUC 从 0.576 提高到 0.666,展示了网络在基于颜色的跟踪场景中的出色性能。在 HSI-False 视频中,由于数据本身具有噪声,Hy-Tracker 仍然展示了其适应性,将 AUC 从 0.536 提高到 0.624。然而,最显著的改进出现在 HSI 视频中,其中每个物体都具有独特的签名,AUC 从 0.637 提高到 0.721。这表明所提出的 Hy-Tracker 具有鲁棒性,能够适应广泛的跟踪条件和视频格式。Hy-Tracker 在 HOT-2022 数据集上的详细结果请参见表 III。

Comparison with state-of-the-arts hyperspectral trackers

在本节中,作者对 Hy-Tracker 与几种最先进的跟踪方法进行了全面的比较分析,包括 MHT,BAE-Net,CNHT,DeepKCF,SST-Net,MFI 和 SiamBAG。比较研究的详细结果请参见表 V,成功和精确图请参见图 5。从这些结果中,作者可以观察到 Hy-Tracker 在 20 像素(DP@20pixels)处实现了最高的 AUC 和最高的精度,相较于其他跟踪器表现最好。底层原因是 MHT 和 CNHT 仅依赖手工制作的特征,BAE-Net 和 SST-Net 通过将波段分组为伪彩色图像并生成多个弱跟踪器有效地利用了光谱信息。

另一方面,SiamBAG 得益于丰富的颜色对象跟踪数据进行训练,实现了 AUC 为 0.632,但忽略了光谱数据集。相比之下,Hy-Tracker 采用了一种可靠的 YOLO 检测方法,通过将跟踪器和卡尔曼滤波器相结合,通过微调 YOLO 的检测能力,实现了 AUC 为 0.721。这种集成方法优化了光谱场景下的物体跟踪,使其成为最可靠和最鲁棒的跟踪器。

此外,作者对 Hy-Tracker 根据数据集的各个属性进行了详细的比较,比较分析的结果概述在表 VI 中。在各种具有挑战性的场景中,作者观察到 Hy-Tracker 始终优于所有其他跟踪器,展示了其在跟踪精度和适应性方面的优势。这表明 Hy-Tracker 在跟踪条件可以广泛变化的实际场景中具有出色的能力。一些来自篮球、学生和卡车等的跟踪结果如图 6 所示。

Evaluation on HOT-2023 Dataset

作者还将在最新的 HOT-2023 数据集上对 Hy-Tracker 进行全面的评估。该数据集包括三个不同的数据模块:VIR、RedNIR 和 NIR,分别包含 16、15 和 25 个波段。这个数据集包括 110 个训练视频和 87 个验证视频。作者将所提出的方法与四种其他最先进的跟踪方法进行比较,包括 SiamBAN,SiamGAT,SiamCAR 和 TranST 。

比较结果如图 7 所示。结果来自 HOT2。从这些结果可以看出,Hy-Tracker 超过了所有最先进的方法。具体而言,在 AUC 方面,Hy-Tracker 超过了第二好的方法 TranST 一个大点的 5.8%,达到 AUC 为 0.624,而 TranST 为 0.566。此外,在 DP@20pixels 方面,Hy-Tracker 保持了其主导地位,比 TranST 好了 5.9%,达到 DP@20pixels 分数为 0.836,而 TranST 为 0.777。Hy-Tracker 在 AUC 和 DP@20pixels 指标上的持续表现证明了其在各种不同挑战场景中的适应性和鲁棒性。

图 8 显示了来自 HOT-2023 数据集的 vis-card19,vis-rainysstreet16 和 vis-playground 视频的一些跟踪结果,突显了 Hy-Tracker 在各种真实世界场景中的有效性。

IV Conclusion

在本研究中,作者引入了一种新颖的超光谱跟踪器 Hy-Tracker,该跟踪器将最先进的目标检测方法与超光谱跟踪相结合。Hy-Tracker 中的跟踪器模块改进了 YOLO 的建议,并解决了动态场景的挑战。集成的卡尔曼滤波器帮助跟踪器克服遮挡和尺度变化的挑战。Hy-Tracker 在 HOT-2022 和 HOT-2023 数据集上的 promising 结果表明了所提出框架的鲁棒性和可靠性。然而,当物体投影为线性时,卡尔曼滤波器表现良好。因此,在未来,将很有趣地将一个运动系统集成到跟踪器中,以处理物体的非线性投影,并提高跟踪精度和速度。

参考

[1]. Hy-Tracker: A Novel Framework for Enhancing Efficiency and Accuracy of Object Tracking in Hyperspectral Videos.

相关文章
|
算法 Go 计算机视觉
【YOLO系列】YOLOv8算法(尖端SOTA模型)
Ultralytics YOLOv8 是由 Ultralytics开发的一个前沿 SOTA 模型。它在以前 YOLO 版本的成功基础上,引入了新的功能和改进,进一步提升了性能和灵活性。YOLOv8 基于快速、准确和易于使用的理念设计,使其成为广泛的物体检测、图像分割和图像分类任务的绝佳选择。
2919 0
【YOLO系列】YOLOv8算法(尖端SOTA模型)
|
5月前
|
算法 测试技术 调度
【调度算法】DTLZ问题家族
【调度算法】DTLZ问题家族
101 1
|
3月前
|
机器学习/深度学习 算法 数据挖掘
YOLO系列算法
8月更文挑战第13天
|
5月前
|
机器学习/深度学习 并行计算 算法
YOLO算法
YOLO(You Only Look Once)是一种实时目标检测算法,将目标检测视为回归问题,通过单个CNN模型预测边界框和类别。YOLOv1使用24个卷积层和2个全连接层,将输入图像划分为7x7网格,每个网格预测2个边界框。模型直接从448x448图像输出7x7x30的张量,每个单元负责检测中心在其内的目标。YOLO训练涉及构造训练样本和损失函数,常采用预训练的Backbone(如CSPDarknet53)和数据增强技术。YOLOv4是YOLO系列的改进版,包括SPP和PANet等结构,提升了精度和速度,使用IOU损失函数,并采用CutMix和马赛克数据增强。
|
6月前
|
机器学习/深度学习 算法 数据可视化
YOLO系列算法全家桶——YOLOv1-YOLOv9详细介绍 !!(二)
YOLO系列算法全家桶——YOLOv1-YOLOv9详细介绍 !!(二)
868 3
|
6月前
|
机器学习/深度学习 算法 数据挖掘
YOLO系列算法全家桶——YOLOv1-YOLOv9详细介绍 !!(一)
YOLO系列算法全家桶——YOLOv1-YOLOv9详细介绍 !!(一)
855 1
|
6月前
|
机器学习/深度学习 编解码 算法
中科大提出PE-YOLO | 让YOLO家族算法直击黑夜目标检测
中科大提出PE-YOLO | 让YOLO家族算法直击黑夜目标检测
161 0
|
6月前
|
机器学习/深度学习 算法 固态存储
【计算机视觉】目标检测中Faster R-CNN、R-FCN、YOLO、SSD等算法的讲解(图文解释 超详细必看)
【计算机视觉】目标检测中Faster R-CNN、R-FCN、YOLO、SSD等算法的讲解(图文解释 超详细必看)
414 0
|
机器学习/深度学习 Web App开发 人工智能
随时随地,追踪每个像素,连遮挡都不怕的「追踪一切」视频算法来了
随时随地,追踪每个像素,连遮挡都不怕的「追踪一切」视频算法来了
142 0
|
机器学习/深度学习 监控 算法
了解YOLO算法:快速、准确的目标检测技术
了解YOLO算法:快速、准确的目标检测技术
3097 0