一文尽览 | 首篇Transformer在3D点云中的应用综述(检测/跟踪/分割/降噪/补全)(下)

简介: Transformer 一直是自然语言处理 (NLP) 和计算机视觉 (CV) 的核心。NLP 和 CV 的巨大成功激发了研究者对 Transformer 在点云处理中的使用的探索。但是,Transformer如何应对点云的不规则性和无序性?

5 3D 任务



与图像处理 [29] 类似,与 3D 点云相关的任务也可以分为两大类:高级任务和低级任务。高级任务涉及语义分析,其重点是将 3D 点云转换为人们可以理解的信息。去噪和补全等低级任务侧重于探索基本几何信息。它们与人类语义理解没有直接关系,但可以间接促进高级任务。


5.1 高级任务


在 3D 点云处理领域,高级任务通常包括:分类和分割 [7]、[11]、[12]、[32]-[34]、[37]、[39]、[40] , [42], [44], [45], [51], [85], [86], [89], [95]–[99], 目标检测 [35], [46], [47] , [53]–[55], [69], [77], [100]–[102], 跟踪 [56]–[58], 配准 [59]–[63], [71], [72] , [103] 等等。


5.1.1 分类和分割


与图像分类[104]-[107]类似,3D点云分类方法旨在将给定的3D形状分类为特定类别,例如室内场景的椅子、床和沙发,以及室外场景的行人、骑自行车的人和汽车。在 3D 点云处理领域,由于分割网络的编码器通常是从分类网络发展而来的,因此论文将这些任务一起介绍。


Xie等[11]首次将self-attention机制引入点云识别任务。受形状上下文[108]在形状匹配和目标识别方面成功的启发,作者首先将输入点云转换为形状上下文表示的形式。该表示由一组concentric shell bins组成。基于提出的新颖表示,他们随后引入了 ShapeContextNet (SCN) 提取点云特征。为了自动捕获丰富的局部和全局信息,进一步使用点积自注意力模块,从而产生了 Attentional ShapeContextNet (A-SCN)。


受图像分析 [87]、[109] 和 NLP [83] 中的自注意力网络的启发,Zhao 等 [7] 设计了一个基于向量注意力的点云Transformer层。Point Transformer block是在 Point Transformer layer的基础上以残差方式构建的。PT 的编码器仅使用Point Transformer blocks、逐点变换和用于点云分类的池化操作构建。此外,PT 还使用 U-Net 结构实现点云分割,其中解码器与编码器对称。它提出了一个 Transition Up 模块,用于从下采样点云集中恢复具有语义特征的原始点云。此外,引入了跳跃连接以促进反向传播。凭借这些精心设计的模块,PT 成为第一个在 S3DIS 数据集 [110] 的Area 5上达到超过 70% mIoU (70.4%) 的语义分割模型。至于在 ModelNet40 数据集上的形状分类任务,Point Transformer 也取得了 93.7% 的整体准确率。


5.1.2 目标检测


得益于 3D 点云扫描仪的普及,3D 目标检测正成为越来越热门的研究课题。与 2D 目标检测任务类似,3D 目标检测器旨在输出3D边界框。最近,[15] 提出了第一个基于 Transformer 的 2D 目标检测器 DETR。其将 Transformer 和 CNN 结合起来,并摒弃了非极大值抑制 (NMS)。从那时起,Transformer 相关的作品在基于点云的 3D 目标检测领域也呈现出蓬勃发展的态势。


在 VoteNet [113] 的基础上,[53]、[114] 首次将 Transformer 的自注意力机制引入到室内场景中的 3D 目标检测任务中。他们提出了Multi-Level Context VoteNet(MLCVNet),通过编码上下文信息来提高检测性能。在论文中,每个点云patch和vote cluster都被视为 Transformers 中的token。然后利用自注意力机制通过捕获点云patch和vote cluster的关系来增强相应的特征表示。由于集成了自注意力模块,MLCVNet 在 ScanNet [80] 和 SUN RGB-D 数据集 [79] 上都取得了比基线模型更高的性能。PQ-Transformer [100] 尝试同时检测 3D目标 和预测房间布局。借助 Transformer 解码器的房间布局估计和细化特征,PQ-Transformer 在 ScanNet 上获得了 67.2% 的 mAP@0.25。


上述方法采用手工分组方案,通过从相应局部区域内的点云学习来获得目标候选的特征。然而,[54] 认为有限区域内的点云grouping往往会限制3D目标检测的性能。因此,他们借助 Transformers 中的注意力机制提出了一个group-free的框架。核心思想是候选目标的特征应该来自给定场景中的所有点云,而不是点云的子集。在获得候选目标后,[54]首先利用自注意力模块来捕获候选目标之间的上下文信息。然后设计了一个交叉注意力模块,利用所有点云的信息来细化目标特征。通过改进的注意力堆叠方案,[54]在 ScanNet 数据集上实现了 69.1% 的 mAP@0.25。其他相关算法[55]、[69]、[115]可以参考论文。


5.1.3 目标跟踪


3D 目标跟踪将两个点云(即模板点云和搜索点云)作为输入。它在搜索点云中输出目标(模板)的 3D 边界框。即涉及点云的特征提取以及模板和搜索点云之间的特征融合。


[56]认为大多数现有的跟踪方法都没有考虑跟踪过程中目标区域的注意力变化。即搜索点云中的不同区域应该对特征融合过程贡献不同的重要性。基于这一观察,他们提出了一种基于 LiDAR 的 3D 目标跟踪网络 TRansformer network (LTTR)。该方法能够通过捕获跟踪时间的注意力变化来改进模板和搜索点云的特征融合。具体来说,首先构建了一个 Transformer 编码器,分别改进模板和搜索点云的特征表示。然后使用交叉注意力构建Transformer解码器,其可以通过捕获两个点云之间的关系融合来自模板和搜索点云的特征。受益于基于 Transformer 的特征融合,LTTR 在 KITTI 跟踪数据集上达到了 65.8% 的平均精度。[57] 还提出了一个Point Relation Transformer (PRT) 模块,以改进coarse-to-fine的Point Tracking TRansformer (PTTR) 框架中的特征融合。与 LTTR 类似,PRT 使用自注意力和交叉注意力分别对点云内部和点云之间的关系进行编码。不同之处在于 PRT 利用 Offset-Attention [12] 来减轻噪声数据的影响。最终,PTTR 在平均成功率和精度方面分别超过 LTTR 8.4% 和 10.4%,成为 KITTI 跟踪基准上的新 SOTA。


与上述两种专注于特征融合步骤的方法不同。[58]引入了一个Point-Track-Transformer(PTT)模块来增强特征融合步骤后的特征表示。PTTNet 在 KITTI 的 Car上精度相比于 P2B 提高了 9.0%。


5.1.4 点云配准


给定两个点云作为输入,点云配准的目的是找到一个变换矩阵进行对齐。


[59] 中提出的Deep Closest Point (DCP) 模型将 Transformer 编码器引入到点云配准任务中。未对齐的点云首先送入特征嵌入模块,例如 PointNet [5] 和 DGCNN [13],以将 3D 坐标转换到特征空间。然后使用标准的 Transformer 编码器来执行两个特征间的上下文聚合。最后,DCP 利用可微分奇异值分解 (SVD) 层来计算刚性变换矩阵。DCP 是第一个使用 Transformer 来改进配准中点云特征提取的工作。类似地,STORM [60] 也使用 Transformer 来细化 EdgeConv [13] 提取的point-wise特征,以捕获点云之间的长期关系。最终在 ModelNet40 数据集上取得了比 DCP 更好的性能。同样,[61]利用多头自注意力和交叉注意力机制来学习目标和源点云之间的上下文信息。他们的方法专注于处理户外场景,例如 KITTI 数据集 [117]。


最近,[72] 认为在点云配准中可以使用注意力机制替换通过 RANSAC 进行的显式特征匹配和异常值过滤。他们设计了一个名为 REGTR 的端到端 Transformer 框架,以直接查找点云对应关系。在 REGTR 中,来自 KPconv [88] 主干的点云特征被输入到几个多头自注意力和交叉注意力层中,用于比较源点云和目标点云。通过上述简单的设计,REGTR 成为 ModelNet40 [112] 和 3DMatch [118] 数据集上SOTA的点云配准方法。类似地,GeoTransformer [71] 也利用自注意力和交叉注意力来找到鲁棒的superpoint correspondences。在配准 Recall上,REGTR 和 GeoTransformer 在 3DMatch 数据集上都达到了 92.0%。然而,GeoTransformer 在 3DLoMatch [119] 数据集上超过 REGTR 10.2%。其他相关算法[62]请参考论文。


5.1.5 点云视频理解


我们周围的 3D 世界是动态的、时间连续的,这是传统单帧和固定点云无法完全表示的。相比之下,点云视频(以固定帧速率捕获的一组点云)可能是现实世界中动态场景更好的表示。了解动态场景和动态目标对于将点云模型应用于现实世界非常重要。点云视频理解涉及处理 3D 点云的时间序列,所以Transformer 可能是处理点云视频不错的选择,因其擅长处理全局远程交互。


基于上述讨论, [64] 提出了 P4Transformer 来处理点云视频以实现动作识别。为了提取点云视频的局部时空特征,输入数据首先由一组时空局部区域表示。然后使用点云 4D 卷积编码每个局部区域的特征。之后引入Transformer 编码器,通过捕获整个视频的远程关系来接收和整合局部区域的特征。P4Transformer 已成功应用于点云的 3D 动作识别和 4D 语义分割任务。在许多基准测试上(例如,3D动作识别数据集 MSR-Action3D [120] 和 NTU RGB+D 60 [121] 及 4D 语义分割数据集 Synthia 4D [93]),取得了比基于 PointNet++ 的方法更高的结果,展示了 Transformers 在点云视频理解上的有效性。


5.2 低级任务


低级任务的输入数据通常是具有遮挡、噪声和不均匀密度的原始扫描点云。因此,低级任务的最终目标是获得高质量的点云,这可能有利于高级任务。一些典型的低级任务包括点云下采样[43]、上采样[38]、去噪[36]、[65]、补全[50]、[66]-[68]、[73]、[74] ,[123],[124]。


5.2.1 下采样


给定一个具有 N 个点的点云,下采样方法旨在输出具有 M 个点的更小尺寸的点云,同时保留输入点云的几何信息。利用 Transformers 强大的学习能力,LightTN [43] 首先去除了位置编码,然后使用了一个小尺寸的共享线性层作为嵌入层。此外,MSA 模块被单头自相关层取代。实验结果表明,上述策略显着降低了计算成本。在仅采样 32 个点的情况下,仍然可以达到 86.18% 的分类准确率。此外,轻量级的 Transformer 网络被设计成一个可拆卸的模块,可以很容易地插入到其他神经网络中。


5.2.2 上采样


与下采样相反,上采样方法旨在恢复丢失的精细几何信息[125]。我们期望上采样后的点云可以反映真实的几何形状,并位于给定稀疏点云表示的目标表面上。PU-Transformer [38] 是第一个将 Transformer 应用于点云上采样的工作。[38] 设计了两个新颖的模块。第一个模块是Positional Fusion(PosFus)模块,旨在捕获与局部位置相关的信息。第二个是 Shifted Channel Multi-head Self-Attention (SC-MSA) 模块,旨在解决传统 MSA 中不同head输出之间缺乏连接的问题。实验结果表明,PU-Transformer 展示了基于 Transformer 的模型在点云上采样中的巨大潜力。


5.2.3 降噪


去噪以被噪声破坏的点云作为输入,利用局部几何信息输出干净的点云。首篇相关工作TDNet [36],将每个点云作为word token,证明了 NLP Transformer [6] 适用于点云特征提取。基于 Transformer 的编码器将输入点云映射到高维特征空间并学习点云之间的语义关系。通过从编码器中提取的特征,可以获得噪声输入点云的 latent manifold。最后,可以通过对每个patch manifold进行采样来生成干净的点云。


另一类点云去噪方法是直接从输入点云中滤除噪声点。例如,一些激光雷达点云可能包含大量虚拟(噪声)点云,这些点云是由玻璃或其他反射材料的镜面反射产生的。为了检测这些反射噪声点云,[65] 首先将输入的 3D LiDAR 点云投影到 2D range image中。然后使用基于 Transformer 的自动编码器网络来预测噪声掩码,进而获取反射噪声点云。


5.2.4 补全


在大多数 3D 实际应用中,由于来自其他目标的遮挡或自遮挡,通常很难获得目标或场景的完整点云。这个问题使得点云补全成为 3D 视觉领域中一项重要的低级任务。


[66] 首次提出PoinTr,将点云补全转换为集合到集合的翻译任务。具体来说,作者声称输入点云可以由一组局部点云表示,称为“点云代理”。其以一系列点云代理作为输入,精心设计了一个几何感知的 Transformer block来生成缺失部分的点云代理。以一种从粗到细的方式,最终使用 FoldingNet [126] 根据预测的点云代理补全点云。其他相关算法[67]、[68]可以参考论文。


6 3D自注意力变体



基于标准的 self-attention 模块,有许多变体旨在提高 Transformers 在 3D 点云处理中的性能。


6.1 Point-wise变体


P-A [10](下图a)和 A-SCN [11](下图b)在其 Transformer 编码器中使用不同的残差结构。前者加强了模块的输出和输入之间的联系,而后者则建立了模块的输出与Value 矩阵的关系。相关实验表明,残差连接促进了模型收敛[11]。


受图卷积网络 [82] 中的拉普拉斯矩阵的启发,PCT [12] 进一步提出了 Offset-Attention 模块(下图c)。该模块通过矩阵减法计算自注意力(SA)特征与输入特征X之间的偏移(差异),类似于离散拉普拉斯运算。


PT [7](图 4(d))在其 Transformer 网络中引入了向量减法注意力算子,取代了常用的标量点积注意力。与标量注意相比,向量注意力更具表现力,因为它支持单个特征通道的自适应调制,而不是整个特征向量。这种表达方式在 3D 数据处理中似乎非常有益 [7]。其他相关可以算法[8]、[43]、[38]、[44]可以参考论文。

640.png


6.2 Channel-wise变体


Dual Transformer Network (DT-Net) [39] 提出了基于通道的 MSA,将自注意力机制应用于通道空间。如下图a所示,与标准的自注意力机制不同,channel-wise MSA 将转置的 Query 矩阵和 Key 矩阵相乘。因此,可以生成注意力图来测量不同通道之间的相似性。


如下图b所示,CAA 模块 [40] 利用类似的方法来生成不同通道之间的相似度矩阵。此外,它设计了一个 CAE 模块来生成亲和矩阵,加强不同通道之间的联系并避免聚合相似或冗余的信息。[41] 中提出的 Transformer-Conv 模块学习了特征通道和坐标通道之间的潜在关系。如下图c所示,Query 矩阵和 Key 矩阵分别由点云的坐标和特征生成。

640.png


7 对比和分析



本节对 3D Transformer 在分类、部件分割、语义分割和目标检测等几个主流任务上进行了整体比较和分析。


7.1 分类和分割


3D 点云分类和分割是两项基本但具有挑战性的任务,Transformers 在其中发挥了关键作用。分类最能反映神经网络提取显著特征的能力。下表展示了不同方法在 ModelNet40 [112] 数据集上的分类精度。为了公平比较,还显示了输入数据和输入大小。


从表格中可以看到最近基于 Transformer 的点云处理方法从 2020 年开始激增,当时在 ViT 论文 [17] 中首次将 Transformer 结构用于图像分类。由于强大的全局信息聚合能力,Transformers 在这项任务中迅速取得领先地位。大多数 3D Transformer 的分类准确率约为 93.0%。最新的 PVT [45] 将极限推到了 94.0%,超过了同期大多数非 Transformer 算法。作为一项新兴技术,Transformer 在点云分类方面的成功展示了其在 3D 点云处理领域的巨大潜力。论文还展示了几种最先进的基于非 Transformer 的方法作为参考。可以看出,最近基于非Transformer的方法的分类准确率已经超过94.0%,最高的是94.5%,由PointMLP[141]实现。Transformer 方法中使用的各种注意力机制是通用的,未来具有很大的突破潜力。我们相信将通用点云处理方法的创新应用于 Transformer 方法可以实现最先进的结果。例如,PointMLP 中的几何仿射模块可以很容易地集成到基于 Transformer 的网络中。

640.png


对于部件分割,使用 ShapeNet 部件分割数据集 [142] 结果进行比较。将常用的part-average Intersection-over-Union 作为性能指标。如表2所示,所有基于 Transformer 的方法都实现了大约 86% 的 pIOU,除了 ShapeContextNet [11],它是 2019 年之前发布的早期模型。请注意,Stratified Transformer [51] 实现了最高的 86.6% pIOU。它也是 S3DIS 语义分割数据集 [110](表 3)上语义分割任务中的最佳模型。

640.png


7.2 目标检测


Transformers 在点云 3D 目标检测中的应用仍然较少。最近只有少数基于 Transformer 或 Attention 的方法。一个原因可能是目标检测比分类更复杂。表4 总结了相关算法在两个数据集上的性能:SUN RGB-D [79] 和 ScanNetV2 [80]。VoteNet [113] 也作为参考,这是 3D 目标检测的开创性工作。在 ScanNetV2 数据集中的 AP@25 方面,所有基于 Transformer 的方法都比 VoteNet 表现得更好。Pointformer [35] 和 MLCVNet [53] 基于 VoteNet,并取得了相似的性能。他们都利用了 Transformers 中的自注意力机制来增强特征表示。GroupFree3D [54] 没有利用上述两种方法中的局部投票策略,而是直接从场景中的所有点云聚合语义信息来提取目标的特征。其 69.1% 的性能表明,通过自注意力机制聚合特征比局部投票策略更有效。3DETR [55] 作为第一个端到端的基于 Transformer 的 3D 目标检测器,在 ScanNetV2 数据集中取得第二名,为 65.0%。


640.png


8 讨论和总结



8.1 讨论


与 2D 计算机视觉一样,Transformers 在 3D 点云处理方面也展示了其潜力。从 3D 任务的角度来看,基于 Transformer 的方法主要侧重于高级任务,例如分类和分割。论文认为原因是 Transformer 更擅长通过捕获长依赖关系来提取全局上下文信息,这对应于高级任务中的语义信息。另一方面,降噪和采样等低级任务侧重于探索局部几何特征。从性能的角度看,3D Transformers 提高了上述任务的准确性,并超越了大多数现有方法。但是对于某些任务,它们与最先进的基于非Transformer的方法之间仍有差距。这表明仅使用 Transformer 作为主干是不够的。必须采用其他创新的点云处理技术。因此,尽管3D Transformer 发展迅速,但作为一项新兴技术,仍需进一步探索和完善。

基于 Transformer 的特性及其在 2D 领域的成功应用,论文指出了 3D Transformers 的几个潜在未来方向。


8.1.1 Patch-wise Transformers


3D Transformer 可以分为两组:Point-wise 和 Channel-wise Transformers。此外,参考 Transformers 在 2D 图像处理中的探索 [87],可以根据操作形式将 Point-wise Transformers 进一步分为 Pair-wise 和 Patch-wise Transformers。前者通过相应的点云pair计算特征向量的注意力权重,而后者结合了给定patch中所有点云的信息。


目前,在 3D 点云处理领域还很少有patch-wise Transformer 研究。考虑到 patch-wise 的优势及其在图像处理中的出色表现,我们认为将 patch-wise Transformers 引入点云处理有利于性能提升。


8.1.2 Adaptive Set Abstraction


PointNet++ [4] 提出了一个集合抽象(Set Abstraction,SA)模块来分层提取点云的语义特征。它主要利用FPS和query ball grouping算法分别实现采样点云搜索和局部patch构建。然而,FPS 生成的采样点云倾向于均匀分布在原始点云中,而忽略了不同部分之间的几何和语义差异。例如,飞机尾部的几何形状比机身更复杂、更明显。因此,前者需要更多的采样点云来描述。此外,query ball grouping侧重于基于欧几里德距离搜索邻域点云,忽略了点云之间的语义特征差异,这使得具有不同语义信息的点云很容易分组到同一个局部patch中。因此,开发自适应集合抽象有利于提高 3D Transformer 的性能。最近,在 3D 领域有几种基于 Transformer 的方法探索自适应采样 [43]。但很少有人充分利用自注意力机制产生的丰富的短期和长期依赖关系。在图像处理领域,[143]中提出的Deformable Attention Transformer(DAT)通过引入偏移网络来生成deformed sampling points。它以低计算量在基准测试中取得了令人印象深刻的结果。提出一种基于自注意力机制的分层Transformer自适应采样方法将是有意义的。此外,受 2D 超像素 [144] 的启发,我们认为利用 3D Transformers 中的注意力图来获得用于点云oversegmentatio 的“superpoint”[145],将点云级 3D 数据转换为邻域级数据是可行。因此,这种自适应聚类技术可以用来代替query ball grouping方法。


8.1.3 Self-supervised Transformer Pre-training


Transformers 在 NLP 和 2D 图像任务上的成功很大程度上不仅来自于它们出色的可扩展性,还来自于大规模的自监督预训练[83]。Vision Transformer [17] 进行了一系列自监督实验,展示了自监督 Transformer 的潜力。在点云处理领域,尽管有监督的点云方法取得了重大进展,但点云标注仍然是一项劳动密集型任务。有限的标记数据集阻碍了监督方法的发展,特别是在点云分割任务方面。最近,已经提出了一系列自监督方法来处理这些问题,例如 2D 领域的生成对抗网络 (GAN) [146]、自动编码器 (AE) [147]、[148] 和高斯混合模型(GMM)[149]。这些方法使用自动编码器和生成式模型来实现自监督点云表示学习[96],并证明了自监督点云方法的有效性。然而,目前很少有自监督 Transformer 应用于 3D 点云处理。随着大规模 3D 点云的可用性越来越高,值得探索用于点云表示学习的自监督 3D Transformer。


8.2 总结


Transformer 模型在 3D 点云处理领域引起了广泛关注,并在各种 3D 任务中取得了令人瞩目的成果。本文全面回顾了最近应用于点云相关任务的基于 Transformer 的网络,例如点云分类、分割、目标检测、配准、采样、去噪、补全等实际应用。论文首先介绍了 Transformer 的理论,并描述了 2D 和 3D Transformer 的开发和应用。然后,论文利用三种不同的分类法将现有文献中的方法分为多组,并从多个角度对其进行分析。此外,论文还描述了一系列旨在提高性能和降低计算成本的自注意力变体。在点云分类、分割和目标检测方面,本文对所审查的方法进行了简要比较。最后,论文为 3D Transformer的发展提出了三个潜在的未来研究方向。希望本次调查能够让研究人员全面了解 3D 变形金刚,并激发他们进一步创新该领域研究的兴趣。


9 参考



[1] Transformers in 3D Point Clouds: A Survey


原文首发微信公众号【自动驾驶之心】:一个专注自动驾驶与AI的社区(https://mp.weixin.qq.com/s/NK-0tfm_5KxmOfFHpK5mBA

相关文章
|
8月前
|
机器学习/深度学习 算法 机器人
【论文速递】TMM2023 - FECANet:用特征增强的上下文感知网络增强小样本语义分割
【论文速递】TMM2023 - FECANet:用特征增强的上下文感知网络增强小样本语义分割
|
机器学习/深度学习 传感器 编解码
史上最全 | BEV感知算法综述(基于图像/Lidar/多模态数据的3D检测与分割任务)
以视觉为中心的俯视图(BEV)感知最近受到了广泛的关注,因其可以自然地呈现自然场景且对融合更友好。随着深度学习的快速发展,许多新颖的方法尝试解决以视觉为中心的BEV感知,但是目前还缺乏对该领域的综述类文章。本文对以视觉为中心的BEV感知及其扩展的方法进行了全面的综述调研,并提供了深入的分析和结果比较,进一步思考未来可能的研究方向。如下图所示,目前的工作可以根据视角变换分为两大类,即基于几何变换和基于网络变换。前者利用相机的物理原理,以可解释性的方式转换视图。后者则使用神经网络将透视图(PV)投影到BEV上。
史上最全 | BEV感知算法综述(基于图像/Lidar/多模态数据的3D检测与分割任务)
|
7月前
|
机器学习/深度学习 人工智能 监控
一文读懂计算机视觉4大任务:分类任务、检测任务、目标分割任务、关键点检测任务
一文读懂计算机视觉4大任务:分类任务、检测任务、目标分割任务、关键点检测任务
|
机器学习/深度学习 传感器 编解码
万字长文 | 多目标跟踪最新综述(基于Transformer/图模型/检测和关联/孪生网络)(上)
随着自动驾驶技术的发展,多目标跟踪已成为计算机视觉领域研究的热点问题之一。MOT 是一项关键的视觉任务,可以解决不同的问题,例如拥挤场景中的遮挡、相似外观、小目标检测困难、ID切换等。为了应对这些挑战,研究人员尝试利用transformer的注意力机制、利用图卷积神经网络获得轨迹的相关性、不同帧中目标与siamese网络的外观相似性,还尝试了基于简单 IOU 匹配的 CNN 网络、运动预测的 LSTM。为了把这些分散的技术综合起来,作者研究了过去三年中的一百多篇论文,试图提取出近年来研究者们更加关注的解决 MOT 问题的技术。
万字长文 | 多目标跟踪最新综述(基于Transformer/图模型/检测和关联/孪生网络)(上)
|
8月前
|
编解码 算法 自动驾驶
【计算机视觉】基于光流特征的目标跟踪算法LK光流法的讲解(图文解释 超详细)
【计算机视觉】基于光流特征的目标跟踪算法LK光流法的讲解(图文解释 超详细)
540 0
|
机器学习/深度学习 监控 算法
|
机器学习/深度学习 编解码 自然语言处理
DAFormer | 使用Transformer进行语义分割无监督域自适应的开篇之作(一)
DAFormer | 使用Transformer进行语义分割无监督域自适应的开篇之作(一)
429 0
|
机器学习/深度学习 编解码 自动驾驶
联合训练2D-3D多任务学习 | 深度估计、检测、分割、3D检测通吃
联合训练2D-3D多任务学习 | 深度估计、检测、分割、3D检测通吃
361 0
|
算法 计算机视觉 网络架构
【项目实践】基于Mask R-CNN的道路物体检测与分割(从数据集制作到视频测试)(一)
【项目实践】基于Mask R-CNN的道路物体检测与分割(从数据集制作到视频测试)(一)
213 0
|
计算机视觉
【项目实践】基于Mask R-CNN的道路物体检测与分割(从数据集制作到视频测试)(二)
【项目实践】基于Mask R-CNN的道路物体检测与分割(从数据集制作到视频测试)(二)
92 0