可变形卷积在视频学习中的应用:如何利用带有稀疏标记数据的视频帧

简介: 可变形卷积在视频学习中的应用:如何利用带有稀疏标记数据的视频帧

640.png


卷积层是卷积神经网络的基本层。虽然它在计算机视觉和深度学习中得到了广泛的应用,但也存在一些不足。例如,对于某些输入特征图,核权值是固定的,不能 适应局部特征的变化,因此需要更多的核来建模复杂的特征图幅,这是多余的,效率不高。体积膨胀,由于输出转换的接受野始终是矩形的,作为层叠卷积的累积 效应,接受野会越来越大,接受野中会包含一些与输出转换无关的背景。不相关的背景会给输出位移的训练带来噪声。

为了克服上述问题,你想对传统的卷积层做一个小小的改变:内核可以适应局部特征的变化,接受场可以收敛到与输出对应的语义背景。虽然这些想法看起来很复杂,但是幸运的是,它已经被实现 了,这个改进的卷积层叫做可变形卷积层。

在这篇文章中,我将介绍以下主题:

  1. 可变形卷积
  2. 使用可变形卷积增强关键点估计的性能
  3. 使用可变形卷积增强实例分割的性能

可变形卷积

640.png

可变形卷积是一个卷积层加上偏移量学习。如上所示,对于卷积核的每个足迹,都学习了2D偏移量,以便将足迹引导到最适合训练的位置。偏移量学习部分也是卷积层,其输出通道数是输入通道数的两倍,因为每个像素都有两个偏移量坐标。基于这种方法,内核可以适应局部特征变化,这对于语义特征学习是有效的。

640.png

这是补偿学习的例证。a是传统的卷积,其中内核足迹完全不动。b,c和d说明了足迹移动。

640.png

在可变形的卷积中,深像素的接收场集中到相应的物体。如上所示,在中,深蓝色像素(上方)属于大绵羊。但是,其矩形接受区域(底部)在左底部包含小绵羊,这可能会给诸如实例分割之类的任务带来歧义。在b中,感受野变形并集中在大羊身上,避免了歧义。

了解可变形卷积中的偏移

如上所述,偏移量有利于局部特征的核适应和接受场的集中。顾名思义,偏移量用于使内核足迹局部变形,从而最终使接收场整体变形。

现在棘手的部分来了:由于可以学习偏移以适应当前图片中的对象,因此我们可以将当前图片中的对象适应到另一张图片中的对象,并在它们之间提供偏移吗?

让我们具体说吧。假设我们有一个视频,其中每个帧都与其相邻帧相似。然后我们稀疏地选择一些帧,并在像素级别上对其进行标记,例如语义分割或关键点等。由于这些像素级别的标注会需要昂贵成本,是否可以使用未标记的相邻帧来提高泛化的准确性?具体地说,通过一种使未标记帧的特征图变形为其相邻标记帧的方法,以补偿标记帧α中的丢失信息。

学习稀疏标记视频的时间姿态估计

640.png

这项研究是对上面讨论的一个很好的解决方案。由于标注成本很昂贵,因此视频中仅标记了少量帧。然而,标记帧图像中的固有问题(如遮挡,模糊等)阻碍了模型训练的准确性和效率。为了解决这个问题,作者使用可变形卷积将未标记帧的特征图变形为其相邻标记帧的特征图,以修补上述固有问题。偏移量就是带标记的帧和未带标记的相邻帧之间优化后的特征差。利用多分辨率特征金字塔构造可变形部分,并采用不同的扩张方法。该方法的优点在于,我们可以利用相邻的未标记帧来增强已标记帧的特征学习,因为相邻帧相似,我们无需对视频的每一帧进行标记。这种可变形的方法,也被作者称为“扭曲”方法,比其他一些视频学习方法,如光流或3D卷积等,更便宜和更有效。

640.png

如上所示,在训练过程中,未标记帧B的特征图会扭曲为其相邻的标记帧A的特征图。在推理过程中,可以使用训练后的翘曲模型传播帧A的正确的标注值(ground truth),以获取A的关键点估计。此外,可以合并更多相邻帧,并合并其特征图,以提高关键点估计的准确性。

具有遮罩传播的视频实例分割

640.png

作者还通过在现有的Mask-RCNN模型中附加一个掩码传播头来提出用于实例分割的掩码传播,其中可以将时间t的预测实例分割传播到其相邻帧t +δ。

640.png

该网络结构类似于上面讨论的姿势估计网络,但有点复杂。它包括三个部分:1)帧t的实例分割预测;2)帧t与t +δ之间的偏移优化和分割变形;3)特征图聚合,用于最终预测帧t +δ处的实例分割。在这里,作者还使用乘法层来滤除噪声,仅关注对象实例存在的特征。通过相邻帧的特征聚合,可以缓解遮挡,模糊的问题。

结论

将可变形卷积引入到具有给定偏移量的视频学习任务中,通过实现标签传播和特征聚合来提高模型性能。与传统的一帧一标记学习方法相比,提出了利用相邻帧的特征映射来增强表示学习的多帧一标记学习方法。这样,模型就可以通过训练看到被相邻帧的其他眼睛遮挡或模糊的部分。

引用

Deformable Convolutional Networks, 2017 (arxiv.org/1703.06211)

Learning Temporal Pose Estimation from Sparsely-Labeled Videos, (2019 arxiv.org/1906.04016)

Classifying, Segmenting, and Tracking Object Instances in Video with Mask Propagation, 2020 (arxiv.org/1912.04573)


目录
打赏
0
0
0
0
529
分享
相关文章
RT-DETR改进策略【注意力机制篇】| WACV-2024 D-LKA 可变形的大核注意 针对大尺度、不规则的目标图像
RT-DETR改进策略【注意力机制篇】| WACV-2024 D-LKA 可变形的大核注意 针对大尺度、不规则的目标图像
21 2
RT-DETR改进策略【注意力机制篇】| WACV-2024 D-LKA 可变形的大核注意 针对大尺度、不规则的目标图像
YOLOv11改进策略【注意力机制篇】| WACV-2024 D-LKA 可变形的大核注意 针对大尺度、不规则的目标图像
YOLOv11改进策略【注意力机制篇】| WACV-2024 D-LKA 可变形的大核注意 针对大尺度、不规则的目标图像
21 0
YOLOv11改进策略【注意力机制篇】| WACV-2024 D-LKA 可变形的大核注意 针对大尺度、不规则的目标图像
RT-DETR改进策略【注意力机制篇】| CVPRW-2024 分层互补注意力混合层 H-RAMi 针对低质量图像的特征提取模块
RT-DETR改进策略【注意力机制篇】| CVPRW-2024 分层互补注意力混合层 H-RAMi 针对低质量图像的特征提取模块
16 0
【YOLOv8改进】HWD: Haar小波降采样,用于语义分割的降采样模块,减少特征图的空间分辨率
YOLOv8专栏探讨了卷积网络的改进,特别是提出了一种名为HWD的基于Haar小波的下采样模块,用于语义分割,旨在保留更多空间信息。HWD结合了无损编码和特征表示学习,提高了模型性能并减少了信息不确定性。新度量标准FEI量化了下采样的信息保留能力。论文和代码可在提供的链接中找到。核心代码展示了如何在PyTorch中实现HWD模块。
【YOLOv8改进】 SPD-Conv空间深度转换卷积,处理低分辨率图像和小对象问题 (论文笔记+引入代码)
YOLO目标检测专栏探讨了CNN在低分辨率和小目标检测中的局限性,提出SPD-Conv新架构,替代步长卷积和池化层,通过空间到深度层和非步长卷积保持细粒度信息。创新点包括消除信息损失、通用设计和性能提升。YOLOv5和ResNet应用SPD-Conv后,在困难任务上表现优越。详情见YOLO有效改进系列及项目实战目录。
LRP-QViT完美而来 | 输出层分配相关性+剪切通道让Swin Transformer量化后居然涨1.5个点
LRP-QViT完美而来 | 输出层分配相关性+剪切通道让Swin Transformer量化后居然涨1.5个点
327 0
大卷积核大有用处 | LSKNet + DiffusionDet更高更强的目标检测模型
大卷积核大有用处 | LSKNet + DiffusionDet更高更强的目标检测模型
187 0
小目标检测新方法SCTransNet | 空间通道交叉Transformer & 互补前馈达成完美语义信息传递
小目标检测新方法SCTransNet | 空间通道交叉Transformer & 互补前馈达成完美语义信息传递
1036 0
神经网络风格化过程的特征控制
翻译:《Controlling Perceptual Factors in Neural Style Transfer》
用于自适应识别和控制的前馈神经网络与在线顺序学习算法(Matlab代码实现)
用于自适应识别和控制的前馈神经网络与在线顺序学习算法(Matlab代码实现)
102 0
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等