CVPR 2022 | 结合短期动态、长期一致性,视频伪装物体检测框架,大幅超越SOTA(2)

简介: CVPR 2022 | 结合短期动态、长期一致性,视频伪装物体检测框架,大幅超越SOTA

3. CNN 解码器:如 [9] 所述,近邻连接解码器相比通常的连接解码器(如稠密连接或者短连接)更加可靠。此外,[9] 所使用的分组反向注意力(Group-Reversal Attention,GRA)策略可以在物体边界处提供更加准确的分割结果。基于此,本文直接将来自短期相关性金字塔的特征,即, i ∈ {2, 3, 4},输入到 GRA 中,生成优化的特征图。近邻连接解码器(Neighbor Connection Decoder,NCD)用来生成粗糙的图,该图可以提供伪装物体大致定位的反向引导。如此,就可以汇聚来自 CNN 解码器的低层 特征和来自相关金字塔的高层特征。
长期一致性架构
给定一个来自短期架构的序列,与像素级的预测, 本文将长期一致性优化过程定义为一个 seq-to-seq 问题。图5给出长期一致性的架构。本文使用同样的骨干网络,即 Transformer 编码器和 CNN 解码器模块,作为短期架构。因为该架构已经在伪装数据集做过了预训练,使得大大加速长期框架的训练过程。

对于输入序列的每一帧,本文将色彩帧 I_t 与其在通道维对应的预测进行拼接,然后堆叠每个序列中拼接的帧,形成一个 4D 张量网络将作为输入,输出最终的预测 序列

有两类 seq-to-seq 的建模框架:一类是使用 ConvLSTM 来建模时序信息,另一类使用基于 Transformer 的建模网络。本文实现了两种架构,并且在4.4小节对比了它们的结果。据本文所知,使用 Transformer 结构可以得到更好的结果,所以,本文选择 Transformer 来作为序列建模的网络,来引入长期一致性约束。
如图5中右侧所示,为 seq-to-seq 建模网络的细节。对于每一个目标像素,为了减少构建稠密时空相似度矩阵的复杂度,本文选择一个固定数量的关联性度量 块来构建受约束邻域内的相关度矩阵。训练中,本文采 用一个混合损失函数 [10]:

其中,是增强对齐损失。这样的混合损失可以 引导网络去学习像素级、物体级以及图像级的特征。
实验
本节在 CAD 数据集和本文提出的 MoCA-Mask 数据集上,对本文所提的框架进行了系统地评估。本文同时给出了一个 VCOD 任务的全面的评测基准,来促进该领域发展。
MoCA-Mask 数据集上的性能:如表1所示,本文的方法明显优于对比方法。其中,在 S_α 指标上以 9.88% 的差距,超过当前最好的对比模型 RCRNet [46],在指标上以 92.97% 超过了 SINet [11] 模型。如图6, 给出本文的方法与基准模型的定性对比。本文的模型可以在很多有挑战性的情况(例如物体有纤细的躯干 或复杂的外观纹理、模糊或者突变运动)中,更加准确地定位与分割伪装物体。


CAD 数据集上的性能:如表2所示,本文评估了不同方法在 CAD 数据集上的跨数据集的泛化性。本文的方法再次在所有 6 个评测指标上优于对比方法。进一步展现出本文方法的鲁棒性。如图7所示,本文的方法可以得到更加清晰的边界与更细粒度的可视化细节。这受益于模型在特征空间所构建的像素级相关性对。



本文在 MoCA-Mask 数据集上进行消融实验。具体来讲,本文深入研究了:短期和长期模块的功能性分析,sequence-to-sequence 框架选择以及本文的伪掩模。
短期和长期模块:本文从两个方面来评估短期和长期模块的有效性。首先,如表3所示,本文在 MoCA-Mask 数据集上对短期和长期模块进行了消融实验。


然后,本文在当前先进的 VSOD 模型 RCRNet [46] 上,用本文的基于 Transformer 的编码器来替换它原来的编码器,用来比较这两种方法对于时序信息的处理策略,结果如表4所示。在时空一致性建模层面,在评估指标上,能看出操作所带来的指标的提升与下降,在 S_α 指标上提升1.51%,在
上下降 0.97%,在 E_ϕ 上降低 0.16%,在 M 上提升 6.98%。


Transformer 与 ConvLSTM 的对比:本文用两种不同的方法来实现长期架构,分别是基于 Transformer 的方法和基于 ConvLSTM 的方法。对于 ConvLSTM 方法,本文采用了 [6] 提出的一个比较新的 ConvLSTM 模型变体,但是本文将其中 VGG 风格的 CNN 编码器解码器结构,用本文的 Transformer 风格的骨干网络代替。从表5中能看到,Transformer 变体相比 ConvLSTM 模型在 4 个指标上都更优并且参数量更少。

5. 结论
本文提出了一个用于视频伪装物体分割的方法 SLT-Net。具体来讲,本文使用短期模块来隐式捕捉连续帧之间的运动,使得本文可以在一个框架下同时优化运动的估计和分割。本文还提出了一个基于 sequence- to-sequence Transformer 的长期模块,来保证视频序列上的时序一致性。为了促进 VCOD 领域的发展,本文重新构造了名为 MoCA-Mask 的新数据集,包括了 87 段高质量视频序列,共计 22,939 帧,是 VCOD 领域目前最大的像素级标注数据集,使得物体级别评测成为可能。对比了当前最先进的基准模型,本文提出的网络在两个 VCOD 评测基准上均取得了最优的表现。

相关文章
|
1天前
|
人工智能 测试技术
VideoPhy:UCLA 和谷歌联合推出评估视频生成模型物理模拟能力的评估工具,衡量模型生成的视频是否遵循现实世界的物理规则
VideoPhy 是 UCLA 和谷歌联合推出的首个评估视频生成模型物理常识能力的基准测试,旨在衡量模型生成的视频是否遵循现实世界的物理规则。
18 9
VideoPhy:UCLA 和谷歌联合推出评估视频生成模型物理模拟能力的评估工具,衡量模型生成的视频是否遵循现实世界的物理规则
|
18天前
|
机器学习/深度学习 数据采集 人工智能
打破RLHF瓶颈,克服奖励欺骗!Meta发布全新后训练方式CGPO,编程水平直升5%
Meta提出了一种名为约束生成策略优化(CGPO)的新型后训练范式,用于解决基于人类反馈的强化学习(RLHF)在多任务学习中的挑战,如奖励欺骗和极端多目标优化。CGPO通过混合裁判(MoJ)技术,结合成本效益约束策略优化和分层技术,系统化地识别RLHF中的平衡点。与传统方法相比,CGPO在多个任务上表现出色,包括一般聊天、STEM问题、指令遵循、数学、编程和知识等,且具有理论保证。CGPO还能够检测并缓解奖励欺骗行为,显著提升了多任务学习的性能。论文链接:https://arxiv.org/pdf/2409.20370
34 7
|
3月前
|
机器学习/深度学习 PyTorch 算法框架/工具
揭秘深度学习中的微调难题:如何运用弹性权重巩固(EWC)策略巧妙应对灾难性遗忘,附带实战代码详解助你轻松掌握技巧
【10月更文挑战第1天】深度学习中,模型微调虽能提升性能,但常导致“灾难性遗忘”,即模型在新任务上训练后遗忘旧知识。本文介绍弹性权重巩固(EWC)方法,通过在损失函数中加入正则项来惩罚对重要参数的更改,从而缓解此问题。提供了一个基于PyTorch的实现示例,展示如何在训练过程中引入EWC损失,适用于终身学习和在线学习等场景。
156 4
揭秘深度学习中的微调难题:如何运用弹性权重巩固(EWC)策略巧妙应对灾难性遗忘,附带实战代码详解助你轻松掌握技巧
|
6月前
|
机器学习/深度学习 搜索推荐 知识图谱
图神经网络加持,突破传统推荐系统局限!北大港大联合提出SelfGNN:有效降低信息过载与数据噪声影响
【7月更文挑战第22天】北大港大联手打造SelfGNN,一种结合图神经网络与自监督学习的推荐系统,专攻信息过载及数据噪声难题。SelfGNN通过短期图捕获实时用户兴趣,利用自增强学习提升模型鲁棒性,实现多时间尺度动态行为建模,大幅优化推荐准确度与时效性。经四大真实数据集测试,SelfGNN在准确性和抗噪能力上超越现有模型。尽管如此,高计算复杂度及对图构建质量的依赖仍是待克服挑战。[详细论文](https://arxiv.org/abs/2405.20878)。
93 5
|
7月前
|
机器学习/深度学习 人工智能
ACL 2024:提升大模型持续学习性能,哈工大、度小满提出共享注意力框架SAPT
【6月更文挑战第8天】哈工大和度小满在ACL 2024会议上提出SAPT,一种共享注意力框架,用于提升大模型的持续学习性能,解决灾难性遗忘和知识转移问题。SAPT通过协调学习和选择模块,共享注意力以保留旧知识并有效转移至新任务。实验显示SAPT在多个基准和模型规模上表现优秀,但可能增加模型复杂性和计算成本,且在特定任务中适用性需进一步评估。论文链接:https://arxiv.org/abs/2401.08295
123 8
|
8月前
|
机器学习/深度学习 编解码 数据可视化
南开大学提出YOLO-MS | 超越YOLOv8与RTMDet,即插即用打破性能瓶颈
南开大学提出YOLO-MS | 超越YOLOv8与RTMDet,即插即用打破性能瓶颈
125 1
|
8月前
|
机器学习/深度学习 存储 编解码
沈春华团队最新 | SegViT v2对SegViT进行全面升级,让基于ViT的分割模型更轻更强
沈春华团队最新 | SegViT v2对SegViT进行全面升级,让基于ViT的分割模型更轻更强
126 0
|
8月前
|
计算机视觉
模型落地必备 | 南开大学提出CrossKD蒸馏方法,同时兼顾特征和预测级别的信息
模型落地必备 | 南开大学提出CrossKD蒸馏方法,同时兼顾特征和预测级别的信息
175 0
|
机器学习/深度学习 计算机视觉 索引
Backbone | 谷歌提出LambdaNetworks:无需注意力让网络更快更强(文末获取论文源码)(一)
Backbone | 谷歌提出LambdaNetworks:无需注意力让网络更快更强(文末获取论文源码)(一)
180 1
|
机器学习/深度学习 编解码 监控
CVPR 2022 | 结合短期动态、长期一致性,视频伪装物体检测框架,大幅超越SOTA(1)
CVPR 2022 | 结合短期动态、长期一致性,视频伪装物体检测框架,大幅超越SOTA
174 0