CVPR 2022 | 结合短期动态、长期一致性,视频伪装物体检测框架,大幅超越SOTA(2)

简介: CVPR 2022 | 结合短期动态、长期一致性,视频伪装物体检测框架,大幅超越SOTA

3. CNN 解码器:如 [9] 所述,近邻连接解码器相比通常的连接解码器(如稠密连接或者短连接)更加可靠。此外,[9] 所使用的分组反向注意力(Group-Reversal Attention,GRA)策略可以在物体边界处提供更加准确的分割结果。基于此,本文直接将来自短期相关性金字塔的特征,即, i ∈ {2, 3, 4},输入到 GRA 中,生成优化的特征图。近邻连接解码器(Neighbor Connection Decoder,NCD)用来生成粗糙的图,该图可以提供伪装物体大致定位的反向引导。如此,就可以汇聚来自 CNN 解码器的低层 特征和来自相关金字塔的高层特征。
长期一致性架构
给定一个来自短期架构的序列,与像素级的预测, 本文将长期一致性优化过程定义为一个 seq-to-seq 问题。图5给出长期一致性的架构。本文使用同样的骨干网络,即 Transformer 编码器和 CNN 解码器模块,作为短期架构。因为该架构已经在伪装数据集做过了预训练,使得大大加速长期框架的训练过程。

对于输入序列的每一帧,本文将色彩帧 I_t 与其在通道维对应的预测进行拼接,然后堆叠每个序列中拼接的帧,形成一个 4D 张量网络将作为输入,输出最终的预测 序列

有两类 seq-to-seq 的建模框架:一类是使用 ConvLSTM 来建模时序信息,另一类使用基于 Transformer 的建模网络。本文实现了两种架构,并且在4.4小节对比了它们的结果。据本文所知,使用 Transformer 结构可以得到更好的结果,所以,本文选择 Transformer 来作为序列建模的网络,来引入长期一致性约束。
如图5中右侧所示,为 seq-to-seq 建模网络的细节。对于每一个目标像素,为了减少构建稠密时空相似度矩阵的复杂度,本文选择一个固定数量的关联性度量 块来构建受约束邻域内的相关度矩阵。训练中,本文采 用一个混合损失函数 [10]:

其中,是增强对齐损失。这样的混合损失可以 引导网络去学习像素级、物体级以及图像级的特征。
实验
本节在 CAD 数据集和本文提出的 MoCA-Mask 数据集上,对本文所提的框架进行了系统地评估。本文同时给出了一个 VCOD 任务的全面的评测基准,来促进该领域发展。
MoCA-Mask 数据集上的性能:如表1所示,本文的方法明显优于对比方法。其中,在 S_α 指标上以 9.88% 的差距,超过当前最好的对比模型 RCRNet [46],在指标上以 92.97% 超过了 SINet [11] 模型。如图6, 给出本文的方法与基准模型的定性对比。本文的模型可以在很多有挑战性的情况(例如物体有纤细的躯干 或复杂的外观纹理、模糊或者突变运动)中,更加准确地定位与分割伪装物体。


CAD 数据集上的性能:如表2所示,本文评估了不同方法在 CAD 数据集上的跨数据集的泛化性。本文的方法再次在所有 6 个评测指标上优于对比方法。进一步展现出本文方法的鲁棒性。如图7所示,本文的方法可以得到更加清晰的边界与更细粒度的可视化细节。这受益于模型在特征空间所构建的像素级相关性对。



本文在 MoCA-Mask 数据集上进行消融实验。具体来讲,本文深入研究了:短期和长期模块的功能性分析,sequence-to-sequence 框架选择以及本文的伪掩模。
短期和长期模块:本文从两个方面来评估短期和长期模块的有效性。首先,如表3所示,本文在 MoCA-Mask 数据集上对短期和长期模块进行了消融实验。


然后,本文在当前先进的 VSOD 模型 RCRNet [46] 上,用本文的基于 Transformer 的编码器来替换它原来的编码器,用来比较这两种方法对于时序信息的处理策略,结果如表4所示。在时空一致性建模层面,在评估指标上,能看出操作所带来的指标的提升与下降,在 S_α 指标上提升1.51%,在
上下降 0.97%,在 E_ϕ 上降低 0.16%,在 M 上提升 6.98%。


Transformer 与 ConvLSTM 的对比:本文用两种不同的方法来实现长期架构,分别是基于 Transformer 的方法和基于 ConvLSTM 的方法。对于 ConvLSTM 方法,本文采用了 [6] 提出的一个比较新的 ConvLSTM 模型变体,但是本文将其中 VGG 风格的 CNN 编码器解码器结构,用本文的 Transformer 风格的骨干网络代替。从表5中能看到,Transformer 变体相比 ConvLSTM 模型在 4 个指标上都更优并且参数量更少。

5. 结论
本文提出了一个用于视频伪装物体分割的方法 SLT-Net。具体来讲,本文使用短期模块来隐式捕捉连续帧之间的运动,使得本文可以在一个框架下同时优化运动的估计和分割。本文还提出了一个基于 sequence- to-sequence Transformer 的长期模块,来保证视频序列上的时序一致性。为了促进 VCOD 领域的发展,本文重新构造了名为 MoCA-Mask 的新数据集,包括了 87 段高质量视频序列,共计 22,939 帧,是 VCOD 领域目前最大的像素级标注数据集,使得物体级别评测成为可能。对比了当前最先进的基准模型,本文提出的网络在两个 VCOD 评测基准上均取得了最优的表现。

相关文章
|
机器学习/深度学习 人工智能 自然语言处理
神经网络优化:提高AI模型性能的策略
神经网络优化是确保人工智能模型性能达到最佳的关键步骤。通过选择合适的激活函数、优化器和正则化技术,可以提高神经网络模型的准确度和泛化能力。随着深度学习领域的不断发展,神经网络优化策略也将不断进化,为人工智能技术带来更多的突破和创新。
481 1
神经网络优化:提高AI模型性能的策略
|
5月前
|
自然语言处理 物联网 异构计算
比LoRA还快50%的微调方法来了!一张3090性能超越全参调优,UIUC联合LMFlow团队提出LISA
【4月更文挑战第3天】伊利诺伊大学香槟分校和LMFlow团队推出LISA,一种新型微调技术,用于解决大型语言模型的内存消耗问题。LISA基于层重要性采样,随机冻结中间层,降低内存使用,同时提供比LoRA更快的训练速度和更高性能。实验显示,LISA在相似或更低的GPU内存消耗下,超越LoRA和全参数调优。该方法提高了资源受限环境下的微调效率,有望成为LoRA的有效替代,但仍然面临内存限制和随机性影响的问题。
180 4
比LoRA还快50%的微调方法来了!一张3090性能超越全参调优,UIUC联合LMFlow团队提出LISA
|
6天前
|
机器学习/深度学习 人工智能 安全
针对AI模型的对抗性攻击日益增多:你现在应该怎么做?
针对AI模型的对抗性攻击日益增多:你现在应该怎么做?
|
16天前
|
人工智能 开发者
谷歌通过数据增强、对比调优,减少多模态模型幻觉
【9月更文挑战第16天】谷歌研究人员针对多模态大语言模型(MLLMs)中的幻觉问题,提出了一种结合数据增强与对比调优的新方法,旨在减少模型生成错误信息的情况。该方法通过生成式数据增强制造幻觉标记并与真实标记对比,利用对比损失优化模型参数,从而提升模型对真实信息的辨识能力。实验结果显示,此方法能显著降低对象幻觉现象,但在模拟复杂现实场景及计算需求方面仍面临挑战。相关研究已发布在论文《通过数据增强的对比调优减轻对象幻觉》中。
30 3
|
3月前
|
机器学习/深度学习 搜索推荐 知识图谱
图神经网络加持,突破传统推荐系统局限!北大港大联合提出SelfGNN:有效降低信息过载与数据噪声影响
【7月更文挑战第22天】北大港大联手打造SelfGNN,一种结合图神经网络与自监督学习的推荐系统,专攻信息过载及数据噪声难题。SelfGNN通过短期图捕获实时用户兴趣,利用自增强学习提升模型鲁棒性,实现多时间尺度动态行为建模,大幅优化推荐准确度与时效性。经四大真实数据集测试,SelfGNN在准确性和抗噪能力上超越现有模型。尽管如此,高计算复杂度及对图构建质量的依赖仍是待克服挑战。[详细论文](https://arxiv.org/abs/2405.20878)。
65 5
|
2月前
|
机器学习/深度学习 人工智能 缓存
大模型下HPE GPT解决问题之区域数据隐私要求如何解决
大模型下HPE GPT解决问题之区域数据隐私要求如何解决
28 0
|
4月前
|
机器学习/深度学习 人工智能
ACL 2024:提升大模型持续学习性能,哈工大、度小满提出共享注意力框架SAPT
【6月更文挑战第8天】哈工大和度小满在ACL 2024会议上提出SAPT,一种共享注意力框架,用于提升大模型的持续学习性能,解决灾难性遗忘和知识转移问题。SAPT通过协调学习和选择模块,共享注意力以保留旧知识并有效转移至新任务。实验显示SAPT在多个基准和模型规模上表现优秀,但可能增加模型复杂性和计算成本,且在特定任务中适用性需进一步评估。论文链接:https://arxiv.org/abs/2401.08295
73 8
|
5月前
|
人工智能
MIT等首次深度研究集成LLM预测能力:可媲美人类群体准确率
【4月更文挑战第16天】研究人员集成12个大型语言模型(LLM)组成“硅基群体”,在预测比赛中与925名人类预测者对比。研究发现,LLM群体的预测准确性与人类群体无显著差异,且通过集成可抵消个体模型的偏差,提高预测准确。GPT-4和Claude 2等模型结合人类预测后,准确度提升17%至28%。然而,个别LLM预测精度不一,模型选择和校准度是提升预测性能的关键,同时LLM在时间跨度和现实场景适应性方面仍有挑战。
76 6
MIT等首次深度研究集成LLM预测能力:可媲美人类群体准确率
|
5月前
|
人工智能 算法 安全
训练数据集污染与模型算法攻击将成为AI新的棘手问题
【1月更文挑战第11天】训练数据集污染与模型算法攻击将成为AI新的棘手问题
164 3
训练数据集污染与模型算法攻击将成为AI新的棘手问题
|
机器学习/深度学习 编解码 算法
30%Token就能实现SOTA性能,华为诺亚轻量目标检测器Focus-DETR效率倍增
30%Token就能实现SOTA性能,华为诺亚轻量目标检测器Focus-DETR效率倍增
419 0