CVPR 2022 | 结合短期动态、长期一致性,视频伪装物体检测框架,大幅超越SOTA(2)

简介: CVPR 2022 | 结合短期动态、长期一致性,视频伪装物体检测框架,大幅超越SOTA

3. CNN 解码器:如 [9] 所述,近邻连接解码器相比通常的连接解码器(如稠密连接或者短连接)更加可靠。此外,[9] 所使用的分组反向注意力(Group-Reversal Attention,GRA)策略可以在物体边界处提供更加准确的分割结果。基于此,本文直接将来自短期相关性金字塔的特征,即, i ∈ {2, 3, 4},输入到 GRA 中,生成优化的特征图。近邻连接解码器(Neighbor Connection Decoder,NCD)用来生成粗糙的图,该图可以提供伪装物体大致定位的反向引导。如此,就可以汇聚来自 CNN 解码器的低层 特征和来自相关金字塔的高层特征。
长期一致性架构
给定一个来自短期架构的序列,与像素级的预测, 本文将长期一致性优化过程定义为一个 seq-to-seq 问题。图5给出长期一致性的架构。本文使用同样的骨干网络,即 Transformer 编码器和 CNN 解码器模块,作为短期架构。因为该架构已经在伪装数据集做过了预训练,使得大大加速长期框架的训练过程。

对于输入序列的每一帧,本文将色彩帧 I_t 与其在通道维对应的预测进行拼接,然后堆叠每个序列中拼接的帧,形成一个 4D 张量网络将作为输入,输出最终的预测 序列

有两类 seq-to-seq 的建模框架:一类是使用 ConvLSTM 来建模时序信息,另一类使用基于 Transformer 的建模网络。本文实现了两种架构,并且在4.4小节对比了它们的结果。据本文所知,使用 Transformer 结构可以得到更好的结果,所以,本文选择 Transformer 来作为序列建模的网络,来引入长期一致性约束。
如图5中右侧所示,为 seq-to-seq 建模网络的细节。对于每一个目标像素,为了减少构建稠密时空相似度矩阵的复杂度,本文选择一个固定数量的关联性度量 块来构建受约束邻域内的相关度矩阵。训练中,本文采 用一个混合损失函数 [10]:

其中,是增强对齐损失。这样的混合损失可以 引导网络去学习像素级、物体级以及图像级的特征。
实验
本节在 CAD 数据集和本文提出的 MoCA-Mask 数据集上,对本文所提的框架进行了系统地评估。本文同时给出了一个 VCOD 任务的全面的评测基准,来促进该领域发展。
MoCA-Mask 数据集上的性能:如表1所示,本文的方法明显优于对比方法。其中,在 S_α 指标上以 9.88% 的差距,超过当前最好的对比模型 RCRNet [46],在指标上以 92.97% 超过了 SINet [11] 模型。如图6, 给出本文的方法与基准模型的定性对比。本文的模型可以在很多有挑战性的情况(例如物体有纤细的躯干 或复杂的外观纹理、模糊或者突变运动)中,更加准确地定位与分割伪装物体。


CAD 数据集上的性能:如表2所示,本文评估了不同方法在 CAD 数据集上的跨数据集的泛化性。本文的方法再次在所有 6 个评测指标上优于对比方法。进一步展现出本文方法的鲁棒性。如图7所示,本文的方法可以得到更加清晰的边界与更细粒度的可视化细节。这受益于模型在特征空间所构建的像素级相关性对。



本文在 MoCA-Mask 数据集上进行消融实验。具体来讲,本文深入研究了:短期和长期模块的功能性分析,sequence-to-sequence 框架选择以及本文的伪掩模。
短期和长期模块:本文从两个方面来评估短期和长期模块的有效性。首先,如表3所示,本文在 MoCA-Mask 数据集上对短期和长期模块进行了消融实验。


然后,本文在当前先进的 VSOD 模型 RCRNet [46] 上,用本文的基于 Transformer 的编码器来替换它原来的编码器,用来比较这两种方法对于时序信息的处理策略,结果如表4所示。在时空一致性建模层面,在评估指标上,能看出操作所带来的指标的提升与下降,在 S_α 指标上提升1.51%,在
上下降 0.97%,在 E_ϕ 上降低 0.16%,在 M 上提升 6.98%。


Transformer 与 ConvLSTM 的对比:本文用两种不同的方法来实现长期架构,分别是基于 Transformer 的方法和基于 ConvLSTM 的方法。对于 ConvLSTM 方法,本文采用了 [6] 提出的一个比较新的 ConvLSTM 模型变体,但是本文将其中 VGG 风格的 CNN 编码器解码器结构,用本文的 Transformer 风格的骨干网络代替。从表5中能看到,Transformer 变体相比 ConvLSTM 模型在 4 个指标上都更优并且参数量更少。

5. 结论
本文提出了一个用于视频伪装物体分割的方法 SLT-Net。具体来讲,本文使用短期模块来隐式捕捉连续帧之间的运动,使得本文可以在一个框架下同时优化运动的估计和分割。本文还提出了一个基于 sequence- to-sequence Transformer 的长期模块,来保证视频序列上的时序一致性。为了促进 VCOD 领域的发展,本文重新构造了名为 MoCA-Mask 的新数据集,包括了 87 段高质量视频序列,共计 22,939 帧,是 VCOD 领域目前最大的像素级标注数据集,使得物体级别评测成为可能。对比了当前最先进的基准模型,本文提出的网络在两个 VCOD 评测基准上均取得了最优的表现。

相关文章
|
机器学习/深度学习 人工智能 自然语言处理
神经网络优化:提高AI模型性能的策略
神经网络优化是确保人工智能模型性能达到最佳的关键步骤。通过选择合适的激活函数、优化器和正则化技术,可以提高神经网络模型的准确度和泛化能力。随着深度学习领域的不断发展,神经网络优化策略也将不断进化,为人工智能技术带来更多的突破和创新。
443 1
神经网络优化:提高AI模型性能的策略
|
4天前
|
人工智能 开发者
谷歌通过数据增强、对比调优,减少多模态模型幻觉
【9月更文挑战第16天】谷歌研究人员针对多模态大语言模型(MLLMs)中的幻觉问题,提出了一种结合数据增强与对比调优的新方法,旨在减少模型生成错误信息的情况。该方法通过生成式数据增强制造幻觉标记并与真实标记对比,利用对比损失优化模型参数,从而提升模型对真实信息的辨识能力。实验结果显示,此方法能显著降低对象幻觉现象,但在模拟复杂现实场景及计算需求方面仍面临挑战。相关研究已发布在论文《通过数据增强的对比调优减轻对象幻觉》中。
19 3
|
2月前
|
机器学习/深度学习 搜索推荐 知识图谱
图神经网络加持,突破传统推荐系统局限!北大港大联合提出SelfGNN:有效降低信息过载与数据噪声影响
【7月更文挑战第22天】北大港大联手打造SelfGNN,一种结合图神经网络与自监督学习的推荐系统,专攻信息过载及数据噪声难题。SelfGNN通过短期图捕获实时用户兴趣,利用自增强学习提升模型鲁棒性,实现多时间尺度动态行为建模,大幅优化推荐准确度与时效性。经四大真实数据集测试,SelfGNN在准确性和抗噪能力上超越现有模型。尽管如此,高计算复杂度及对图构建质量的依赖仍是待克服挑战。[详细论文](https://arxiv.org/abs/2405.20878)。
56 5
|
4月前
|
机器学习/深度学习 人工智能
谷歌提出大规模ICL方法——强化和无监督
【5月更文挑战第26天】谷歌DeepMind团队提出Many-Shot ICL,一种强化和无监督学习方法,用于提升大型语言模型处理多样化任务的能力。通过提供更多示例,模型无需权重更新即可学习新任务。研究还引入Reinforced ICL和Unsupervised ICL,减少对人类生成输出的依赖。Many-Shot ICL能有效克服预训练偏见,但示例顺序对其性能至关重要。然而,NLL作为评估指标的局限性被指出,且增加示例数量可能降低性能。该研究为改进LLMs提供了新视角,但仍需在更多模型和场景中验证。[链接: https://arxiv.org/abs/2404.11018]
44 1
|
4月前
|
人工智能
MIT等首次深度研究集成LLM预测能力:可媲美人类群体准确率
【4月更文挑战第16天】研究人员集成12个大型语言模型(LLM)组成“硅基群体”,在预测比赛中与925名人类预测者对比。研究发现,LLM群体的预测准确性与人类群体无显著差异,且通过集成可抵消个体模型的偏差,提高预测准确。GPT-4和Claude 2等模型结合人类预测后,准确度提升17%至28%。然而,个别LLM预测精度不一,模型选择和校准度是提升预测性能的关键,同时LLM在时间跨度和现实场景适应性方面仍有挑战。
71 6
MIT等首次深度研究集成LLM预测能力:可媲美人类群体准确率
|
3月前
|
机器学习/深度学习 自然语言处理 物联网
ICML 2024:脱离LoRA架构,训练参数大幅减少,新型傅立叶微调来了
【6月更文挑战第4天】在ICML 2024上,研究团队提出了傅立叶变换微调(FourierFT),一种减少训练参数的新方法,替代了依赖LoRA的微调。FourierFT通过学习权重变化矩阵的稀疏频谱系数,实现了LFMs的高效微调。在多项任务上,FourierFT展示出与LoRA相当或更优的性能,参数量却大幅减少,如在LLaMA2-7B模型上,仅需0.064M参数,对比LoRA的33.5M。广泛实验验证了其在NLP和CV任务上的效果,但未来还需探索其适用性和泛化能力。论文链接:[arxiv.org/abs/2405.03003](https://arxiv.org/abs/2405.03003)
71 0
|
4月前
|
人工智能 算法 安全
训练数据集污染与模型算法攻击将成为AI新的棘手问题
【1月更文挑战第11天】训练数据集污染与模型算法攻击将成为AI新的棘手问题
155 3
训练数据集污染与模型算法攻击将成为AI新的棘手问题
|
4月前
|
机器学习/深度学习 编解码 数据可视化
南开大学提出YOLO-MS | 超越YOLOv8与RTMDet,即插即用打破性能瓶颈
南开大学提出YOLO-MS | 超越YOLOv8与RTMDet,即插即用打破性能瓶颈
82 1
|
机器学习/深度学习 人工智能 算法
模型部署系列 | 一文告诉你AI模型QAT量化遇到震荡问题应该如何解决呢?(二)
模型部署系列 | 一文告诉你AI模型QAT量化遇到震荡问题应该如何解决呢?(二)
228 0
|
机器学习/深度学习 人工智能 算法
模型部署系列 | 一文告诉你AI模型QAT量化遇到震荡问题应该如何解决呢?(一)
模型部署系列 | 一文告诉你AI模型QAT量化遇到震荡问题应该如何解决呢?(一)
601 0