CVPR 2022 | 结合短期动态、长期一致性,视频伪装物体检测框架,大幅超越SOTA(2)

简介: CVPR 2022 | 结合短期动态、长期一致性,视频伪装物体检测框架,大幅超越SOTA

3. CNN 解码器:如 [9] 所述,近邻连接解码器相比通常的连接解码器(如稠密连接或者短连接)更加可靠。此外,[9] 所使用的分组反向注意力(Group-Reversal Attention,GRA)策略可以在物体边界处提供更加准确的分割结果。基于此,本文直接将来自短期相关性金字塔的特征,即, i ∈ {2, 3, 4},输入到 GRA 中,生成优化的特征图。近邻连接解码器(Neighbor Connection Decoder,NCD)用来生成粗糙的图,该图可以提供伪装物体大致定位的反向引导。如此,就可以汇聚来自 CNN 解码器的低层 特征和来自相关金字塔的高层特征。
长期一致性架构
给定一个来自短期架构的序列,与像素级的预测, 本文将长期一致性优化过程定义为一个 seq-to-seq 问题。图5给出长期一致性的架构。本文使用同样的骨干网络,即 Transformer 编码器和 CNN 解码器模块,作为短期架构。因为该架构已经在伪装数据集做过了预训练,使得大大加速长期框架的训练过程。

对于输入序列的每一帧,本文将色彩帧 I_t 与其在通道维对应的预测进行拼接,然后堆叠每个序列中拼接的帧,形成一个 4D 张量网络将作为输入,输出最终的预测 序列

有两类 seq-to-seq 的建模框架:一类是使用 ConvLSTM 来建模时序信息,另一类使用基于 Transformer 的建模网络。本文实现了两种架构,并且在4.4小节对比了它们的结果。据本文所知,使用 Transformer 结构可以得到更好的结果,所以,本文选择 Transformer 来作为序列建模的网络,来引入长期一致性约束。
如图5中右侧所示,为 seq-to-seq 建模网络的细节。对于每一个目标像素,为了减少构建稠密时空相似度矩阵的复杂度,本文选择一个固定数量的关联性度量 块来构建受约束邻域内的相关度矩阵。训练中,本文采 用一个混合损失函数 [10]:

其中,是增强对齐损失。这样的混合损失可以 引导网络去学习像素级、物体级以及图像级的特征。
实验
本节在 CAD 数据集和本文提出的 MoCA-Mask 数据集上,对本文所提的框架进行了系统地评估。本文同时给出了一个 VCOD 任务的全面的评测基准,来促进该领域发展。
MoCA-Mask 数据集上的性能:如表1所示,本文的方法明显优于对比方法。其中,在 S_α 指标上以 9.88% 的差距,超过当前最好的对比模型 RCRNet [46],在指标上以 92.97% 超过了 SINet [11] 模型。如图6, 给出本文的方法与基准模型的定性对比。本文的模型可以在很多有挑战性的情况(例如物体有纤细的躯干 或复杂的外观纹理、模糊或者突变运动)中,更加准确地定位与分割伪装物体。


CAD 数据集上的性能:如表2所示,本文评估了不同方法在 CAD 数据集上的跨数据集的泛化性。本文的方法再次在所有 6 个评测指标上优于对比方法。进一步展现出本文方法的鲁棒性。如图7所示,本文的方法可以得到更加清晰的边界与更细粒度的可视化细节。这受益于模型在特征空间所构建的像素级相关性对。



本文在 MoCA-Mask 数据集上进行消融实验。具体来讲,本文深入研究了:短期和长期模块的功能性分析,sequence-to-sequence 框架选择以及本文的伪掩模。
短期和长期模块:本文从两个方面来评估短期和长期模块的有效性。首先,如表3所示,本文在 MoCA-Mask 数据集上对短期和长期模块进行了消融实验。


然后,本文在当前先进的 VSOD 模型 RCRNet [46] 上,用本文的基于 Transformer 的编码器来替换它原来的编码器,用来比较这两种方法对于时序信息的处理策略,结果如表4所示。在时空一致性建模层面,在评估指标上,能看出操作所带来的指标的提升与下降,在 S_α 指标上提升1.51%,在
上下降 0.97%,在 E_ϕ 上降低 0.16%,在 M 上提升 6.98%。


Transformer 与 ConvLSTM 的对比:本文用两种不同的方法来实现长期架构,分别是基于 Transformer 的方法和基于 ConvLSTM 的方法。对于 ConvLSTM 方法,本文采用了 [6] 提出的一个比较新的 ConvLSTM 模型变体,但是本文将其中 VGG 风格的 CNN 编码器解码器结构,用本文的 Transformer 风格的骨干网络代替。从表5中能看到,Transformer 变体相比 ConvLSTM 模型在 4 个指标上都更优并且参数量更少。

5. 结论
本文提出了一个用于视频伪装物体分割的方法 SLT-Net。具体来讲,本文使用短期模块来隐式捕捉连续帧之间的运动,使得本文可以在一个框架下同时优化运动的估计和分割。本文还提出了一个基于 sequence- to-sequence Transformer 的长期模块,来保证视频序列上的时序一致性。为了促进 VCOD 领域的发展,本文重新构造了名为 MoCA-Mask 的新数据集,包括了 87 段高质量视频序列,共计 22,939 帧,是 VCOD 领域目前最大的像素级标注数据集,使得物体级别评测成为可能。对比了当前最先进的基准模型,本文提出的网络在两个 VCOD 评测基准上均取得了最优的表现。

相关文章
|
机器学习/深度学习 人工智能 自然语言处理
神经网络优化:提高AI模型性能的策略
神经网络优化是确保人工智能模型性能达到最佳的关键步骤。通过选择合适的激活函数、优化器和正则化技术,可以提高神经网络模型的准确度和泛化能力。随着深度学习领域的不断发展,神经网络优化策略也将不断进化,为人工智能技术带来更多的突破和创新。
715 1
神经网络优化:提高AI模型性能的策略
|
2月前
|
机器学习/深度学习 人工智能 安全
针对AI模型的对抗性攻击日益增多:你现在应该怎么做?
针对AI模型的对抗性攻击日益增多:你现在应该怎么做?
|
4月前
|
机器学习/深度学习 搜索推荐 知识图谱
图神经网络加持,突破传统推荐系统局限!北大港大联合提出SelfGNN:有效降低信息过载与数据噪声影响
【7月更文挑战第22天】北大港大联手打造SelfGNN,一种结合图神经网络与自监督学习的推荐系统,专攻信息过载及数据噪声难题。SelfGNN通过短期图捕获实时用户兴趣,利用自增强学习提升模型鲁棒性,实现多时间尺度动态行为建模,大幅优化推荐准确度与时效性。经四大真实数据集测试,SelfGNN在准确性和抗噪能力上超越现有模型。尽管如此,高计算复杂度及对图构建质量的依赖仍是待克服挑战。[详细论文](https://arxiv.org/abs/2405.20878)。
80 5
|
3月前
|
机器学习/深度学习 数据采集 存储
【2021 第五届“达观杯” 基于大规模预训练模型的风险事件标签识别】2 DPCNN、HAN、RCNN等传统深度学习方案
参加2021第五届“达观杯”基于大规模预训练模型的风险事件标签识别比赛的经验,包括使用DPCNN、HAN、TextRCNN、CapsuleNet和TextRCNNAttention等传统深度学习模型的方案实现,以及提分技巧,如多个模型的提交文件投票融合和生成伪标签的方法。
37 0
|
5月前
|
机器学习/深度学习 人工智能
ACL 2024:提升大模型持续学习性能,哈工大、度小满提出共享注意力框架SAPT
【6月更文挑战第8天】哈工大和度小满在ACL 2024会议上提出SAPT,一种共享注意力框架,用于提升大模型的持续学习性能,解决灾难性遗忘和知识转移问题。SAPT通过协调学习和选择模块,共享注意力以保留旧知识并有效转移至新任务。实验显示SAPT在多个基准和模型规模上表现优秀,但可能增加模型复杂性和计算成本,且在特定任务中适用性需进一步评估。论文链接:https://arxiv.org/abs/2401.08295
106 8
|
6月前
|
机器学习/深度学习 人工智能
谷歌提出大规模ICL方法——强化和无监督
【5月更文挑战第26天】谷歌DeepMind团队提出Many-Shot ICL,一种强化和无监督学习方法,用于提升大型语言模型处理多样化任务的能力。通过提供更多示例,模型无需权重更新即可学习新任务。研究还引入Reinforced ICL和Unsupervised ICL,减少对人类生成输出的依赖。Many-Shot ICL能有效克服预训练偏见,但示例顺序对其性能至关重要。然而,NLL作为评估指标的局限性被指出,且增加示例数量可能降低性能。该研究为改进LLMs提供了新视角,但仍需在更多模型和场景中验证。[链接: https://arxiv.org/abs/2404.11018]
70 1
|
6月前
|
人工智能
MIT等首次深度研究集成LLM预测能力:可媲美人类群体准确率
【4月更文挑战第16天】研究人员集成12个大型语言模型(LLM)组成“硅基群体”,在预测比赛中与925名人类预测者对比。研究发现,LLM群体的预测准确性与人类群体无显著差异,且通过集成可抵消个体模型的偏差,提高预测准确。GPT-4和Claude 2等模型结合人类预测后,准确度提升17%至28%。然而,个别LLM预测精度不一,模型选择和校准度是提升预测性能的关键,同时LLM在时间跨度和现实场景适应性方面仍有挑战。
93 6
MIT等首次深度研究集成LLM预测能力:可媲美人类群体准确率
|
6月前
|
机器学习/深度学习 编解码 数据可视化
南开大学提出YOLO-MS | 超越YOLOv8与RTMDet,即插即用打破性能瓶颈
南开大学提出YOLO-MS | 超越YOLOv8与RTMDet,即插即用打破性能瓶颈
108 1
|
6月前
|
计算机视觉
模型落地必备 | 南开大学提出CrossKD蒸馏方法,同时兼顾特征和预测级别的信息
模型落地必备 | 南开大学提出CrossKD蒸馏方法,同时兼顾特征和预测级别的信息
161 0
|
SQL 机器学习/深度学习 开发框架
【网安AIGC专题10.25】8 CoLeFunDa华为团队:静默漏洞检测(识别+多分类)+数据增强、样本扩充+对比学习+微调+结果分析(降维空间,分类错误样本归纳,应用场景优势,有效性威胁分析)
【网安AIGC专题10.25】8 CoLeFunDa华为团队:静默漏洞检测(识别+多分类)+数据增强、样本扩充+对比学习+微调+结果分析(降维空间,分类错误样本归纳,应用场景优势,有效性威胁分析)
275 0
下一篇
无影云桌面