传统的视频-语言研究通常聚焦于短视频片段,而长视频的时间依赖性学习却鲜有涉及,主要因为其高昂的计算成本。针对这一问题,《Multi-granularity Correspondence Learning from Long-term Noisy Videos》一文在ICLR 2024上发表了一项名为Norton(NOise Robust Temporal Optimal traNsport)的新方法。这一方法在单个GPU上的训练仅需1天,极大地提升了处理长视频数据集的效率。
Norton方法通过视频段落和视频片段-字幕对比损失,基于最优传输(Optimal Transport, OT)框架,捕捉长期依赖性。为解决粗粒度的错位问题,Norton引入了可对齐的提示桶(alignable prompt bucket)来过滤不相关的片段和字幕,并根据传输距离重新对齐异步的片段-字幕对。同时,为了解决细粒度的错位问题,Norton引入了软最大(soft-maximum)操作符,识别关键词汇和关键帧。此外,利用OT分配来纠正对比学习中的潜在错误负样本,确保了精确的时间建模。
研究者进行了广泛的实验,包括视频检索、视频问答(videoQA)和动作分割等任务,验证了Norton方法的有效性。实验结果表明,Norton不仅能够捕捉长期时间依赖性,还能促进片段级别的表示学习。
论文揭示了时间学习中的多粒度噪声关联问题,包括粗粒度的异步和不相关错位,以及细粒度的错位。通过引入软最大操作符、可对齐提示桶和错误负样本利用等创新组件,在最优传输框架内实现了高效且鲁棒的对应学习。
此外,论文提出了未来可能的研究方向,包括扩展到多模态噪声关联问题,以及探索利用噪声样本作为训练激励的可能性。
通过提出Norton方法,这篇论文为长视频理解和噪声关联问题提供了新的解决方案,并通过实验验证了其有效性。其贡献不仅在于提出了一种新的方法,还在于对现有视频-语言研究领域的深入分析和未来研究方向的展望。