ICLR 2024 Oral：长视频中噪声关联学习，单卡训练仅需1天-阿里云开发者社区

ICLR 2024 Oral：长视频中噪声关联学习，单卡训练仅需1天

2024-03-19 44

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【2月更文挑战第28天】ICLR 2024 Oral：长视频中噪声关联学习，单卡训练仅需1天

传统的视频-语言研究通常聚焦于短视频片段，而长视频的时间依赖性学习却鲜有涉及，主要因为其高昂的计算成本。针对这一问题，《Multi-granularity Correspondence Learning from Long-term Noisy Videos》一文在ICLR 2024上发表了一项名为Norton（NOise Robust Temporal Optimal traNsport）的新方法。这一方法在单个GPU上的训练仅需1天，极大地提升了处理长视频数据集的效率。

Norton方法通过视频段落和视频片段-字幕对比损失，基于最优传输（Optimal Transport, OT）框架，捕捉长期依赖性。为解决粗粒度的错位问题，Norton引入了可对齐的提示桶（alignable prompt bucket）来过滤不相关的片段和字幕，并根据传输距离重新对齐异步的片段-字幕对。同时，为了解决细粒度的错位问题，Norton引入了软最大（soft-maximum）操作符，识别关键词汇和关键帧。此外，利用OT分配来纠正对比学习中的潜在错误负样本，确保了精确的时间建模。

研究者进行了广泛的实验，包括视频检索、视频问答（videoQA）和动作分割等任务，验证了Norton方法的有效性。实验结果表明，Norton不仅能够捕捉长期时间依赖性，还能促进片段级别的表示学习。

论文揭示了时间学习中的多粒度噪声关联问题，包括粗粒度的异步和不相关错位，以及细粒度的错位。通过引入软最大操作符、可对齐提示桶和错误负样本利用等创新组件，在最优传输框架内实现了高效且鲁棒的对应学习。

此外，论文提出了未来可能的研究方向，包括扩展到多模态噪声关联问题，以及探索利用噪声样本作为训练激励的可能性。

通过提出Norton方法，这篇论文为长视频理解和噪声关联问题提供了新的解决方案，并通过实验验证了其有效性。其贡献不仅在于提出了一种新的方法，还在于对现有视频-语言研究领域的深入分析和未来研究方向的展望。

ICLR 2024 Oral：长视频中噪声关联学习，单卡训练仅需1天

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

ICLR 2024 Oral：长视频中噪声关联学习，单卡训练仅需1天

热门文章

最新文章

相关课程

相关电子书

相关实验场景