ICLR 2024 Oral:长视频中噪声关联学习,单卡训练仅需1天

简介: 【2月更文挑战第28天】ICLR 2024 Oral:长视频中噪声关联学习,单卡训练仅需1天

09d8a3b472bc98f426559912101301d6.jpeg
传统的视频-语言研究通常聚焦于短视频片段,而长视频的时间依赖性学习却鲜有涉及,主要因为其高昂的计算成本。针对这一问题,《Multi-granularity Correspondence Learning from Long-term Noisy Videos》一文在ICLR 2024上发表了一项名为Norton(NOise Robust Temporal Optimal traNsport)的新方法。这一方法在单个GPU上的训练仅需1天,极大地提升了处理长视频数据集的效率。

Norton方法通过视频段落和视频片段-字幕对比损失,基于最优传输(Optimal Transport, OT)框架,捕捉长期依赖性。为解决粗粒度的错位问题,Norton引入了可对齐的提示桶(alignable prompt bucket)来过滤不相关的片段和字幕,并根据传输距离重新对齐异步的片段-字幕对。同时,为了解决细粒度的错位问题,Norton引入了软最大(soft-maximum)操作符,识别关键词汇和关键帧。此外,利用OT分配来纠正对比学习中的潜在错误负样本,确保了精确的时间建模。

研究者进行了广泛的实验,包括视频检索、视频问答(videoQA)和动作分割等任务,验证了Norton方法的有效性。实验结果表明,Norton不仅能够捕捉长期时间依赖性,还能促进片段级别的表示学习。

论文揭示了时间学习中的多粒度噪声关联问题,包括粗粒度的异步和不相关错位,以及细粒度的错位。通过引入软最大操作符、可对齐提示桶和错误负样本利用等创新组件,在最优传输框架内实现了高效且鲁棒的对应学习。

此外,论文提出了未来可能的研究方向,包括扩展到多模态噪声关联问题,以及探索利用噪声样本作为训练激励的可能性。

通过提出Norton方法,这篇论文为长视频理解和噪声关联问题提供了新的解决方案,并通过实验验证了其有效性。其贡献不仅在于提出了一种新的方法,还在于对现有视频-语言研究领域的深入分析和未来研究方向的展望。

目录
相关文章
|
6月前
|
人工智能
ICLR 2024:鸡生蛋蛋生鸡?再论生成数据能否帮助模型训练
【4月更文挑战第3天】北京大学研究团队在ICLR 2024会议上提出了“自适应膨胀”(AdaInf)策略,改善对比学习效果。该策略针对数据膨胀(使用扩散模型生成图像增强)可能导致对比学习性能下降的问题,通过动态调整数据增强强度和混合比例,提升多种对比学习方法的性能。实验显示,AdaInf在不使用外部数据的情况下,使CIFAR-10线性准确率达到94.70%,刷新纪录。研究还揭示了数据增强与数据膨胀的互补关系,以及它们如何影响泛化误差。然而,AdaInf在大量生成数据和不同质量数据上的应用仍存在局限性。
82 3
ICLR 2024:鸡生蛋蛋生鸡?再论生成数据能否帮助模型训练
|
6月前
|
机器学习/深度学习 负载均衡 算法
训练Backbone你还用EMA?ViT训练的大杀器EWA升级来袭
训练Backbone你还用EMA?ViT训练的大杀器EWA升级来袭
232 1
|
6月前
|
机器学习/深度学习 数据可视化 计算机视觉
【论文速递】CVPR2022 - 检测测器的局部和全局知识蒸馏
【论文速递】CVPR2022 - 检测测器的局部和全局知识蒸馏
|
6月前
|
机器学习/深度学习 数据挖掘 网络安全
【论文速递】CVPR2022 - 用于半监督物体检测的尺度等效蒸馏
【论文速递】CVPR2022 - 用于半监督物体检测的尺度等效蒸馏
|
机器学习/深度学习 图形学 网络架构
ICLR 2022 | 纯MLP的点云网络:新架构PointMLP大幅提高点云分类准确率和推理速度
ICLR 2022 | 纯MLP的点云网络:新架构PointMLP大幅提高点云分类准确率和推理速度
730 0
ICLR 2022 | 纯MLP的点云网络:新架构PointMLP大幅提高点云分类准确率和推理速度
|
机器学习/深度学习 运维 算法
ICLR Spotlight! 清华提出时序异常检测算法,连刷5个SOTA
ICLR Spotlight! 清华提出时序异常检测算法,连刷5个SOTA
538 0
ICLR Spotlight! 清华提出时序异常检测算法,连刷5个SOTA
|
编解码 计算机视觉
3D检测新SOTA | PointPillar与Faster RCNN结合会碰撞出怎样的火花(二)
3D检测新SOTA | PointPillar与Faster RCNN结合会碰撞出怎样的火花(二)
232 0
|
存储 编解码 自动驾驶
3D检测新SOTA | PointPillar与Faster RCNN结合会碰撞出怎样的火花(一)
3D检测新SOTA | PointPillar与Faster RCNN结合会碰撞出怎样的火花(一)
157 0
|
算法 数据挖掘 计算机视觉
CVPR2023部署Trick | 解决量化误差振荡问题,让MobileNetv2的能力超过ResNet家族(二)
CVPR2023部署Trick | 解决量化误差振荡问题,让MobileNetv2的能力超过ResNet家族(二)
376 0
|
机器学习/深度学习 算法 计算机视觉
CVPR2023部署Trick | 解决量化误差振荡问题,让MobileNetv2的能力超过ResNet家族(一)
CVPR2023部署Trick | 解决量化误差振荡问题,让MobileNetv2的能力超过ResNet家族(一)
190 0
下一篇
无影云桌面