ICLR 2024 Oral:长视频中噪声关联学习,单卡训练仅需1天

简介: 【2月更文挑战第28天】ICLR 2024 Oral:长视频中噪声关联学习,单卡训练仅需1天

09d8a3b472bc98f426559912101301d6.jpeg
传统的视频-语言研究通常聚焦于短视频片段,而长视频的时间依赖性学习却鲜有涉及,主要因为其高昂的计算成本。针对这一问题,《Multi-granularity Correspondence Learning from Long-term Noisy Videos》一文在ICLR 2024上发表了一项名为Norton(NOise Robust Temporal Optimal traNsport)的新方法。这一方法在单个GPU上的训练仅需1天,极大地提升了处理长视频数据集的效率。

Norton方法通过视频段落和视频片段-字幕对比损失,基于最优传输(Optimal Transport, OT)框架,捕捉长期依赖性。为解决粗粒度的错位问题,Norton引入了可对齐的提示桶(alignable prompt bucket)来过滤不相关的片段和字幕,并根据传输距离重新对齐异步的片段-字幕对。同时,为了解决细粒度的错位问题,Norton引入了软最大(soft-maximum)操作符,识别关键词汇和关键帧。此外,利用OT分配来纠正对比学习中的潜在错误负样本,确保了精确的时间建模。

研究者进行了广泛的实验,包括视频检索、视频问答(videoQA)和动作分割等任务,验证了Norton方法的有效性。实验结果表明,Norton不仅能够捕捉长期时间依赖性,还能促进片段级别的表示学习。

论文揭示了时间学习中的多粒度噪声关联问题,包括粗粒度的异步和不相关错位,以及细粒度的错位。通过引入软最大操作符、可对齐提示桶和错误负样本利用等创新组件,在最优传输框架内实现了高效且鲁棒的对应学习。

此外,论文提出了未来可能的研究方向,包括扩展到多模态噪声关联问题,以及探索利用噪声样本作为训练激励的可能性。

通过提出Norton方法,这篇论文为长视频理解和噪声关联问题提供了新的解决方案,并通过实验验证了其有效性。其贡献不仅在于提出了一种新的方法,还在于对现有视频-语言研究领域的深入分析和未来研究方向的展望。

目录
相关文章
|
PHP Apache 索引
【技术贴】解决127.0.0.1和http://localhost均被拦截跳转到另一个网页
很艰难的历程。   今天安装一个OA系统,要用到http://127.0.0.1输入完成之后,可以进入安装界面,but,我输入完了之后,自动跳到了129129垃圾网站,艹,我真TM服了,我把本地连接网线都拔掉了,它还是可以访问到这个网站,真是流氓网站啊,我又去下载DNS劫持修复工具,又是杀毒的,直到我发现我的进程里面有一个httpd进程,我艹,这不是阿帕奇的服务器软件吗,我就把它禁用了一下,瞬间就可以进入127.0.0.1了。
1839 0
|
机器学习/深度学习 人工智能 算法
基于YOLOV8的口罩佩戴实时检测系统【训练和系统源码+Pyside6+数据集+包运行】
本文介绍了基于YOLOv8算法的口罩佩戴实时检测系统,该系统通过7959张训练图片训练出有效识别模型,开发了带GUI界面的系统,支持图片、视频和摄像头实时检测口罩佩戴情况,提高疫情防控效率。
824 3
基于YOLOV8的口罩佩戴实时检测系统【训练和系统源码+Pyside6+数据集+包运行】
|
机器学习/深度学习 运维 监控
深度学习之视频内容理解
基于深度学习的视频内容理解(Video Content Understanding, VCU)是一项关键技术,旨在通过神经网络模型自动分析、解读和提取视频中的语义信息。
877 10
|
11月前
|
算法
基于WOA算法的SVDD参数寻优matlab仿真
该程序利用鲸鱼优化算法(WOA)对支持向量数据描述(SVDD)模型的参数进行优化,以提高数据分类的准确性。通过MATLAB2022A实现,展示了不同信噪比(SNR)下模型的分类误差。WOA通过模拟鲸鱼捕食行为,动态调整SVDD参数,如惩罚因子C和核函数参数γ,以寻找最优参数组合,增强模型的鲁棒性和泛化能力。
272 31
|
小程序
微信小程序开发---购物商城系统。【详细业务需求描述+实现效果】
这篇文章详细介绍了作者开发的微信小程序购物商城系统,包括功能列表、项目结构、具体页面展示和部分源码,涵盖了从首页、商品分类、商品列表、商品详情、购物车、支付、订单查询、个人中心到商品收藏和意见反馈等多个页面的实现效果和业务需求描述。
微信小程序开发---购物商城系统。【详细业务需求描述+实现效果】
|
SQL Java 数据库连接
【Java笔记+踩坑】MyBatisPlus基础
MyBatisPlus简介、标准数据层开发CRUD、业务层继承IService、ServiceImpl、条件查询、LambdaQueryWrapper、id生成策略、逻辑删除、乐观锁@Version、代码生成器、ActiveRecord
【Java笔记+踩坑】MyBatisPlus基础
|
存储 关系型数据库 MySQL
带你读《2022龙蜥社区全景白皮书》——5.3.4 跨处理器节点内存访问优化
带你读《2022龙蜥社区全景白皮书》——5.3.4 跨处理器节点内存访问优化
806 98
|
存储 缓存 安全
深入理解内存映射:mmap映射的背后原理以及和共享内存的差异
深入理解内存映射:mmap映射的背后原理以及和共享内存的差异
4670 0
|
机器学习/深度学习 人工智能 分布式计算
Agent AI智能体:如何借助机器学习引领科技新潮流
Agent AI智能体:如何借助机器学习引领科技新潮流
379 0
|
数据可视化 Java 测试技术
【Go语言专栏】Go语言中的内存泄漏检测与修复
【4月更文挑战第30天】Go语言内存泄漏详解:概念、原因、检测与修复。内存泄漏由忘记释放内存、循环引用等引起,Go通过垃圾回收机制管理内存,但仍有泄漏风险。检测方法包括pprof、可视化工具、代码审查和单元测试。修复策略涉及优化代码、使用defer、减少全局变量、弱引用及及时释放资源。实践案例分析有助于理解和解决问题。了解内存管理,防止泄漏,提升Go应用性能和稳定性。
543 0