ICCV2023 | 基于动作敏感性学习的时序动作定位

简介: ICCV2023 | 基于动作敏感性学习的时序动作定位




淘天集团-内容理解算法团队与浙江大学杨易教授团队合作的关于视频时序定位的论文被ICCV2023录取。



本文在业界首次将视频帧级别的细粒度信息引入至时序动作定位领域(Temporal Action Localization,TAL),对于时序动作定位任务,在单一标注(single-labeled)、密集标注(dense-labeled)和第一人称视角(egocentric)等类型数据集上,性能普遍超过SOTA。


动机

视频时序动作定位(Temporal Action Localization,TAL)是视频理解领域一个重要的任务。这个任务需要对于给定的视频,识别出其中所有发生的动作,同时定位出每个动作发生的起始时间。视频时序动作定位的方法可以广泛应用于高光检测、行为监控以及短视频分析等领域。

在过去对这个任务的处理中,大多数方法或是建立整体的时序提议,再对其做分类和定位;或是直接对不同帧同等地进行预测。但事实上,我们发现视频中动作内部的帧是有不同重要性的。以图1为例,对于晾衣服动作,描绘“把衣服晾到衣架上”的帧对于识别出这个动作最重要,描绘“拿出衣服”的帧对于定位出这个动作的开始最重要。而一些例如转场或模糊的帧则不具有很高的重要度。

因此我们提出用动作敏感度来表征帧的重要度,提出动作敏感性学习(action sensitivity learning),对于每一帧的动作敏感度进行建模,并将学习到的敏感度应用于损失函数中,以促进模型更关注重要的帧,从而更好的训练。

图1: 晾衣服为案例的动机说明

观察和动机


图2:动作敏感性学习框架图


考虑到每种动作都有其本质的行为模式,但这种模式又在不同的场景或行为主体下有不同的偏移,因此我们提出从类别级别和实例级别对动作敏感性进行建模。同时,对于动作定位子任务,由于边界的不确定性和边界附近帧的不同语义信息,最敏感的帧也不一定在边界处,因此我们分别对动作分类和动作定位两个子任务都进行动作敏感性学习。整体的框架图如图2所示。


在类别级别的建模中,由于视频本身信息具有连续性,且存在一些关键帧,因此我们提出为每种动作使用一个可学习的高斯分布来建模其类别级别的动作敏感性。具体而言,针对分类子任务的类别级别动作敏感性pcls建模为:


针对定位子任务的类别级别动作敏感性ploc建模为:


其中μc,σc为可学习的参数。


在实例级别的建模中,考虑到重要的帧往往做出的预测质量比较高,模糊帧则相反,因此我们提出建立每一帧的预测质量,用质量来指导实例级别的学习。具体而言,以针对分类子任务的实例级别动作敏感性为例,我们首先通过实例建模网络预测实例级别的动作敏感性结果qcls,之后通过分类分数和时序维度上与真值的重叠度得到质量分数Q:


然后基于MSE损失,学习实例建模网络:


最后我们将类别级别和实例级别的动作敏感度做和,并嵌入到损失函数中:


具体而言,我们对每一帧都通过Focal损失进行分类的学习,对每一个在动作内部的帧都基于DIoU损失进行回归的学习,在此基础上每一帧的损失函数前再乘以学习到的动作敏感度:


此外,我们还引入了动作敏感度对比学习损失来进一步增强特征,具体而言,我们通过上文的动作敏感性学习,得到针对两个子任务的敏感特征,将这两部分作为正样本,同时将其他不同动作类别以及背景帧作为负样本,基于InfoNCE的形式进行学习:


因而最终的损失函数表示为:


实验


我们在3大类共6个数据集上验证了我们的方法,包括:密集标注的MultiThumos和Charades,见表1,我们提出的方法在average mAP指标上大幅超越以往方法。


表1: 在MultiThumos和Charades上的结果


密集标注且第一人称视角的Ego4D-Moment Query,见表2,在使用相同特征且公平对比下,我们的方法同样在验证集和测试集上都优于过去方法。


表2:在Ego4D Moment Queries上的结果


单一标注的Thumos14和ActivityNet,见表3,由于在单一标注数据集上动作实例较少,我们提出方法中的对比学习部分收益较少,但整体仍然优于之前的SOTA方法。


表3:在Thumos和ActivityNet上的结果


表4展示了部分消融实验结果,ASL结构中类别级别建模、实例级别建模都挖掘了帧之间不同的重要性,进而提升了average mAP指标。而融合了动作敏感性对比学习损失后,进一步增强了特征,获得了最佳性能。


表4:在MultiThumos上的消融实验


图3展示了ASL的可视化结果,表明了我们提出的方法能够找到动作内部一些重要的帧(如描绘“把衣服晾到衣架上”,“水流流经手”的这些帧对于分类子任务具有了较高的重要度),而一些转场、模糊的帧则被赋予了较低的重要度。


图3: 部分可视化结果

总结


本文从挖掘动作内部不同帧的不同重要性入手,提出了动作敏感性学习(ASL)。通过从类别级别和实例级别建模的方式,学习到每一帧的敏感度,并融入进损失函数中,以促进模型更好的训练。同时还提出敏感度对比学习损失,进一步加强特征。本文提出的方法刷新了多个数据集时序动作定位任务的SOTA指标。相关算法将会有助于进一步提高淘宝短视频内容理解的精准性。


Reference

  1. Zhang C L, Wu J, Li Y. Actionformer: Localizing moments of actions with transformers[C]//European Conference on Computer Vision. Cham: Springer Nature Switzerland, 2022: 492-510.
  2. Yeung S, Russakovsky O, Jin N, et al. Every moment counts: Dense detailed labeling of actions in complex videos[J]. International Journal of Computer Vision, 2018, 126: 375-389.
  3. Caba Heilbron F, Escorcia V, Ghanem B, et al. Activitynet: A large-scale video benchmark for human activity understanding[C]//Proceedings of the ieee conference on computer vision and pattern recognition. 2015: 961-970.
  4. Grauman K, Westbury A, Byrne E, et al. Ego4d: Around the world in 3,000 hours of egocentric video[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 18995-19012.
  5. Sigurdsson G A, Gupta A, Schmid C, et al. Charades-ego: A large-scale dataset of paired third and first person videos[J]. arXiv preprint arXiv:1804.09626, 2018.
  6. Damen D, Doughty H, Farinella G M, et al. Scaling egocentric vision: The epic-kitchens dataset[C]//Proceedings of the European conference on computer vision (ECCV). 2018: 720-736.
  7. Yu-Gang Jiang, Jingen Liu, A Roshan Zamir, George Toderici, Ivan Laptev, Mubarak Shah, Rahul Sukthankar. Thumos challenge: Action recognition with a large number of classes. 2014


团队介绍

淘天集团-算法技术-内容理解团队,依托淘天亿级的视频数据,构建完善的内容理解体系,支撑淘宝信息流、逛逛、淘宝直播、点淘等淘系核心业务。团队成员曾多次获得CVPR、ICCV等顶会竞赛冠军,积累的多项多模态理解能力,发布在如NIPS、CVPR、ICCV、ECCV、TPAMI、TIP、MM等顶级和期刊上。

相关文章
|
2天前
|
机器学习/深度学习 存储 设计模式
特征时序化建模:基于特征缓慢变化维度历史追踪的机器学习模型性能优化方法
本文探讨了数据基础设施设计中常见的一个问题:数据仓库或数据湖仓中的表格缺乏构建高性能机器学习模型所需的历史记录,导致模型性能受限。为解决这一问题,文章介绍了缓慢变化维度(SCD)技术,特别是Type II类型的应用。通过SCD,可以有效追踪维度表的历史变更,确保模型训练数据包含完整的时序信息,从而提升预测准确性。文章还从数据工程师、数据科学家和产品经理的不同视角提供了实施建议,强调历史数据追踪对提升模型性能和业务洞察的重要性,并建议采用渐进式策略逐步引入SCD设计模式。
15 8
特征时序化建模:基于特征缓慢变化维度历史追踪的机器学习模型性能优化方法
|
6天前
分布匹配蒸馏:扩散模型的单步生成优化方法研究
扩散模型在生成高质量图像方面表现出色,但其迭代去噪过程计算开销大。分布匹配蒸馏(DMD)通过将多步扩散简化为单步生成器,结合分布匹配损失和对抗生成网络损失,实现高效映射噪声图像到真实图像,显著提升生成速度。DMD利用预训练模型作为教师网络,提供高精度中间表征,通过蒸馏机制优化单步生成器的输出,从而实现快速、高质量的图像生成。该方法为图像生成应用提供了新的技术路径。
23 2
|
7月前
|
机器学习/深度学习 编解码 监控
深度学习实战】行人检测追踪与双向流量计数系统【python源码+Pyqt5界面+数据集+训练代码】YOLOv8、ByteTrack、目标追踪、双向计数、行人检测追踪、过线计数(1)
深度学习实战】行人检测追踪与双向流量计数系统【python源码+Pyqt5界面+数据集+训练代码】YOLOv8、ByteTrack、目标追踪、双向计数、行人检测追踪、过线计数
|
7月前
|
机器学习/深度学习 计算机视觉 Python
深度学习实战】行人检测追踪与双向流量计数系统【python源码+Pyqt5界面+数据集+训练代码】YOLOv8、ByteTrack、目标追踪、双向计数、行人检测追踪、过线计数(3)
深度学习实战】行人检测追踪与双向流量计数系统【python源码+Pyqt5界面+数据集+训练代码】YOLOv8、ByteTrack、目标追踪、双向计数、行人检测追踪、过线计数
|
7月前
|
机器学习/深度学习 存储 算法
深度学习实战】行人检测追踪与双向流量计数系统【python源码+Pyqt5界面+数据集+训练代码】YOLOv8、ByteTrack、目标追踪、双向计数、行人检测追踪、过线计数(2)
深度学习实战】行人检测追踪与双向流量计数系统【python源码+Pyqt5界面+数据集+训练代码】YOLOv8、ByteTrack、目标追踪、双向计数、行人检测追踪、过线计数
|
7月前
|
自然语言处理 安全 数据安全/隐私保护
不影响输出质量还能追踪溯源,大模型无偏水印入选ICLR 2024 Spotlight
【6月更文挑战第7天】研究人员提出了一种无偏水印技术,能在不降低大型语言模型(LLMs)输出质量的情况下实现追踪和归属。此方法被ICLR 2024选为Spotlight论文,保证水印不影响模型性能,保护知识产权,防止滥用。无偏水印的挑战包括设计无损模型质量的实现、有效检测及安全防范措施。[论文链接: https://openreview.net/pdf?id=uWVC5FVidc]
77 2
|
8月前
|
人工智能 搜索推荐 测试技术
让智能体像孩子一样观察别人学习动作,跨视角技能学习数据集EgoExoLearn来了
【4月更文挑战第11天】EgoExoLearn是一个大规模数据集,用于模拟人类通过观察视频学习任务的能力,包含120小时的日常生活和实验室场景视频,重点是第一人称视角和注视数据。该数据集提供多模态注释,设有跨视角动作理解等基准测试,旨在推动AI模仿人类行为的研究。尽管有挑战,如视角转换和多样性问题,但EgoExoLearn为AI学习和融入人类环境开辟了新途径。
69 1
让智能体像孩子一样观察别人学习动作,跨视角技能学习数据集EgoExoLearn来了
|
8月前
|
机器学习/深度学习 数据可视化
数据分享|R语言生存分析模型因果分析:非参数估计、IP加权风险模型、结构嵌套加速失效(AFT)模型分析流行病学随访研究数据
数据分享|R语言生存分析模型因果分析:非参数估计、IP加权风险模型、结构嵌套加速失效(AFT)模型分析流行病学随访研究数据
|
8月前
|
机器学习/深度学习 运维 算法
R语言用ARIMA模型滑动时间窗口识别网络流量时间序列异常值
R语言用ARIMA模型滑动时间窗口识别网络流量时间序列异常值
|
机器学习/深度学习 传感器 算法
垂直腔表面发射激光器极化噪声的建模与分析论文复现
垂直腔表面发射激光器极化噪声的建模与分析论文复现

热门文章

最新文章