论文笔记之 SST: Single-Stream Temporal Action Proposals

简介: SST: Single-Stream Temporal Action Proposals2017-06-11 14:28:00    本文提出一种 时间维度上的 proposal 方法,进行行为的识别。

SST: Single-Stream Temporal Action Proposals

2017-06-11 14:28:00 

 

  本文提出一种 时间维度上的 proposal 方法,进行行为的识别。本文方法具有如下的几个特点:

    1. 可以处理 long video sequence,只需要一次前向传播就可以处理完毕整个video;可以处理任意长度的 video,而不需要处理重叠的时间窗口;

    2. 在 proposal generation task 上取得了顶尖的效果;

    3. SST proposals 提供了一个较强的基准,进行 temporal action localization,将该方法结合到现有的分类任务中,可以改善分类的性能。

 

  所提出方法的流程图如下所示:

  

  


  Technical Approach:  

  我们所要达到的目标是:在一个 long video 上产生 temporal action proposals。

  网络的几个重要的部分:

  1. Visual Encoder (C3D) 用于编码 video frame,感知输入 video ; 

  2. Seq.Encoder (GRU) 的输入是 降维后的 C3D feature,设计该模块的目的是: accumulate evidence across time as the video sequence progresses. 为了能够更好的产生 good proposals,该模块应该能够收集信息直到确定某个动作已经发生了,与此同时,扔掉不相关的背景信息。

  

 

 

  Training:  

  由于行为识别本身就是一个多分类问题,所以这里用到了 交叉熵损失函数来作为最终 loss function。

  

  而总的 loss 就是该 loss 的加和:

  

 

 

  数据集提供了裁剪好的 video,所以就是给定 gt 的监督训练任务,完全可以用反向传播算法进行训练。  

  

  Reference: 

  1. Paper: http://vision.stanford.edu/pdf/buch2017cvpr.pdf

  2. Github: https://github.com/ranjaykrishna/SST

  

 

  

相关文章
|
18天前
|
编解码 人工智能 文件存储
轻量级网络论文精度笔记(二):《YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object ..》
YOLOv7是一种新的实时目标检测器,通过引入可训练的免费技术包和优化的网络架构,显著提高了检测精度,同时减少了参数和计算量。该研究还提出了新的模型重参数化和标签分配策略,有效提升了模型性能。实验结果显示,YOLOv7在速度和准确性上超越了其他目标检测器。
36 0
轻量级网络论文精度笔记(二):《YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object ..》
|
3月前
|
机器学习/深度学习 算法
【文献学习】Channel Estimation Method Based on Transformer in High Dynamic Environment
一种基于CNN和Transformer的信道估计方法,用于在高度动态环境中跟踪信道变化特征,并通过实验结果展示了其相比传统方法的性能提升。
55 0
|
存储 机器学习/深度学习 人工智能
PTPCG: Efficient Document-level Event Extraction via Pseudo-Trigger-aware Pruned Complete Graph论文解读
据我们所知,我们目前的方法是第一项研究在DEE中使用某些论元作为伪触发词的效果的工作,我们设计了一个指标来帮助自动选择一组伪触发词。此外,这种度量也可用于度量DEE中带标注触发词的质量。
123 1
|
机器学习/深度学习 自然语言处理 算法
ACL 2019 - AMR Parsing as Sequence-to-Graph Transduction
我们提出了一个基于注意力的模型,将AMR解析视为序列到图的转导。与大多数依赖于预训练的对齐器、外部语义资源或数据扩充的AMR解析器不同
146 0
ACL 2019 - AMR Parsing as Sequence-to-Graph Transduction
|
机器学习/深度学习 自然语言处理 数据挖掘
UnifiedEAE: A Multi-Format Transfer Learning Model for Event Argument Extraction via Variational论文解读
事件论元抽取(Event argument extraction, EAE)旨在从文本中抽取具有特定角色的论元,在自然语言处理中已被广泛研究。
84 0
|
机器学习/深度学习 自然语言处理 搜索推荐
TSAR: A Two-Stream AMR-enhanced Model for Document-level Event Argument Extraction论文解读
以往的研究大多致力于从单个句子中抽取事件,而文档级别的事件抽取仍未得到充分的研究。在本文中,我们专注于从整个文档中抽取事件论元
190 0
|
机器学习/深度学习 自然语言处理 测试技术
Query and Extract Refining Event Extraction as Type-oriented Binary Decoding 论文解读
事件抽取通常被建模为一个多分类问题,其中事件类型和论元角色被视为原子符号。这些方法通常仅限于一组预定义的类型。
66 0
|
自然语言处理 Java 计算机视觉
ACL2023 - AMPERE: AMR-Aware Prefix for Generation-Based Event Argument Extraction Model
事件论元抽取(EAE)识别给定事件的事件论元及其特定角色。最近在基于生成的EAE模型方面取得的进展显示出了与基于分类的模型相比的良好性能和可推广性
179 0
|
数据挖掘
MUSIED: A Benchmark for Event Detection from Multi-Source Heterogeneous Informal Texts 论文解读
事件检测(ED)从非结构化文本中识别和分类事件触发词,作为信息抽取的基本任务。尽管在过去几年中取得了显著进展
64 0
|
机器学习/深度学习 自然语言处理 算法
TPLinker: Single-stage Joint Extraction of Entities and Relations Through Token Pair Linking 论文解读
近年来,从非结构化文本中提取实体和关系引起了越来越多的关注,但由于识别共享实体的重叠关系存在内在困难,因此仍然具有挑战性。先前的研究表明,联合学习可以显著提高性能。然而,它们通常涉及连续的相互关联的步骤,并存在暴露偏差的问题。
201 0