CVPR2022 | 动作识别框架新范式 STRM,用最小的样本获得最高的精度

简介: CVPR2022 | 动作识别框架新范式 STRM,用最小的样本获得最高的精度

a91808ab67c41bcfcab77310827a75b0.png

综述


我们提出了一种few-shot动作识别框架STRM,它在学习高阶时间表示的同时,增强了特定类特征的区分能力。我们的方法的重点是一个新的时空增强模块,它将空间和时间上下文与专用的局部帧级别和全局帧级别特征丰富子模块聚合在一起。局部帧级别的扩展捕获基于外观的动作特征。另一方面,全局帧级扩展明确编码了广泛的时间上下文,从而捕获了随时间推移的相关对象特征。然后,利用得到的时空丰富表示来学习查询和支持动作子序列之间的关系匹配。我们进一步在帧级丰富的特征上引入query类相似性分类器,通过在所提出的框架中的不同阶段加强特征学习来增强特定类特征的可区分性。在四个不同的少样本动作识别数据基准上进行了实验:Kinetics、SSv2、HMDB51和UCF101,我们所提的方法达到最佳水平。

少样本动作识别简介


少镜头(FS)动作识别是一个具有挑战性的计算机视觉问题,其任务是将未标记的视频分类为数据集中具有有限样本的动作类别之一。其识别问题与细粒度动作识别特别相关,因为收集足够多的标记示例是一项挑战。大多数现有的FS动作识别方法通常搜索单个支持视频或支持类视频的平均表示。然而,这些方法仅利用帧级表示,而不显式地利用视频子序列进行时间关系建模。

STRM算法介绍


  • 动机:它致力于增强类特定特征的可辨别性,同时减轻灵活性问题。
  • 特征可辨别性:与仅关注时间关系建模的TRX不同,我们的方法强调了在建模时间关系之前聚合空间和时间上下文以有效丰富视频子序列表示的重要性。学习丰富的空间和时间关系之后的局部表示能够增强特征的可分辨性,从而有效利用可用于FS动作识别的有限样本。
  • 模型灵活性:我们提出的方法学习以较低的基数对高阶关系进行建模,减少了归纳偏差,从而提高了模型的灵活性。

a5c1975c3e4a709039c7617560eca437.png

STRM总体框架

如上图所示,长度为L的视频帧通过一个图像特征提取器输出一个空间分辨率为PxP、维度为D的特征图,然后再把它展开成P^2xD的平面图。接下来,该特征图Xi输入到本文提出的PLE(Patch-Level enrichment)模块,该模块关注帧中patches的空间上下文信息,并输出空间特征丰富的, 然后对其进行空间平均以获得D维帧级表示,然后将其级联形成。接下来,帧级增强(FLE)子模块通过对视频中不同帧的时间上下文进行编码来全局增强帧表示,并输出时空增强的帧级表示。最后将E输入到时间关系建模(TRM)模块,该模块通过将查询视频的子序列与支持动作相匹配来对查询视频进行分类。此外,通过引入查询类相似性分类器对中间表示H进行分类,增强了不同阶段对应类级别信息的学习,并有助于进一步提高整体特征可辨别性。我们的框架分别使用来自TRM模块和查询类相似性分类器的类预测上的标准交叉熵损失项和来联合学习。

Spatio-temporal Enrichment


我们的方法引入时空增强模块,该模块致力于增强(i)单个帧中空间上的局部patches特征;(ii)视频中时间上跨帧的全局帧特征。

视频中空间和时间上下文信息的有效利用使得能够在建模查询和支持视频之间的时间关系之前改进特定于类别的特征可辨别性。

Enriching Local Patch Features


每帧中的patches特征一起对其空间信息进行编码。增强这些特征以编码帧中所有帧级空间上下文,这对于捕捉基于外观的相似性以及动作类之间的差异是必要的。为此,我们引入了一个patches增强(PLE)子模块,该子模块使用自注意力,通过聚合一致的patch上下文,让patch特征关注自己。PLE子模块如下图所示,具体计算公式见原论文。

1b3f187118cd55b06534800ca6e39bd8.png

PLE子模块

Enriching Global Frame Features


上述(PLE)子模块旨在在动作视频的每个帧内局部地聚集空间上下文,这使得能够聚焦于帧中的相关对象。然而,它没有明确地编码时间上下文,因此在遇到随时间推移的物体运动时会产生困难。在这里,我们通过引入包括MLP-mixer层的帧级增强(FLE)子模块,继续在视频内的帧之间全局地增强时间上下文。虽然自注意力是基于样本相关(输入特定)混合,由标记之间的成对相似性引导,但MLP- mixer中的标记混合通过独立于输入的持久关系记忆同化了整个全局感受场。token标识的这种全局同化使得MLP-mixer更适合于丰富全局帧表示。FLE子模块如下图所示。

04ae933055445b1ba5a9c3d0e6f318ab.png

FLE子模块

FLE子模块在时间上增强了帧表示,具有包含所有帧的全局接受场,并产生时间上丰富的特征表示。把该丰富的帧级全局表示输入到时间关系建模(TRM)模块,该模块对查询和支持动作之间的时间关系进行建模。

image.png

Query-class Similarity


如前面所述,包括特征提取器、时空增强模块和时间关系建模模块,是在输出概率为,损失函数为CE的基础上的进行端到端学习。然而,学习从中间层输出中分类查询视频表示增强了模型寻找在pipeline不同阶段类-特定的特征。

因此,这种多级分类提高了特征的可分辨性,导致查询和支持视频之间的更好匹配。为此,我们在patch-level增强特征表示上引入了一个查询类相似性分类器。由于公式比较复杂,具体内容看原论文。

因此,我们提出的STRM包括一个时空增强模块和一个中间查询类相似性分类器,增强了特征可分辨性(见下图),并改善了查询与其支持动作类之间的匹配。

2edafc61af5449a8ff309a30463c957f.png

不同模块对于结果贡献的影响

实验


模型所用的数据集:Something-SomethingV2(SSv2)、Kinetics、HMDB51和UCF101。

ec625508f7044236e54e44033ad966fe.png

9c17a18559435e037618baa5e3771c6b.png566ee839cc701dac25c5a34475061326.png

实验对比

不同模块对比的消融实验


cc9b7fe8af5a533ee7341f6a7701e56f.png

增加模块对实验结果的影响

d25bd59500d03ab2085f3da1871121b5.png

更改SSv2数据集中支持样本的数量时的性能比较

结论


文章提出了一个FS动作识别框架STRM,包括时空增强和时间关系建模(TRM)模块以及查询类相似性分类器。我们的STRM利用了结合局部和全局、样本依赖和样本不可知的增强机制的优势,以增强时空特征,以及增强不同阶段特征的可分类性。因此,这增强了时空特征的可分辨性,并且即使在较低基数表示中也能够学习高阶时间关系。我们的消融实验揭示了几个模块贡献的benefits,从而在所有基准上取得了最先进的结果。在当前工作范围之外,一个可能的未来方向是扩展少数镜头动作识别能力,以在不同领域进行推广。


相关文章
|
6月前
|
自然语言处理 异构计算
ICLR 2024 Poster:精确且高效的大语言模型低比特量化方法 QLLM
【2月更文挑战第24天】ICLR 2024 Poster:精确且高效的大语言模型低比特量化方法 QLLM
164 3
ICLR 2024 Poster:精确且高效的大语言模型低比特量化方法 QLLM
|
6月前
|
机器学习/深度学习 人工智能 运维
[ICLR2024]基于对比稀疏扰动技术的时间序列解释框架ContraLSP
《Explaining Time Series via Contrastive and Locally Sparse Perturbations》被机器学习领域顶会ICLR 2024接收。该论文提出了一种创新的基于扰动技术的时间序列解释框架ContraLSP,该框架主要包含一个学习反事实扰动的目标函数和一个平滑条件下稀疏门结构的压缩器。论文在白盒时序预测,黑盒时序分类等仿真数据,和一个真实时序数据集分类任务中进行了实验,ContraLSP在解释性能上超越了SOTA模型,显著提升了时间序列数据解释的质量。
|
6月前
分解商业周期时间序列:线性滤波器、HP滤波器、Baxter滤波器、Beveridge Nelson分解等去趋势法(二)
分解商业周期时间序列:线性滤波器、HP滤波器、Baxter滤波器、Beveridge Nelson分解等去趋势法
分解商业周期时间序列:线性滤波器、HP滤波器、Baxter滤波器、Beveridge Nelson分解等去趋势法(二)
|
6月前
|
存储
分解商业周期时间序列:线性滤波器、HP滤波器、Baxter滤波器、Beveridge Nelson分解等去趋势法(一)
分解商业周期时间序列:线性滤波器、HP滤波器、Baxter滤波器、Beveridge Nelson分解等去趋势法
|
6月前
分解商业周期时间序列:线性滤波器、HP滤波器、Baxter滤波器、Beveridge Nelson分解等去趋势法(三)
分解商业周期时间序列:线性滤波器、HP滤波器、Baxter滤波器、Beveridge Nelson分解等去趋势法
分解商业周期时间序列:线性滤波器、HP滤波器、Baxter滤波器、Beveridge Nelson分解等去趋势法(三)
|
6月前
|
存储
分解商业周期时间序列:线性滤波器、HP滤波器、Baxter滤波器、Beveridge Nelson分解等去趋势法1
分解商业周期时间序列:线性滤波器、HP滤波器、Baxter滤波器、Beveridge Nelson分解等去趋势法
分解商业周期时间序列:线性滤波器、HP滤波器、Baxter滤波器、Beveridge Nelson分解等去趋势法1
|
6月前
分解商业周期时间序列:线性滤波器、HP滤波器、Baxter滤波器、Beveridge Nelson分解等去趋势2
分解商业周期时间序列:线性滤波器、HP滤波器、Baxter滤波器、Beveridge Nelson分解等去趋势法
分解商业周期时间序列:线性滤波器、HP滤波器、Baxter滤波器、Beveridge Nelson分解等去趋势2
|
6月前
|
存储
分解商业周期时间序列:线性滤波器、HP滤波器、Baxter滤波器、Beveridge Nelson分解等去趋势法
分解商业周期时间序列:线性滤波器、HP滤波器、Baxter滤波器、Beveridge Nelson分解等去趋势法
|
6月前
分解商业周期时间序列:线性滤波器、HP滤波器、Baxter滤波器、Beveridge Nelson分解等去趋势法(四)
分解商业周期时间序列:线性滤波器、HP滤波器、Baxter滤波器、Beveridge Nelson分解等去趋势法
|
6月前
|
存储
R语言分解商业周期时间序列:线性滤波器、HP滤波器、Baxter滤波器、Beveridge Nelson分解等去趋势法
R语言分解商业周期时间序列:线性滤波器、HP滤波器、Baxter滤波器、Beveridge Nelson分解等去趋势法