TPAMI 2021 | 时间走向二维,基于文本的视频时间定位新方法兼顾速度与精度

简介: TPAMI 2021 | 时间走向二维,基于文本的视频时间定位新方法兼顾速度与精度

当时间的维度从一维走向二维,时序上的建模方式也需要相应的改变。本文提出了多尺度二维时间图的概念和多尺度二维时域邻近网络(MS-2D-TAN)用于解决视频时间定位的问题。本文拓展自  AAAI 2020  [1],并将单尺度的二维时间建模拓展成了一个多尺度的版本。新模型考虑了多种不同时间尺度下视频片段之间的关系,速度更快的同时精度也更高。本文在基于文本的视频时间定位任务中验证了其有效性。相关内容将发表在  TPAMI上。

时间可以是二维的吗?这是一个好问题!

我们常常将物理世界定义为三维空间,将时间定义为一维空间。但是,这不是唯一的定义方式。最近,罗切斯特大学和微软亚洲研究院的学者们大开脑洞,提出了一种新的时间表示方式,将时间定义成了二维的!

在二维空间里,时间是如何表达的呢?童鞋们给出的答案是这样的:在二维空间中,我们定义其中一个维度表示时间的开始时刻,另外一个维度表示持续的时间;从而,二维空间中的每一个坐标点就可以表达一个时间片段(例如,从 A 时刻开始持续 B 秒的时间片)。

在这种二维空间定义下,如果我们把单位时间刻度设置的越小,那么可以观测到时域上更加局部和微观的关系。而如果把单位时间刻度设置的较大,那么观测到的关系将更加全局和宏观。如果能有效地结合两者,将会对片段间的关系有更丰富的描述。

(参考自 https://www.msra.cn/zh-cn/news/features/aaai-2020-2d-tan)

基于文本的视频时间定位的目标是,给一段文字,在视频中找到文本所对应视频片段,并给出片段的开始时间和结束时间。如图  1 Query A 所示,给一段文字  「一个人吹起了萨克斯」和一段视频,这个任务希望找到与文字描述最匹配的那个片段。许多前人的工作都是独立考虑片段和文本之间的相似程度,而忽略了片段与片段之间的上下文信息。如图  1 Query C 所示,为了定位这个人再一次吹起了萨克斯, 如果只看后半段的视频是很难定位 这个词的。此外,如图 1 Query B 所示, 很多高度重合的片段有相似的内容,如果不对这些片段进行对比的话,很难区分哪个片段与文字描述最匹配。

为了解决这一问题,该研究在  AAAI 2020 的论文中提出了一个二维时域邻近网络(2D-TAN)。该网络的核心思想是在一个二维时间图上做视频的时间定位。如图  1(a)所示,图中(i,j) 表示的是一个从 i 开始持续 j+1  的时间片段。对于不同长度的片段,我们可以通过坐标上的远近来定义他们之间的邻近关系。有了这些关系,我们就可以用 2D-TAN  对这种依赖关系进行建模。此外,因为 2D-TAN 是将这些片段当成一个整体来考虑,学出来的片段特征也更具有区分性。

image.png

这里二维时间图的单位时间长度τ决定了定位精细程度。为了让定位更精细,该研究设计了一个多尺度的二维时间图,如图1(b)   。该研究选取不同的单位时间长度来构造不同精细度的二维时间图。这种方式可以让模型在更大的时间范围上学习片段间的依赖关系,同时也让每个片段获得更丰富的上下文信息。另一个好处是,这种多尺度建模也可以看作是一种稀疏采样的方式,从而降低片段特征抽取和片段间建模所带来的计算开销,将计算复杂度从二次方降到了线性  。

图  1 二维时间图的示意图。(a)  表示的是稠密单尺度二维时间图。黑色坐标轴分别表示的是开始和时长的标号,而灰色坐标轴表示的是与之对应的开始时刻和持续时间。二维图中红色的程度表示目标片段和候选片段的匹配程度。这里是一个预先定义好的单位时长。白色格子表示无效的视频片段。(b)表示的是稀疏多尺度二维时间图。稀疏多尺度二维时间图由多个二维时间图构成,各个二维时间图的单位时长不相同()。灰色格子表示有效但非候选的视频片段。其他颜色定义同上。通过在多个小尺寸图上建模,可以减少计算开销。
下面我们将具体介绍该方法。

多尺度二维时域邻近网络(MS-2D-TAN)本文提出的模型如图 2 所示。该模型由三个模块构成:文本编码模块,视频的二维时间特征图模块和多尺度二维时间邻近网络。下文将逐一介绍各个模块。

image.png

语句的文本特征
该研究首先将各个单词用 GloVe 进行编码,再输入到 LSTM 中。该研究将 LSTM 的输出取平均作为语句的特征向量。

视频的二维时域特征图
该研究首先将视频分割成N个小的单元片段(clip),再通过预训练好的模型将这些片段抽取特征,大小是N×d^V。候选片段由多个连续的单元片段所构成,且长度并不相同。为获取统一的片段特征的表示,该研究将抽取好的单元片段特征通过叠加卷积的方式获得所有候选片段特征。再根据每个候选片段的开始时刻和持续时间,将所有的候选片段排列成一个二维特征图。

当研究人员使用N  - 1 个卷积层可获得所有有效片段的特征。但当N较大时,这样的计算开销也往往较大。因此,该研究采用了一个稀疏采样的方式。如图 2  所示,该研究对较短的片段进行密集的采样,而对较长的片段进行稀疏采样。先用 A 层步长为 1,核尺寸为 2 的卷积获得短片段的特征,之后每隔  A/2  个卷积层,步长增加一倍,逐步获得较长片段的特征。通过这种方式可以不用枚举出所有的片段,从而降低计算开销。前者获得的二维特征图我们称之为稠密二维特征图,而后者则称之为稀疏二维特征图。

通过多尺度二维时间邻近网络定位
有了视频的稀疏二维特征图(图  2 中蓝色立方体)和文本特征(图 2 中黄色立方体),该研究将其进行融合,获得融合的稀疏二维特征图(图 2  中绿色立方体)。该研究再根据不同的时间尺度,将单一尺度的稀疏二维特征图,转化成一组稀疏的多尺度二维特征图。对于每个尺度的二维特征图,该研究使用一系列的  gated convolution 对每个片段和其邻近片段的关系进行建模,并通过一个全联接层获得各尺度中各片段最终的得分。

训练和测试
在训练过程中,每一个尺度都会有一个对应的损失函数,该研究将二元交互熵  (Binary Cross Entropy) 作为模型的损失函数,同时使用一个经过线性变换的 IoU (intersection over  union)的值作为损失函数中的标签。该研究将所有的损失函数加在一起作为整个模型的损失函数。

在测试时,该研究根据特征的位置,得到每个片段的得分,并根据 NMS 对其进行筛选。如果一个片段存在于多个得分图中,那么选取最高的得分作为其得分。

实验结果该研究在  Charades-STA [2], ActivityNet Captions [3] 和 TACoS [4] 三个数据集上评测。实验结果如表  1-3 所示。为了公平对比,该研究使用了和前人方法相同的视频和文本特征,且所有模型的超参保持一致。从实验结果中,无论使用哪种特征,该研究提出的  MS-2D-TAN 方法均能获得前两位的成绩。而在某些数据集上,进一步调整超参可以获得更好的性能,如表 3 的 MS-2D-TAN*。

image.png

image.png

image.png

时间和内存的开销该研究还对比了时间和内存的开销。图  3 中对比了稠密单尺度二维特征图,稀疏单尺度二维特征图 [1]  以及本文提出的稀疏多尺度二维特征图。可以发现在当视频长度较长时,使用稀疏多尺度二维特征图可以大幅减少时间和内存的开销。在图 4  中该研究也与其他方法在 TACoS 上进行了对比。当研究人员使用一个隐层参数量较小的模型 MS-2D-TAN (Small) 时,  该研究的方法可以在保证速度和内存开销稍小的前提下,比其他方法获得更高的精度。而使用较大参数量的 MS-2D-TAN 可以进一步提高精度。

image.pngimage.png

结语
本文针对基于文本的视频时间定位提出了一种全新的多尺度二维时间表示方式并提出了一种新的多尺度时域邻近网络(MS-2D-TAN)。该模型可以很好的利用邻近时域的上下文信息,并学出有区分性的视频片段特征。该研究的模型设计简单,也同时在三个数据集上取得了有竞争力的结果。

参考文献:
[1]  Songyang Zhang, Houwen Peng, Jianlong Fu, Jiebo Luo, “Learning 2D  Temporal Adjacent Networks for Moment Localization with Natural  Language”, AAAI 2020[2] Jiyang Gao, Chen Sun, Zhenheng Yang and Ram Nevatia, “TALL: Temporal activity localization via language query”, ICCV2017[3]  Ranjay Krishna, Kenji Hata,  Frederic Ren, Li Fei-Fei, and Juan Carlos  Niebles, “Dense-Captioning Events in Videos”, ICCV 2017[4]  Michaela Regneri, Marcus Rohrbach, Dominikus Wetzel, Stefan Thater, and  Bernt Schiele, and Manfred Pinkal, “Grounding action descriptions in  videos”, TACL 2013

相关文章
|
存储 Java Linux
TeamTalk - 蘑菇街开源的一款企业办公即时通信软件
TeamTalk 是蘑菇街开源的一款企业办公即时通信软件,最初是为自己内部沟通而做的 IM 工具。团队自己的介绍如下: 2013年我们蘑菇街从社区导购华丽转身时尚电商平台,为解决千万妹子和时尚卖家的沟通问题,我们开发了自己的即时通讯软件。既然已经有了用户使用的IM,为什么我们自己公司内部沟通还要用第三方的呢?因此就有了TT(TeamTalk)的雏形,现在蘑菇街内部的在线沟通全部通过TT来完成。随着TT功能的逐渐完善,我们决定把TT开源来回馈开源社区,希望国内的中小企业都能用上开源、免费、好用的IM工具!
1447 0
TeamTalk - 蘑菇街开源的一款企业办公即时通信软件
|
存储 SQL 大数据
大数据技术之ClickHouse---入门篇---介绍
大数据技术之ClickHouse---入门篇---介绍
|
12月前
精美按钮式广告代码HTML分享
精美按钮式广告代码HTML分享
287 4
|
4月前
|
存储 缓存 监控
网站性能飞跃:深度优化OSS+CDN+全站加速DCDN的最佳实践
本文深入解析如何通过阿里云OSS、CDN与DCDN的协同优化,构建高性能内容分发体系。从静态资源存储加速到动态请求智能路由,结合缓存策略、协议优化与实时监控,实现网站全链路性能飞跃,助力业务赢得速度竞争。
|
存储 人工智能 机器人
动手实践召唤专属钉钉AI助手
通过简单几步,你可以在10分钟内在钉钉上增加一个AI机器人。首先创建一个百炼大模型应用,获取API凭证;接着创建钉钉应用,并配置机器人;然后利用阿里云AppFlow建立连接流,无需编码即可关联机器人与大模型应用;最后为大模型应用添加私有知识库,提升问答准确性。百炼提供新用户免费额度,降低初期成本。整个过程直观易懂,助你快速搭建智能助手。
1137 1
|
存储 缓存 算法
大文件 MD5 SHA 校验时间优化之路
【8月更文挑战第12天】处理大文件的MD5与SHA校验时,可通过选择高效算法实现、分块读取处理文件、利用多线程并行处理、采用硬件加速及缓存校验结果等方式优化校验时间。例如,使用性能良好的加密库如`pycryptodome`替代Python的标准`hashlib`库;分块读取文件并逐块计算哈希值,减少内存占用;利用多线程处理不同文件块;若条件允许,使用硬件加速如Intel AES-NI指令集;以及缓存重复校验的文件哈希值避免重算。这些策略可显著提高校验速度和系统效率。
1684 1
|
存储 编解码 UED
网站图片JPG、PNG、GIF哪个好,该选择谁
网站图片JPG、PNG、GIF哪个好,该选择谁
993 0
|
安全 网络安全 数据安全/隐私保护
非对称加密的日常实践应用:以RSA加密为例
**RSA加密简介与Python实现** RSA,一种非对称加密技术,基于大数因子分解,用于数据加密和完整性保护。本文介绍了RSA基本原理,包括密钥生成(选取大质数p和q,计算n和φ(n),选择公钥指数e和私钥指数d),并展示了使用Python `cryptography` 库生成密钥对、加密和解密消息的代码示例。通过这些步骤,读者可理解RSA在网络安全中的应用,如HTTPS和数字签名。
1308 3
|
机器学习/深度学习 并行计算 算法框架/工具
Anaconda+Cuda+Cudnn+Pytorch(GPU版)+Pycharm+Win11深度学习环境配置
Anaconda+Cuda+Cudnn+Pytorch(GPU版)+Pycharm+Win11深度学习环境配置
|
Kubernetes Java 微服务
使用Spring Boot构建微服务架构
使用Spring Boot构建微服务架构

热门文章

最新文章