CVPR 2022 Oral | 视频文本预训练新SOTA!港大、腾讯ARC Lab推出基于多项选择题的借口任务(1)

简介: CVPR 2022 Oral | 视频文本预训练新SOTA!港大、腾讯ARC Lab推出基于多项选择题的借口任务

本文提出了一个全新的借口任务用于视频文本预训练,叫做多项选择题(MCQ)。通过训练辅助的BridgeFormer根据视频内容回答文本构成的选择题,来学习细粒度的视频和文本特征,并实现下游高效的检索。该研究已被 CVPR 2022 收录为 Oral。


用于文本视频检索的多模态预训练工作主要采用两类方法:“双流”法训练两个单独的编码器来约束视频级别和语句级别的特征,忽略了各自模态的局部特征和模态间的交互;“单流”法把视频和文本联结作为联合编码器的输入来进行模态间的融合,导致下游检索非常低效。
本文提出一个全新的带有参数化模块的借口任务(pretext task),叫做“多项选择题”(MCQ),通过训练 BridgeFormer 根据视频内容回答文本构成的选择题,来实现细粒度的视频和文本交互,并在下游时移除辅助的 BridgeFormer,以保证高效的检索效率。



1. 背景
用于视频文本检索的多模态模型,需要理解视频内容、文本语义、以及视频和文本之间的关系。现有的视频文本预训练工作可以分为两大类。

第一类 “双流” 法如下图(a)所示,训练两个单独的编码器来分别获取视频级别和语句级别的特征,利用对比学习(contrastive learning)来优化特征。这一方法可以实现高效的下游检索,因为在检索时只需要用点积来计算视频和文本特征的相似度。但这种方法因为仅仅约束两个模态的最终特征,忽略了每个模态自身的局部信息,以及视频和文本之间细粒度的关联。

第二类 “单流法” 如下图(b)所示,将视频和文本联结作为联合编码器的输入来进行模态间的融合,并训练一个分类器来判别视频和文本是否匹配。这一做法可以在局部的视频和文本特征之间建立关联,但是它在下游检索时非常低效,因为文本和每一个候选视频,都需要被联结送入模型来获取相似度。



本文的出发点是希望集上述两大类方法的优点,即学习细粒度的视频和文本特征的同时,实现下游高效的检索。
具体来说,如上图(c)所示,基于双编码器的结构,该研究进一步设计一个参数化模块 BridgeFormer 作为视频和文本局部特征的纽带。该研究提出一个新的借口任务来约束 BridgeFormer,由于 BridgeFormer 联结了视频和文本的每一层特征,对 BridgeFormer 的约束进而会优化视频和文本的特征。辅助的 BridgeFormer 只用于预训练,在下游检索时被移除,从而保证了高效的双编码器结构可用于检索。
2. 启发
给定一个视频和它对应的文本描述,该研究观察到文本里的名词和动词短语包含丰富的语义信息。
如下图所示,该视频的文本描述为:“一个穿着短裤,戴着帽子的女孩正在绿草地上跳舞”。这其中,名词短语 “短裤” 和“绿草地”对应着视频里的空间局部物体,动词短语 “跳舞” 则可以反映视频里女孩的时序移动。因此,该研究通过抹去文本里的名词和动词短语,来分别构造名词问题和动词问题,那么正确的答案自然是被抹去的短语自身。比如当抹去名词短语“绿草地”,就构成了名词问题“一个穿着短裤,戴着帽子的女孩正在哪里跳舞”,答案就是“绿草地”。同理当抹去动词短语“跳舞”,就构成了动词问题“一个穿着短裤,戴着帽子的女孩正在绿草地上做什么”,答案就是“跳舞”。
该研究提出一个带有参数化模块 BridgeFormer 的借口任务叫做多项选择题(MCQ),训练 BridgeFormer 通过求助视频特征,回答由文本特征构成的选择题,从而实现细粒度的视频和文本交互。在下游检索时移除 BridgeFormer,来保证高效的检索效率。


3. 方法
如下图所示,该研究的方法包含一个视频编码器 VideoFormer,用来从原始的视频帧提取视频特征;一个文本编码器 TextFormer,用来从自然语言提取文本特征。该研究通过抹去文本描述里的名词短语或动词短语,来分别构造名词问题和动词问题。以对比学习的形式,训练 BridgeFormer 通过求助 VideoFormer 提取到的局部视频特征,从多个选项里挑选出正确的答案。这里,多个选项由一个训练批次里所有被抹去的短语构成。


这一辅助的预训练目标会促使 VideoFormer 提取视频里准确的空间内容,使得 BridgeFormer 能够回答出名词问题,并捕获到视频里物体的时序移动,使得 BridgeFormer 能够回答出动词问题。这样的训练机制使得 VideoFormer 更能感知视频里的局部物体和时序动态。视频和文本局部特征的关联也通过问题和回答这样的形式得到了有效的建立。由于 BridgeFormer 联结了视频和文本的每一层特征,对 BridgeFormer 的约束就会进而优化视频和文本的特征。因此辅助的 BridgeFormer 只用于预训练,在下游检索时可以被移除,从而保留高效的双编码器结构。





4. 预训练流程
如下图所示,该研究预训练流程包含三个部分,来分别优化三个统一的对比学习(contrastive learning)形式的预训练目标:
1. 拉近视频和文本正样本对特征间的距离,并拉远负样本对特征间的距离(一个视频和它对应的文本描述被视为正样本对,否则就是负样本对)。2. 训练 BridgeFormer 回答名词问题,也就是拉近 BridgeFormer 输出的名词回答特征和 TextFormer 输出的正确答案的名词特征间的距离,并拉远名词回答特征和其他名词特征间的距离。3. 训练 BridgeFormer 回答动词问题,也就是拉近 BridgeFormer 输出的动词回答特征和 TextFormer 输出的正确答案的动词特征间的距离,并拉远动词回答特征和其他动词特征间的距离。


这里该研究使用对比学习来优化多项选择题形式的预训练目标,而不是采用传统的“masked word prediction”,也就是随机 mask 一句话里的一些单词,训练模型预测出被 mask 的单词。采用本文的这种做法有如下三个优势:

传统的 “masked word prediction” 约束模型预测出被 mask 的单词,会使得模型专注于解码 low-level 的单词本身,破坏了对模态间 high-level 的特征表达的学习。相比之下,该研究的 MCQ 以对比学习的形式拉近 BridgeFormer 输出的回答特征和 TextFormer 输出的答案特征间的距离,从而使模型专注于学习模态间 high-level 的语义信息。

该研究抹除文本里包含明确语义信息的动词和名词短语来构造有意义的问题,而传统的方法只是随机 mask 一些可能没有任何语义信息的单词。

由于问题的特征和答案的特征都是由 TextFormer 得到,这一做法可以视为对文本的 data augmentation,从而增强 TextFormer 对自然语言的语义理解能力。


消融实验也显示,相比于传统的“masked word prediction”,该研究的对比学习形式的借口任务 MCQ 在下游测评取得了更好的实验结果。

相关文章
|
2月前
|
机器学习/深度学习 人工智能 算法
从300亿分子中筛出6款,结构新且易合成,斯坦福抗生素设计AI模型登Nature子刊
【4月更文挑战第12天】斯坦福大学研究团队在Nature子刊发表论文,展示人工智能如何从300亿个分子中筛选出6种新型抗生素候选分子,为抗药性问题提供新解决方案。利用深度学习算法,AI模型考虑化学结构及合成可行性,发现独特化合物,加速药物研发。然而,成功应用还需临床试验验证及克服安全性和耐药性挑战。AI技术在药物设计中的角色引起关注,强调平衡使用与基础科学研究的重要性。
25 1
从300亿分子中筛出6款,结构新且易合成,斯坦福抗生素设计AI模型登Nature子刊
|
13天前
|
机器学习/深度学习 人工智能 自然语言处理
【CVPR2024】阿里云人工智能平台PAI图像编辑算法论文入选CVPR2024
近期,阿里云人工智能平台PAI发表的图像编辑算法论文在CVPR-2024上正式亮相发表。论文成果是阿里云与华南理工大学贾奎教授领衔的团队共同研发。此次入选标志着阿里云人工智能平台PAI自主研发的图像编辑算法达到了先进水平,赢得了国际学术界的认可。在阿里云人工智能平台PAI算法团队和华南理工大学的老师学生们一同的坚持和热情下,将阿里云在图像生成与编辑领域的先进理念得以通过学术论文和会议的形式,向业界传递和展现。
|
9月前
|
机器学习/深度学习 人工智能 算法
CV领域再创佳绩!阿里云机器学习平台 PAI 多篇论文入选 ICCV 2023
近期,阿里云机器学习平台PAI发表的多篇论文在ICCV 2023上入选。ICCV是国际计算机视觉大会是由电气和电子工程师协会每两年举办一次的研究大会。与CVPR和ECCV一起,它被认为是计算机视觉领域的顶级会议之一。ICCV 2023将于10月2日至10月6日法国巴黎举办。ICCV汇聚了来自世界各地的学者、工程师和研究人员,分享最新的计算机视觉研究成果和技术进展。会议涵盖了计算机视觉领域的各个方向,包括图像处理、模式识别、机器学习、人工智能等等。ICCV的论文发表和演讲都备受关注,是计算机视觉领域交流和合作的重要平台。
|
机器学习/深度学习 自然语言处理 数据可视化
CVPR 2022 Oral | 视频文本预训练新SOTA!港大、腾讯ARC Lab推出基于多项选择题的借口任务(2)
CVPR 2022 Oral | 视频文本预训练新SOTA!港大、腾讯ARC Lab推出基于多项选择题的借口任务
105 0
|
12月前
|
机器学习/深度学习 人工智能 自然语言处理
NTU、上海AI Lab整理300+论文:基于Transformer的视觉分割最新综述出炉
NTU、上海AI Lab整理300+论文:基于Transformer的视觉分割最新综述出炉
137 0
|
存储 人工智能 自然语言处理
7 Papers | 浙大研究获SIGMOD 2023最佳论文;GPT-4拿下最难数学推理数据集新SOTA
7 Papers | 浙大研究获SIGMOD 2023最佳论文;GPT-4拿下最难数学推理数据集新SOTA
265 0
|
机器学习/深度学习 自然语言处理 算法
ICLR 2023 Spotlight | Yoshua Bengio团队新作,生成拓展流网络
ICLR 2023 Spotlight | Yoshua Bengio团队新作,生成拓展流网络
112 0
|
机器学习/深度学习 存储 人工智能
7 Papers | AAAI 2023杰出论文奖;AI生成文本检测方法综述
7 Papers | AAAI 2023杰出论文奖;AI生成文本检测方法综述
423 0
|
机器学习/深度学习 人工智能 算法
AAAI/CVPR论文详解 | 万字长文了解可解释AI工具及技术的最新进展(3)
AAAI/CVPR论文详解 | 万字长文了解可解释AI工具及技术的最新进展
155 0
|
人工智能 算法 计算机视觉
AAAI/CVPR论文详解 | 万字长文了解可解释AI工具及技术的最新进展(2)
AAAI/CVPR论文详解 | 万字长文了解可解释AI工具及技术的最新进展
181 0