AAAI 2023｜基于多模态标签聚合的视频检索模型TABLE，多项SOTA（2）-阿里云开发者社区

AAAI 2023｜基于多模态标签聚合的视频检索模型TABLE，多项SOTA（2）

2023-05-18 392

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

模型训练 PAI-DLC，100CU*H 3个月

交互式建模 PAI-DSW，每月250计算时 3个月

模型在线服务 PAI-EAS，A10/V100等 500元 1个月

简介： AAAI 2023｜基于多模态标签聚合的视频检索模型TABLE，多项SOTA

实验评估

1、评估数据集：

MSR-VTT、MSVD、LSMDC、DiDeMo。

2、评估指标：

R@K：Recall at rank K，K=1，5，10，TOP-K 召回结果中包含正确结果的比例；
MdR：Median Rank，正确结果的排序中位数；
MnR：Mean Rank，正确结果的排序平均数。

3、与 SOTA 的性能对比

随着 CLIP 等大规模预训练模型的提出，视频检索模型的性能也实现了较大的突破。因此，在进行性能对比时，我们将现有方法分为 CLIP-based 和 NO-CLIP 的方法，可以看出，CLIP-based 的方法通常都会有更好的性能。例如，MMT 在 text-to-video 任务上的 R@1 仅为 26.6，而 CLIP4Clip 可以达到 43.1。

表二：MSR-VTT 数据集上的性能对比，* 表示使用了 CAMoE 中提出的推理策略。

如表二，TABLE 模型在 MSR-VTT 数据集上的表现超过了所有方法，取得了 SOTA 的效果。使用推理策略后，TABLE 在 text-to-video 任务上取得了 52.3 的 R@1，显著提升了视频检索的效果。

表三：MSVD 数据集上的性能对比

如表三，TABLE 在 MSVD 数据集上同样取得了 SOTA 的效果。我们认为在小样本数据集上的训练学习中，多模标签的引导作用更为重要。

表四：LSMDC 数据集上的性能对比

LSMDC 数据集中包含了最多的视频，且每个视频只对应一个文本，因此大多数方法的表现都较差。TABLE 在这个数据集上稍微提升了一些分数，如表四所示。

表五：DiDeMo 数据集上的性能对比

在 DiDeMo 上，与其他方法一致，我们进行的是视频 - 段落检索任务，即将一个视频对应的所有文本拼接为一个长文本。如表五，TABLE 在 text-to-video 的 R@1 指标上取得了 5.3 个百分点的显著提升。该数据集的难点在于长视频 - 长文本的对齐，这是因为长视频包含很多无意义的片段，需要从中挑选有意义的帧和区域，而长文本中同样需要找到关键句、关键词。而 TABLE 模型中，多模态标签就相当于一个对齐的 anchor，跨模态编码器可以根据多模态标签从复杂的视觉信息中凸显出重要的视频帧和空间区域，从而加强了视频与文本的对齐，因此在该数据集上的增益明显。

4、可视化结果分析

图三：TABLE 模型的可视化结果。帧序列下方的颜色条表示每一帧的重要程度，而重要程度指的是与多模态标签整体（a、b）或标题中的特定单词（c、d）之间的相关性，由跨模态编码器或联合编码器中的 cross attention 计算得到。每一帧中重要的空间区域进行了不同程度的高亮，由视觉编码器中的 attention 计算得到。

图三中对时间注意力和空间注意力同时进行了可视化。在 (a) 和 (b) 中，多模态特征被视为一个整体，去计算与视觉特征之间的 cross attention。如图所示，cross attention 更加关注与多模态标签高度相关的视频帧，比如 (a) 中，第 1 帧（与 "man" 和 "ballplayer" 相关）与第 10 帧（与 "catching or throwing baseball" 和 "baseball glove" 相关）的权重是最大的。而在每一帧中，模型也聚焦到了一些重要的空间区域，如头、躯干、棒球手套等。虽然多模态标签中可能包含一些噪声，如 (a) 中的 "bird"，但由于多模标签是作为一个整体进行视觉注意力的引导，所以模型对于这些微弱的噪声是比较鲁棒的。此外，我们也发现，对于视频检索这项任务，动作标签在 cross attention 中更加占据主导性。例如，在 (b) 中，模型更加关注与 "dancing ballet" 高度相关的第 9 和 12 帧，而与场景、人物相关的帧则没有获得很高的权重。

此外，我们将联合编码器中的 cross attention 也进行了可视化。不同的是，这里计算的是视觉特征与标题中特定单词向量之间的 cross attention。例如，在 (d) 中，第 10 帧和第 11 帧描述的是 "monkey" 的近景，因此在时间注意力上得到了凸显，其他描述 "people" 或 "swimming" 的帧则相对而言被抑制。从这也可以看出，联合编码器可以对视频与单个文本词之间的细粒度相关性进行精准建模，这得益于 VTM 和 MLM 两个辅助任务。

由于联合编码器与跨模态编码器是共享参数的，因此可视化结果也进一步证明了跨模态编码器的能力：它能够在多模态标签的引导下，从冗余的视觉特征中筛选出关键帧和关键区域，有利于视频 - 文本的精准检索。

TABLE 在 QQ 浏览器里的应用

为了满足用户在观看视频时的搜索需求，QQ 浏览器在视频底部会以 “相关搜索” 的方式展现推词，点击推词即可了解更多相关信息。

图四：QQ 浏览器中的应用场景示例

推词既要与视频内容相关，又要能激发用户的点击需求。在相关性的排序上，需要考虑视频多个模态的信息，如标题、视频画面、文字、音频等。而 TABLE 模型可以结合多模态信息，输出一个综合打分，代表视频内容与单条推词的整体相关性。满足相关性条件的推词再经过一些其他的策略（如 ctr 预估、敏感词打压），就可以作为最终的展现结果。

作者团队介绍

QQ 浏览器搜索技术中心团队是腾讯 PCG 信息平台与服务线负责搜索技术研发的团队，依托腾讯内容生态，通过用户研究驱动产品创新，为用户提供图文、资讯、小说、长短视频、服务等多方位的信息需求满足。在算法方面，以自然语言处理、深度学习、多模态理解与生成、知识计算与应用等技术为基础，建设内容理解、相关性和排序、多模态搜索、智能问答、多语言翻译、搜索推荐等技术方向，探索和应用业界先进技术、打造更优秀的用户搜索体验；在工程方面，建设搜索技术中台工业化系统，打磨高性能、高可用、低成本的百亿级检索系统，为腾讯 PCG 各个内容业务的搜索场景提供基础的搜索引擎服务，当前已支持 QQ 浏览器、腾讯视频、腾讯新闻、腾讯微视等 PCG 多条产品线。

腾讯 PCG ARC Lab 是腾讯 PCG 的 “侦察兵”、“特种兵”，站在腾讯探索挑战智能媒体相关前沿技术的第一线。所属的腾讯 PCG 是一个集社交、流量和内容平台于一体的大型事业群，业务需求覆盖了人工智能和大数据方面几乎所有的技术。近两年来 ARC Lab 秉持着做顶天（世界领先）立地（应用落地）的科研的宗旨，已吸引了一批优秀人才和国内外优秀实习生，已在国际顶会上发表 50 余篇论文，多项技术成果落地在实际应用中。

AAAI 2023｜基于多模态标签聚合的视频检索模型TABLE，多项SOTA（2）

ModelScope模型即服务

热门文章

最新文章

相关课程

相关电子书

相关实验场景