AAAI 2023|基于多模态标签聚合的视频检索模型TABLE,多项SOTA(2)

本文涉及的产品
模型训练 PAI-DLC,100CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: AAAI 2023|基于多模态标签聚合的视频检索模型TABLE,多项SOTA

实验评估


1、评估数据集:


MSR-VTT、MSVD、LSMDC、DiDeMo。


2、评估指标:


  • R@K:Recall at rank K,K=1,5,10,TOP-K 召回结果中包含正确结果的比例;
  • MdR:Median Rank,正确结果的排序中位数;
  • MnR:Mean Rank,正确结果的排序平均数。


3、与 SOTA 的性能对比


随着 CLIP 等大规模预训练模型的提出,视频检索模型的性能也实现了较大的突破。因此,在进行性能对比时,我们将现有方法分为 CLIP-based 和 NO-CLIP 的方法,可以看出,CLIP-based 的方法通常都会有更好的性能。例如,MMT 在 text-to-video 任务上的 R@1 仅为 26.6,而 CLIP4Clip 可以达到 43.1。


表二:MSR-VTT 数据集上的性能对比,* 表示使用了 CAMoE 中提出的推理策略。


如表二,TABLE 模型在 MSR-VTT 数据集上的表现超过了所有方法,取得了 SOTA 的效果。使用推理策略后,TABLE 在 text-to-video 任务上取得了 52.3 的 R@1,显著提升了视频检索的效果。


表三:MSVD 数据集上的性能对比


如表三,TABLE 在 MSVD 数据集上同样取得了 SOTA 的效果。我们认为在小样本数据集上的训练学习中,多模标签的引导作用更为重要。


表四:LSMDC 数据集上的性能对比


LSMDC 数据集中包含了最多的视频,且每个视频只对应一个文本,因此大多数方法的表现都较差。TABLE 在这个数据集上稍微提升了一些分数,如表四所示。


表五:DiDeMo 数据集上的性能对比


在 DiDeMo 上,与其他方法一致,我们进行的是视频 - 段落检索任务,即将一个视频对应的所有文本拼接为一个长文本。如表五,TABLE 在 text-to-video 的 R@1 指标上取得了 5.3 个百分点的显著提升。该数据集的难点在于长视频 - 长文本的对齐,这是因为长视频包含很多无意义的片段,需要从中挑选有意义的帧和区域,而长文本中同样需要找到关键句、关键词。而 TABLE 模型中,多模态标签就相当于一个对齐的 anchor,跨模态编码器可以根据多模态标签从复杂的视觉信息中凸显出重要的视频帧和空间区域,从而加强了视频与文本的对齐,因此在该数据集上的增益明显。


4、可视化结果分析


图三:TABLE 模型的可视化结果。帧序列下方的颜色条表示每一帧的重要程度,而重要程度指的是与多模态标签整体(a、b)或标题中的特定单词(c、d)之间的相关性,由跨模态编码器或联合编码器中的 cross attention 计算得到。每一帧中重要的空间区域进行了不同程度的高亮,由视觉编码器中的 attention 计算得到。


图三中对时间注意力和空间注意力同时进行了可视化。在 (a) 和 (b) 中,多模态特征被视为一个整体,去计算与视觉特征之间的 cross attention。如图所示,cross attention 更加关注与多模态标签高度相关的视频帧,比如 (a) 中,第 1 帧(与 "man" 和 "ballplayer" 相关)与第 10 帧(与 "catching or throwing baseball" 和 "baseball glove" 相关)的权重是最大的。而在每一帧中,模型也聚焦到了一些重要的空间区域,如头、躯干、棒球手套等。虽然多模态标签中可能包含一些噪声,如 (a) 中的 "bird",但由于多模标签是作为一个整体进行视觉注意力的引导,所以模型对于这些微弱的噪声是比较鲁棒的。此外,我们也发现,对于视频检索这项任务,动作标签在 cross attention 中更加占据主导性。例如,在 (b) 中,模型更加关注与 "dancing ballet" 高度相关的第 9 和 12 帧,而与场景、人物相关的帧则没有获得很高的权重。


此外,我们将联合编码器中的 cross attention 也进行了可视化。不同的是,这里计算的是视觉特征与标题中特定单词向量之间的 cross attention。例如,在 (d) 中,第 10 帧和第 11 帧描述的是 "monkey" 的近景,因此在时间注意力上得到了凸显,其他描述 "people" 或 "swimming" 的帧则相对而言被抑制。从这也可以看出,联合编码器可以对视频与单个文本词之间的细粒度相关性进行精准建模,这得益于 VTM 和 MLM 两个辅助任务。


由于联合编码器与跨模态编码器是共享参数的,因此可视化结果也进一步证明了跨模态编码器的能力:它能够在多模态标签的引导下,从冗余的视觉特征中筛选出关键帧和关键区域,有利于视频 - 文本的精准检索。


TABLE 在 QQ 浏览器里的应用


为了满足用户在观看视频时的搜索需求,QQ 浏览器在视频底部会以 “相关搜索” 的方式展现推词,点击推词即可了解更多相关信息。

 

图四:QQ 浏览器中的应用场景示例


推词既要与视频内容相关,又要能激发用户的点击需求。在相关性的排序上,需要考虑视频多个模态的信息,如标题、视频画面、文字、音频等。而 TABLE 模型可以结合多模态信息,输出一个综合打分,代表视频内容与单条推词的整体相关性。满足相关性条件的推词再经过一些其他的策略(如 ctr 预估、敏感词打压),就可以作为最终的展现结果。


作者团队介绍


QQ 浏览器搜索技术中心团队是腾讯 PCG 信息平台与服务线负责搜索技术研发的团队,依托腾讯内容生态,通过用户研究驱动产品创新,为用户提供图文、资讯、小说、长短视频、服务等多方位的信息需求满足。在算法方面,以自然语言处理、深度学习、多模态理解与生成、知识计算与应用等技术为基础,建设内容理解、相关性和排序、多模态搜索、智能问答、多语言翻译、搜索推荐等技术方向,探索和应用业界先进技术、打造更优秀的用户搜索体验;在工程方面,建设搜索技术中台工业化系统,打磨高性能、高可用、低成本的百亿级检索系统,为腾讯 PCG 各个内容业务的搜索场景提供基础的搜索引擎服务,当前已支持 QQ 浏览器、腾讯视频、腾讯新闻、腾讯微视等 PCG 多条产品线。


腾讯 PCG ARC Lab 是腾讯 PCG 的 “侦察兵”、“特种兵”,站在腾讯探索挑战智能媒体相关前沿技术的第一线。所属的腾讯 PCG 是一个集社交、流量和内容平台于一体的大型事业群,业务需求覆盖了人工智能和大数据方面几乎所有的技术。近两年来 ARC Lab 秉持着做顶天(世界领先)立地(应用落地)的科研的宗旨,已吸引了一批优秀人才和国内外优秀实习生,已在国际顶会上发表 50 余篇论文,多项技术成果落地在实际应用中。

相关文章
|
2月前
|
人工智能 自然语言处理 IDE
模型微调不再被代码难住!PAI和Qwen3-Coder加速AI开发新体验
通义千问 AI 编程大模型 Qwen3-Coder 正式开源,阿里云人工智能平台 PAI 支持云上一键部署 Qwen3-Coder 模型,并可在交互式建模环境中使用 Qwen3-Coder 模型。
657 109
|
2月前
|
分布式计算 测试技术 Spark
科大讯飞开源星火化学大模型、文生音效模型
近期,科大讯飞在魔搭社区(ModelScope)和Gitcode上开源两款模型:讯飞星火化学大模型Spark Chemistry-X1-13B、讯飞文生音频模型AudioFly,助力前沿化学技术研究,以及声音生成技术和应用的探索。
262 2
|
2月前
|
人工智能 Java API
AI 超级智能体全栈项目阶段一:AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式(SDK/HTTP/SpringAI/langchain4j)
本文介绍AI大模型的核心概念、分类及开发者学习路径,重点讲解如何选择与接入大模型。项目基于Spring Boot,使用阿里云灵积模型(Qwen-Plus),对比SDK、HTTP、Spring AI和LangChain4j四种接入方式,助力开发者高效构建AI应用。
1385 122
AI 超级智能体全栈项目阶段一:AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式(SDK/HTTP/SpringAI/langchain4j)
|
1月前
|
人工智能 搜索推荐 程序员
当AI学会“跨界思考”:多模态模型如何重塑人工智能
当AI学会“跨界思考”:多模态模型如何重塑人工智能
257 120
|
3月前
|
存储 人工智能 自然语言处理
告别文字乱码!全新文生图模型Qwen-Image来咯
通义千问团队开源了Qwen-Image,一个20B参数的MMDiT模型,具备卓越的文本渲染和图像编辑能力。支持复杂中英文文本生成与自动布局,适用于多场景图像生成与编辑任务,已在魔搭社区与Hugging Face开源。
669 2
|
3月前
|
文字识别 算法 语音技术
基于模型蒸馏的大模型文案生成最佳实践
本文介绍了基于模型蒸馏技术优化大语言模型在文案生成中的应用。针对大模型资源消耗高、部署困难的问题,采用EasyDistill算法框架与PAI产品,通过SFT和DPO算法将知识从大型教师模型迁移至轻量级学生模型,在保证生成质量的同时显著降低计算成本。内容涵盖教师模型部署、训练数据构建及学生模型蒸馏优化全过程,助力企业在资源受限场景下实现高效文案生成,提升用户体验与业务增长。
567 23
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
545 13
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
|
2月前
|
自然语言处理 机器人 图形学
腾讯混元图像3.0正式开源发布!80B,首个工业级原生多模态生图模型
腾讯混元图像3.0,真的来了——开源,免费开放使用。 正式介绍一下:混元图像3.0(HunyuanImage 3.0),是首个工业级原生多模态生图模型,参数规模80B,也是目前测评效果最好、参数量最大的开源生图模型,效果可对…
733 2
腾讯混元图像3.0正式开源发布!80B,首个工业级原生多模态生图模型

热门文章

最新文章

下一篇
oss云网关配置