【EMNLP2024】面向长文本的文视频表征学习与检索模型 VideoCLIP-XL

简介: 阿里云人工智能平台 PAI 与华南理工大学金连文教授团队合作,在自然语言处理顶会 EMNLP 2024 上发表论文《VideoCLIP-XL: Advancing Long Description Understanding for Video CLIP Models》。VideoCLIP-XL 模型,有效地提升了对视频的长文本描述的理解能力。

近日,阿里云人工智能平台 PAI 与华南理工大学金连文教授团队合作,在自然语言处理顶级会议 EMNLP 2024 上发表论文《VideoCLIP-XL: Advancing Long Description Understanding for Video CLIP Models》。该工作提出了一个名为 VideoCLIP-XL 的视频 CLIP 模型,旨在提升对视频的长文本描述的理解能力。这一工作构建了一个大规模的长视频描述数据集 VILD,并在预训练阶段提出了一种文本相似度引导的主成分匹配方法(TPCM)来优化特征空间的学习。此外,该工作还引入了细节描述排序(DDR)和幻觉描述排序(HDR)两个新任务来进一步提升模型对长描述的理解,也建立了一个新的长视频描述排序基准测评集(LVDR)来更全面地评估模型性能。

1. 背景

CLIP 模型(Contrastive Language-Image Pre-training)在视觉-语言预训练领域已经取得了重要进展。然而,CLIP 的一个显著局限性是处理长文本描述的能力受限,由于其文本编码器依赖于最大的位置嵌入向量长度(为77)。且已有研究发现其实际有效的词元(token)位置嵌入长度仅约为20。此外,原始 CLIP 训练过程中对简短的摘要性文本的强调迫使文本/视觉编码器主要关注文本/视觉输入中的主要特征,常常忽视一些较小但潜在关键的细节。在这种情况下,现有的视频 CLIP 模型采用原始的 CLIP 训练方法可能难以准确捕捉复杂关系和属性。为了解决这些限制,加强模型理解长文本描述的能力至关重要。

2. 视频-长描述数据集 VILD

训练 CLIP 模型通常需要大量的视觉-文本数据对。在开放领域中,具备长描述的文本-视频数据集仍然非常稀缺。因此,我们首先设计了一个自动数据收集系统,如下图所示。我们的方法利用多个数据来源,主要包括视频叙述数据、视频指令微调数据、原始视频、可用视频及长描述配对数据。
image.png

(a) 视频叙述数据。视频叙述数据通常包含由人工标注者生成的描述,能够描述整个场景、主要活动以及涉及多个角色和物体的事件。我们采用 VidLN 数据集,该数据集包含每个视频中主要人物/动物/物体及背景的个体级描述。为了使数据符合我们的目的,我们采用大语言模型(LLM)通过提示词工程将个体级叙述整合为整体描述(即描述聚合步骤)。最后,考虑到训练的鲁棒性,我们进一步利用LLM重写整体级的描述(即描述重写步骤)。该过程涉及生成语义相同但表述不同的多个文本描述,同时保持主要内容和细节属性不变。

(b) 视频指令微调数据。随着多模态大模型(LMM)的出现,大量视频指令微调数据集也已公开可用。例如,VideoInstruct100K 包含与视频描述、基于描述的问答以及创意/生成问答相关的数据对。VideoChat 包含详细的视频描述和对话,通过采用视频指令中的时间和因果内容来增强数据的多样性。这些数据集最初是为了训练一个通用的视频理解大模型,而不是只为了视频描述任务。因此,我们的方法利用 LLM 进行数据过滤,以排除与视频描述无关的样本。我们采用提示词工程,并提供一些示例来帮助 LLM 取得更好的效果。最后,我们还会进行描述重写步骤。

(c) 可用视频及长描述配对数据。如前所述,现有的视频-长文本描述配对数据往往受限于数量或视频的领域/主题。在这方面,我们对这些数据集进行数据抽样操作。具体来说,MiraData 中的 5.78 万个均来自游戏及城市/风景探索场景的视频片段全部被包含。我们也从 Open-Sora-Dataset 随机采样了5 万条描述自然风景的长描述。

(d) 原始视频数据。为了进一步扩展训练数据的数量,我们利用 LMM 和 LLM 生成原始视频的长描述(部分原始视频数据提供了相应的短标题)。为了数据生成的效率,我们从 Panda-70M 中随机抽取了200万个视频片段,这些视频片段的高质量短标题是由多个教师模型和精调的标题选择模型生成的。然后,我们从每个视频片段以相等的间隔抽取3帧作为关键帧,并使用 LMM 对它们进行长描述的标注。我们没有对每一帧都进行操作,因为这将极其费时费力。接下来,在给定视频的短描述和关键帧的长描述后,我们使用 LLM 将它们整合为整个视频的长描述。短视频描述的辅助可以减轻帧描述中的幻觉现象。

最后,我们也采用了后处理步骤,来过滤掉有害的样例。接下来,我们利用 ViCLIP 和 Long-CLIP 滤除视频-文本相似度平均值小于 0.20 的低质量的样例。最终,我们收集了超过 200 万对视频及长描述数据作为我们用于模型预训练的 VILD 数据集。一些统计信息的对比如下所示:
image.png

3. 文本相似度引导的主成分匹配

image.png
image.png

4. 描述排序任务

我们认为,能够理解长描述的视频 CLIP 模型应当体现两个特征:给定一个视频及其相关描述,模型应该对(1)具有更丰富和更精确的细节描述以及(2)在相同细节水平下更准确即幻觉更少的描述赋予更高的分数。为此,我们提出两个新的预训练任务:细节描述排序(DDR)和幻觉描述排序(HDR)。我们的准备工作包括使用句法分析工具如 NLTK 和 spaCy 对原始的长描述进行词性标注和句法结构解析。
image.png
image.png

image.png

5. 视频长描述排序任务及测评集 LVDR

幻觉在当代大语言模型(LLM)和多模态大模型(LMM)领域都是值得关注的问题。对于一个视频,具备理解长文本能力的视频 CLIP 模型理所应当地应该具备辨别长描述中正确与错误文本的能力。为了更好地评估这种能力,我们提出了视频长描述排序(LVDR)测评集。我们首先从 Shot2Story 中随机抽取了 2000 对视频和对应的长描述。接着,我们执行一个类似于 HDR 任务的数据合成过程,迭代 p-1 次,并在每次迭代中更改 q 个单词,最终产生了 p 个长描述,其幻觉程度逐渐增加。我们将这样的子集表示为 p × q,并构建了五个子集:{4 × 1, 4 × 2, 4 × 3, 4 × 4, 4 × 5}。下图中提供了代表性的示例:
image.png

视频 CLIP 模型需要能够根据视频内容正确地按相似度降序排列这些长描述。

6. 实验结果

我们的方法在常见的文本-视频检索测评集上的 zero-shot 结果如下表所示:
image.png

而在常见的文本-视频检索测评集上的 fine-tuned 结果如下表所示:

image.png

可以看出,我们的方法相比同类的模型而言具有显著的优越性。在长描述的文本-视频检索测评集 Shot2Story 上的 zero-shot 结果如下:
image.png

在我们提出的 LVDR 测评集上的效果表现如下:
image.png

可以发现,我们的模型在各个任务和数据集上都能取得较好的表现。

一些文到视频检索任务的例子如下所示:

image.png

参考文献

  • Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, and Ilya Sutskever. 2021. Learning transferable visual models from natural language supervision. In ICML, volume 139, pages 8748– 8763.
  • Yi Wang, Yinan He, Yizhuo Li, Kunchang Li, Jiashuo Yu, Xin Ma, Xinhao Li, Guo Chen, Xinyuan Chen, Yaohui Wang, et al. InternVid: A large-scale video-text dataset for multimodal understanding and generation. arXiv preprint arXiv:2307.06942.
    Beichen Zhang, Pan Zhang, Xiaoyi Dong, Yuhang Zang, and Jiaqi Wang. 2024. Long-CLIP: Unlocking the long-text capability of CLIP. arXiv preprint arXiv:2403.15378.
  • Mingfei Han, Linjie Yang, Xiaojun Chang, and Heng Wang. 2023. Shot2Story20K: A new benchmark for comprehensive understanding of multi-shot videos. arXiv preprint arXiv:2311.17043.

论文信息

  • 论文名字:VideoCLIP-XL: Advan,cing Long Description Understanding for Video CLIP Models
  • 论文作者:汪嘉鹏、汪诚愚、黄坤哲、黄俊、金连文
  • 论文pdf链接:https://arxiv.org/abs/2410.00741

阿里云人工智能平台 PAI 长期招聘研究实习生。团队专注于深度学习算法研究与应用,重点聚焦大语言模型和多模态 AIGC 大模型的应用算法研究和应用。简历投递和咨询:chengyu.wcy@alibaba-inc.com。

相关实践学习
使用PAI+LLaMA Factory微调Qwen2-VL模型,搭建文旅领域知识问答机器人
使用PAI和LLaMA Factory框架,基于全参方法微调 Qwen2-VL模型,使其能够进行文旅领域知识问答,同时通过人工测试验证了微调的效果。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
算法 数据库 计算机视觉
Dataset之COCO数据集:COCO数据集的简介、下载、使用方法之详细攻略
Dataset之COCO数据集:COCO数据集的简介、下载、使用方法之详细攻略
|
7月前
|
编解码 文字识别 API
InternVL3开源:7种尺寸覆盖文、图、视频处理,多模态能力扩展至工业图像分析
4月11日,OpenGVLab开源发布InternVL3系列多模态大模型,涵盖1B至78B共7个尺寸。相比InternVL 2.5,其在多模态感知与推理能力上表现更优,并新增工具使用、GUI代理等功能。得益于原生多模态预训练,文本性能超越Qwen2.5系列。
983 0
|
机器学习/深度学习 自然语言处理 搜索推荐
自注意力机制全解析:从原理到计算细节,一文尽览!
自注意力机制(Self-Attention)最早可追溯至20世纪70年代的神经网络研究,但直到2017年Google Brain团队提出Transformer架构后才广泛应用于深度学习。它通过计算序列内部元素间的相关性,捕捉复杂依赖关系,并支持并行化训练,显著提升了处理长文本和序列数据的能力。相比传统的RNN、LSTM和GRU,自注意力机制在自然语言处理(NLP)、计算机视觉、语音识别及推荐系统等领域展现出卓越性能。其核心步骤包括生成查询(Q)、键(K)和值(V)向量,计算缩放点积注意力得分,应用Softmax归一化,以及加权求和生成输出。自注意力机制提高了模型的表达能力,带来了更精准的服务。
13199 46
|
11月前
|
机器学习/深度学习 数据可视化
Visual-RFT:基于强化学习的视觉语言模型微调技术研究
Visual-RFT 是一种创新的视觉语言模型微调技术,结合基于规则的可验证奖励与强化学习,克服了传统监督微调在数据稀缺场景下的局限。它通过渐进式推理和多样化响应生成,优化模型在对象检测、图像分类等任务中的表现,尤其适用于少样本学习。该方法采用组相对策略优化(GRPO)进行参数更新,简化了强化学习流程,同时保持高效性。实验结果表明,Visual-RFT 在细粒度分类和推理定位等任务中显著优于传统方法,展示了其在实际应用中的巨大潜力。
595 1
Visual-RFT:基于强化学习的视觉语言模型微调技术研究
|
11月前
|
机器学习/深度学习 数据格式
R1-Omni开源!多模态模型+RLVR,让各模态作用清晰可见
随着 DeepSeek R1 的推出,强化学习在大模型领域的潜力被进一步挖掘。Reinforcement Learning with Verifiable Reward (RLVR) 方法的出现,为多模态任务提供了全新的优化思路,无论是几何推理、视觉计数,还是经典图像分类和物体检测任务,RLVR 都展现出了显著优于传统监督微调(SFT)的效果。
763 12
|
测试技术 索引 Python
|
机器学习/深度学习 自然语言处理 PyTorch
Transformers入门指南:从零开始理解Transformer模型
【10月更文挑战第29天】作为一名机器学习爱好者,我深知在自然语言处理(NLP)领域,Transformer模型的重要性。自从2017年Google的研究团队提出Transformer以来,它迅速成为NLP领域的主流模型,广泛应用于机器翻译、文本生成、情感分析等多个任务。本文旨在为初学者提供一个全面的Transformers入门指南,介绍Transformer模型的基本概念、结构组成及其相对于传统RNN和CNN模型的优势。
13220 1
|
机器学习/深度学习 并行计算 PyTorch
从零开始下载torch+cu(无痛版)
这篇文章提供了一个详细的无痛版教程,指导如何从零开始下载并配置支持CUDA的PyTorch GPU版本,包括查看Cuda版本、在官网检索下载包名、下载指定的torch、torchvision、torchaudio库,并在深度学习环境中安装和测试是否成功。
从零开始下载torch+cu(无痛版)
|
存储 安全 网络协议
阿里云服务器通用型g7、通用型g8y、通用型g8i实例性能和适用场景对比与选择参考
目前阿里云在售的云服务器中,主要包含了第6代、第7代、第8代实例规格的云服务器产品,在选择云服务器实例规格时,对于需要平衡计算、存储和网络性能的应用场景来说,通用型g7、通用型g8y和通用型g8i实例是许多用户的热门选择。为了帮助大家更好地了解这三款实例的区别,并为选择提供参考,本文将详细对比它们的实例规格、CPU、内存、计算、存储、网络等方面的性能,并附上活动价格对比。让大家了解一下他们之间的不同,以供参考选择。
|
存储 固态存储 异构计算
阿里云服务器租用一个月教程、收费标准与活动价格参考
阿里云服务器可以月租也可以年租,阿里云的活动中云服务器时长大多都是1年或3年,比较符合大多数用户的需求,但是也有少部分用户只想购买1个月或者3个月、6个月阿里云服务器来体验,但是又不知道选择月付的具体租用流程及月付的收费标准情况,本文为大家介绍一下租用时选择月付的具体流程以及月付的收费标准情况,以供参考。
阿里云服务器租用一个月教程、收费标准与活动价格参考

热门文章

最新文章