谷歌多模态预训练框架:视频字幕、动作分类、问答全部实现SOTA

简介: 谷歌多模态预训练框架:视频字幕、动作分类、问答全部实现SOTA

一个模型在五项基准上都实现了重大进步,该研究已被 CVPR 2022 大会收录。


多模态视频字幕系统利用视频帧和语音来生成视频的自然语言描述(字幕)。这样的系统是朝着构建多模态对话系统的长期目标前进的一步,后者可以轻松地与用户交流,同时通过多模态输入流感知环境。

与关键挑战在于处理和理解多模态输入视频的视频理解任务不同,多模态视频字幕的任务包括生成实用化字幕的额外挑战。这项任务被采用最广泛的方法是使用手动注释数据联合训练编码器 - 解码器网络。
然而,由于缺乏大规模的人工标注数据,为视频注释可用字幕的任务是非常耗费人力的,在许多情况下不切实际。VideoBERT 和 CoMVT 等先前的研究通过利用自动语音识别(ASR)对未标记视频的模型进行预训练。然而,此类模型通常无法生成自然语言句子,因为它们缺少解码器,因此只有视频编码器被转移到下游任务。

在 CVPR 2022 大会上发表的论文《End-to-end Generative Pretraining for Multimodal Video Captioning》上,谷歌研究人员为多模态视频字幕引入了一种全新的预训练框架,被称为多模态视频生成预训练或 MV-GPT,它从未标记的视频中联合训练多模态视频编码器和句子解码器,以输出未来语句文本,制定新的双向生成任务作为目标。


论文链接:https://arxiv.org/pdf/2201.08264.pdf

实验证明 MV-GPT 的能力可以有效地转移到多模态视频字幕上,在各种基准测试中取得了 SOTA 结果。此外,多模态视频编码器在多种视频理解任务方面具有竞争力,例如 VideoQA、文本视频检索和动作识别。

未来语句作为附加文本信号

通常,用于多模态视频字幕的每个训练视频剪辑都要与两个不同的文本相关联:其一作为多模态输入流的一部分,与剪辑对齐的语音转录本;其二是目标字幕,通常需要手动注释。编码器需要学习将文本中的信息与视觉内容融合,目标标签用于训练解码器进行生成。
但在未标记视频的情况下,每个视频剪辑仅带有来自 ASR 的脚本,没有手动注释的目标标签。此外,我们不能对编码器输入和解码器目标使用相同的文本(ASR 转录本),因为这对生成目标没有多少意义。

MV-GPT 通过利用未来的话语作为附加文本信号并启用编码器和解码器的联合预训练来规避这一挑战。但是,训练模型以生成通常不以输入内容为基础的未来话语效果并不理想。因此,谷歌应用了一种新的双向生成损失函数来加强与输入的关联。

双向生成损失

我们可以通过制定包括前向和后向生成的双向生成损失来缓解非基础文本生成的问题。前向生成在给定视觉框架及其相应的转录本的情况下生成未来语句,并允许模型学习将视觉内容与其相应的转录本融合。反向生成采用视觉帧和未来语句来训练模型,以生成包含更多视频剪辑基础文本的脚本。
MV-GPT 中的双向生成损失允许对编码器和解码器进行训练以处理基于视觉的文本。

MV-GPT 中的双向生成,已训练两代损失。在前向生成中,模型在给定帧和当前话语(红色框)的情况下生成未来话语(蓝色框),而现在是从后向生成中的未来话语生成的。两个特殊的句首标记([BOS-F] 和 [BOS-B])为解码器启动前向和后向生成。

多模态视频字幕生成结果

研究人员将 MV-GPT 与使用相同模型架构的现有预训练损失进行比较,在 YouCook2 上使用标准评估指标(Bleu-4、Cider、Meteor 和 Rouge-L)。虽然所有预训练技术都可以提高字幕性能,但联合预训练解码器提高模型性能的效果最为明显。
实验证明了 MV-GPT 比之前最先进的联合预训练方法高出 3.5% 以上,并且在所有四个指标上都有相对增益

MV-GPT 在 YouCook2 上不同预训练损失的四个指标(Bleu-4、Cider、Meteor 和 Rouge-L)。「预训练部分」表示模型的哪些部分是预训练的 —— 仅编码器或编码器和解码器。作者重新实现了现有方法的损失函数,但使用新模型和训练策略进行公平比较。

研究人员将 MV-GPT 预训练的模型转移到四个不同的字幕基准:YouCook2、MSR-VTT、ViTT 和 ActivityNet-Captions 上。
谷歌的模型在所有四个基准测试中都以显著优势实现了最先进性能。例如在 Meteor 指标上,MV-GPT 在所有四个基准测试中都显示出超过 12% 的相对改进。

业内最佳方法和 MV-GPT 在四个基准上的度量分数。

尽管 MV-GPT 是旨在训练多模态视频字幕的生成模型,但研究发现新预训练技术学习了一个强大的多模态视频编码器,可应用于多种视频理解任务,包括 VideoQA、文本视频检索和动作分类等任务。
与最佳可比基线模型相比,从 MV-GPT 迁移的模型在五个视频理解基准的主要指标上表现出卓越的性能 —— 如在 VideoQA 和动作分类基准的 top 1 准确度,以及检索基准的召回率上。

在五个视频理解基准上将 MV-GPT 与最佳可比基线模型进行比较。对于每个数据集,此处报告了广泛使用的主要指标,即 MSRVTT-QA 和 ActivityNet-QA:Top-1 回答准确率;MSR-VTT:Recall at 1;和 Kinetics:Top-1 分类准确度。

总结

本文介绍了 MV-GPT,一种用于多模态视频字幕的新生成预训练框架。它通过双向生成目标,使用在未标记视频中不同时间采样的话语联合预训练多模态编码器和字幕解码器。该预训练模型在多个视频字幕基准和其他视频理解任务(如 VideoQA、视频检索和动作分类)上取得了最先进的结果。

原文链接:https://ai.googleblog.com/2022/06/end-to-end-generative-pre-training-for.html


相关文章
|
人工智能 自然语言处理 算法
谷歌推出”自我发现“框架,极大增强GPT-4等大模型推理能力
【4月更文挑战第20天】谷歌DeepMind团队推出了SELF-DISCOVER框架,让大型语言模型能自我发现并构建推理结构,提升在复杂任务中的性能。该框架模仿人类解决问题方式,分两阶段选择和适应原子推理模块,以解决挑战。在多任务测试中,SELF-DISCOVER相比传统方法表现出色,性能提升42%,计算量减少10至40倍。它具有跨模型应用的普适性,并与人类思维方式相通。然而,它在某些任务类型上仍有优化空间,且需解决计算成本问题。论文链接:https://arxiv.org/abs/2402.03620
221 1
|
2月前
|
数据采集 编解码 人工智能
Gemma 3n正式版开源:谷歌全新端侧多模态大模型,2GB 内存就能跑,重点提升编码和推理能力!
6月底,Google正式开源发布了全新端侧多模态大模型 Gemma 3n!相较此前的预览版,最新的 Gemma 3n 完整版进一步提升性能表现,支持在 2GB 内存的硬件上本地运行,重点提升了编码和推理方面的能力。
328 1
|
5月前
|
人工智能 测试技术 vr&ar
DataDoP :一个大规模多模态数据集,包含 29K 真实世界的自由运动相机轨迹、深度图和详细的动作描述,目的支持艺术化相机轨迹生成。
2025-04-10 ,由浙江大学、上海人工智能实验室、斯坦福大学、香港中文大学和南洋理工大学联合创建了 DataDoP 数据集。该数据集包含 29K 真实世界的自由运动相机轨迹、深度图和详细的动作描述,目的为艺术化相机轨迹生成提供高质量的训练数据,推动基于学习的电影摄影技术发展。 一、研究背景 在视频制作中,相机轨迹设计是传达导演意图和增强视觉叙事的关键工具。传统方法依赖于几何优化或手工设计的程序系统,而近年来的基于学习的方法则继承了结构偏差或缺乏文本对齐,限制了创意合成。 目前遇到困难和挑战: 1、传统方法的局限性:传统方法依赖于几何建模或成本函数工程,限制了创意合成。 2、现有数据集的
|
5月前
|
人工智能 自然语言处理 测试技术
谷歌AI 多模态 Gemini 2.5 Pro的国内使用教程
在人工智能(AI)的星辰大海中,谷歌再次投下一枚重磅炸弹 💣!他们倾注心血打造的智慧结晶
2812 0
|
8月前
|
人工智能 编解码 自然语言处理
Aria-UI:港大联合 Rhymes AI 开源面向 GUI 智能交互的多模态模型,整合动作历史信息实现更加准确的定位
Aria-UI 是香港大学与 Rhymes AI 联合开发的多模态模型,专为 GUI 智能交互设计,支持高分辨率图像处理,适用于自动化测试、用户交互辅助等场景。
325 11
Aria-UI:港大联合 Rhymes AI 开源面向 GUI 智能交互的多模态模型,整合动作历史信息实现更加准确的定位
|
9月前
|
人工智能 内存技术
Gemini 2.0 Flash Thinking:谷歌推出实验性多模态推理模型,在快速生成的同时展示详细的思考过程
谷歌推出的实验性推理模型Gemini 2.0 Flash Thinking,展示了详细的思考过程,能够在多个领域快速解决问题,并提供推理路径。本文将详细介绍该模型的功能、技术原理及使用限制。
443 26
Gemini 2.0 Flash Thinking:谷歌推出实验性多模态推理模型,在快速生成的同时展示详细的思考过程
|
9月前
|
机器学习/深度学习 人工智能 自然语言处理
Gemini 2.0:谷歌推出的原生多模态输入输出 + Agent 为核心的 AI 模型
谷歌最新推出的Gemini 2.0是一款原生多模态输入输出的AI模型,以Agent技术为核心,支持多种数据类型的输入与输出,具备强大的性能和多语言音频输出能力。本文将详细介绍Gemini 2.0的主要功能、技术原理及其在多个领域的应用场景。
939 20
Gemini 2.0:谷歌推出的原生多模态输入输出 + Agent 为核心的 AI 模型
|
9月前
|
人工智能 算法 机器人
EMMA-X:新加坡科技设计大学推出具身多模态动作模型,使夹爪机器人具备空间推理和任务规划能力
EMMA-X是由新加坡科技设计大学推出的具身多模态动作模型,具备70亿参数,通过在链式思维推理数据上微调OpenVLA创建。该模型结合层次化的具身数据集,增强空间推理和任务规划能力。
276 3
EMMA-X:新加坡科技设计大学推出具身多模态动作模型,使夹爪机器人具备空间推理和任务规划能力
|
9月前
|
人工智能 自然语言处理 API
Multimodal Live API:谷歌推出新的 AI 接口,支持多模态交互和低延迟实时互动
谷歌推出的Multimodal Live API是一个支持多模态交互、低延迟实时互动的AI接口,能够处理文本、音频和视频输入,提供自然流畅的对话体验,适用于多种应用场景。
315 3
Multimodal Live API:谷歌推出新的 AI 接口,支持多模态交互和低延迟实时互动
|
10月前
|
机器学习/深度学习 数据采集 数据处理
谷歌提出视觉记忆方法,让大模型训练数据更灵活
谷歌研究人员提出了一种名为“视觉记忆”的方法,结合了深度神经网络的表示能力和数据库的灵活性。该方法将图像分类任务分为图像相似性和搜索两部分,支持灵活添加和删除数据、可解释的决策机制以及大规模数据处理能力。实验结果显示,该方法在多个数据集上取得了优异的性能,如在ImageNet上实现88.5%的top-1准确率。尽管有依赖预训练模型等限制,但视觉记忆为深度学习提供了新的思路。
173 2

热门文章

最新文章