谷歌多模态预训练框架:视频字幕、动作分类、问答全部实现SOTA

简介: 谷歌多模态预训练框架:视频字幕、动作分类、问答全部实现SOTA

一个模型在五项基准上都实现了重大进步,该研究已被 CVPR 2022 大会收录。


多模态视频字幕系统利用视频帧和语音来生成视频的自然语言描述(字幕)。这样的系统是朝着构建多模态对话系统的长期目标前进的一步,后者可以轻松地与用户交流,同时通过多模态输入流感知环境。

与关键挑战在于处理和理解多模态输入视频的视频理解任务不同,多模态视频字幕的任务包括生成实用化字幕的额外挑战。这项任务被采用最广泛的方法是使用手动注释数据联合训练编码器 - 解码器网络。
然而,由于缺乏大规模的人工标注数据,为视频注释可用字幕的任务是非常耗费人力的,在许多情况下不切实际。VideoBERT 和 CoMVT 等先前的研究通过利用自动语音识别(ASR)对未标记视频的模型进行预训练。然而,此类模型通常无法生成自然语言句子,因为它们缺少解码器,因此只有视频编码器被转移到下游任务。

在 CVPR 2022 大会上发表的论文《End-to-end Generative Pretraining for Multimodal Video Captioning》上,谷歌研究人员为多模态视频字幕引入了一种全新的预训练框架,被称为多模态视频生成预训练或 MV-GPT,它从未标记的视频中联合训练多模态视频编码器和句子解码器,以输出未来语句文本,制定新的双向生成任务作为目标。


论文链接:https://arxiv.org/pdf/2201.08264.pdf

实验证明 MV-GPT 的能力可以有效地转移到多模态视频字幕上,在各种基准测试中取得了 SOTA 结果。此外,多模态视频编码器在多种视频理解任务方面具有竞争力,例如 VideoQA、文本视频检索和动作识别。

未来语句作为附加文本信号

通常,用于多模态视频字幕的每个训练视频剪辑都要与两个不同的文本相关联:其一作为多模态输入流的一部分,与剪辑对齐的语音转录本;其二是目标字幕,通常需要手动注释。编码器需要学习将文本中的信息与视觉内容融合,目标标签用于训练解码器进行生成。
但在未标记视频的情况下,每个视频剪辑仅带有来自 ASR 的脚本,没有手动注释的目标标签。此外,我们不能对编码器输入和解码器目标使用相同的文本(ASR 转录本),因为这对生成目标没有多少意义。

MV-GPT 通过利用未来的话语作为附加文本信号并启用编码器和解码器的联合预训练来规避这一挑战。但是,训练模型以生成通常不以输入内容为基础的未来话语效果并不理想。因此,谷歌应用了一种新的双向生成损失函数来加强与输入的关联。

双向生成损失

我们可以通过制定包括前向和后向生成的双向生成损失来缓解非基础文本生成的问题。前向生成在给定视觉框架及其相应的转录本的情况下生成未来语句,并允许模型学习将视觉内容与其相应的转录本融合。反向生成采用视觉帧和未来语句来训练模型,以生成包含更多视频剪辑基础文本的脚本。
MV-GPT 中的双向生成损失允许对编码器和解码器进行训练以处理基于视觉的文本。

MV-GPT 中的双向生成,已训练两代损失。在前向生成中,模型在给定帧和当前话语(红色框)的情况下生成未来话语(蓝色框),而现在是从后向生成中的未来话语生成的。两个特殊的句首标记([BOS-F] 和 [BOS-B])为解码器启动前向和后向生成。

多模态视频字幕生成结果

研究人员将 MV-GPT 与使用相同模型架构的现有预训练损失进行比较,在 YouCook2 上使用标准评估指标(Bleu-4、Cider、Meteor 和 Rouge-L)。虽然所有预训练技术都可以提高字幕性能,但联合预训练解码器提高模型性能的效果最为明显。
实验证明了 MV-GPT 比之前最先进的联合预训练方法高出 3.5% 以上,并且在所有四个指标上都有相对增益

MV-GPT 在 YouCook2 上不同预训练损失的四个指标(Bleu-4、Cider、Meteor 和 Rouge-L)。「预训练部分」表示模型的哪些部分是预训练的 —— 仅编码器或编码器和解码器。作者重新实现了现有方法的损失函数,但使用新模型和训练策略进行公平比较。

研究人员将 MV-GPT 预训练的模型转移到四个不同的字幕基准:YouCook2、MSR-VTT、ViTT 和 ActivityNet-Captions 上。
谷歌的模型在所有四个基准测试中都以显著优势实现了最先进性能。例如在 Meteor 指标上,MV-GPT 在所有四个基准测试中都显示出超过 12% 的相对改进。

业内最佳方法和 MV-GPT 在四个基准上的度量分数。

尽管 MV-GPT 是旨在训练多模态视频字幕的生成模型,但研究发现新预训练技术学习了一个强大的多模态视频编码器,可应用于多种视频理解任务,包括 VideoQA、文本视频检索和动作分类等任务。
与最佳可比基线模型相比,从 MV-GPT 迁移的模型在五个视频理解基准的主要指标上表现出卓越的性能 —— 如在 VideoQA 和动作分类基准的 top 1 准确度,以及检索基准的召回率上。

在五个视频理解基准上将 MV-GPT 与最佳可比基线模型进行比较。对于每个数据集,此处报告了广泛使用的主要指标,即 MSRVTT-QA 和 ActivityNet-QA:Top-1 回答准确率;MSR-VTT:Recall at 1;和 Kinetics:Top-1 分类准确度。

总结

本文介绍了 MV-GPT,一种用于多模态视频字幕的新生成预训练框架。它通过双向生成目标,使用在未标记视频中不同时间采样的话语联合预训练多模态编码器和字幕解码器。该预训练模型在多个视频字幕基准和其他视频理解任务(如 VideoQA、视频检索和动作分类)上取得了最先进的结果。

原文链接:https://ai.googleblog.com/2022/06/end-to-end-generative-pre-training-for.html


相关文章
|
10月前
|
文字识别 前端开发
CodeFuse-VLM 开源,支持多模态多任务预训练/微调
随着huggingface开源社区的不断更新,会有更多的vision encoder 和 LLM 底座发布,这些vision encoder 和 LLM底座都有各自的强项,例如 code-llama 适合生成代码类任务,但是不适合生成中文类的任务,因此用户常常需要根据vision encoder和LLM的特长来搭建自己的多模态大语言模型。针对多模态大语言模型种类繁多的落地场景,我们搭建了CodeFuse-VLM 框架,支持多种视觉模型和语言大模型,使得MFT-VLM可以适应不同种类的任务。
876 0
|
3月前
|
机器学习/深度学习 人工智能 编解码
MV-Adapter:上交大、北航和 VAST 等联合开源多视图一致图像生成模型,将预训练的文生图扩散模型转为多视图生成器
MV-Adapter是由北京航空航天大学、VAST和上海交通大学联合开发的多视图一致图像生成模型。该模型能够将预训练的文本到图像扩散模型转化为多视图图像生成器,支持生成高分辨率的多视角图像。
367 18
MV-Adapter:上交大、北航和 VAST 等联合开源多视图一致图像生成模型,将预训练的文生图扩散模型转为多视图生成器
|
5月前
|
自然语言处理 达摩院 数据挖掘
[大语言模型-论文精读] 阿里巴巴-通过多阶段对比学习实现通用文本嵌入
[大语言模型-论文精读] 阿里巴巴-通过多阶段对比学习实现通用文本嵌入
130 1
|
5月前
|
机器学习/深度学习 人工智能 算法
[大语言模型-论文精读] Diffusion Model技术-通过时间和空间组合扩散模型生成复杂的3D人物动作
[大语言模型-论文精读] Diffusion Model技术-通过时间和空间组合扩散模型生成复杂的3D人物动作
80 0
|
7月前
|
数据可视化 数据挖掘 网络安全
语音情感基座模型emotion6vec 问题之什么是表征可视化,在这项研究中如何应用
语音情感基座模型emotion6vec 问题之什么是表征可视化,在这项研究中如何应用
|
数据挖掘
InsTag:大语言模型监督微调数据标签标注工具
魔搭社区发布了一个名为“InsTagger”的工具,用于分析LLM(大语言模型)中符合人类偏好的监督微调(SFT)数据。InsTagger 是基于 InsTag 方法训练的本地指令标签标注器,用于为符合人类偏好的监督微调数据集中的指令标注描述其意图和语义的标签,从而指导指令的分流或监督微调数据集的分析。
|
10月前
|
机器学习/深度学习 人工智能 自然语言处理
LLM资料大全:文本多模态大模型、垂直领域微调模型、STF数据集、训练微调部署框架、提示词工程等
LLM资料大全:文本多模态大模型、垂直领域微调模型、STF数据集、训练微调部署框架、提示词工程等
LLM资料大全:文本多模态大模型、垂直领域微调模型、STF数据集、训练微调部署框架、提示词工程等
|
10月前
|
机器学习/深度学习 自然语言处理 数据挖掘
预训练语言模型中Transfomer模型、自监督学习、BERT模型概述(图文解释)
预训练语言模型中Transfomer模型、自监督学习、BERT模型概述(图文解释)
284 0
|
计算机视觉
CVPR 2023 | 多个扩散模型相互合作,新方法实现多模态人脸生成与编辑
CVPR 2023 | 多个扩散模型相互合作,新方法实现多模态人脸生成与编辑
373 0
|
机器人 网络架构
中国人民大学卢志武:ChatGPT对多模态通用生成模型的重要启发(2)
中国人民大学卢志武:ChatGPT对多模态通用生成模型的重要启发
363 0