在人工智能领域,视频多模态大模型(LMMs)的发展一直受到高质量原始数据稀缺的困扰。为了解决这个问题,研究人员提出了一种替代方法,即创建一个专门用于视频指令遵循的高质量合成数据集。这个数据集名为LLaVA-Video-178K,包括详细字幕、开放性问题回答(QA)和多项选择问题回答等关键任务。通过在这个数据集上进行训练,并结合现有的视觉指令微调数据,研究人员引入了一个新的视频LMM,名为LLaVA-Video。
在当前的人工智能研究中,大规模计算和数据对于多模态学习至关重要。视觉指令微调(Liu et al., 2024a)是最近的一个重要进展,它为构建通用视觉助手奠定了基础。然而,获取高质量的视频语言指令遵循数据具有挑战性(Zhang et al., 2023; Li et al., 2024e)。首先,获取高质量的视频很困难。其次,当前的视频语言指令遵循数据集通常使用非常稀疏的采样率进行帧注释,这导致在需要详细描述视频时出现幻觉。
为了克服这些挑战,研究人员提出了一个名为LLaVA-Video-178K的综合视频指令微调数据集。这个数据集包含178,510个视频,范围从0到3分钟。它通过结合GPT-4o(OpenAI, 2024)和人类努力,丰富了详细注释、开放性问题和多项选择问题。该数据集具有以下四个优点:
- 广泛的视频来源:研究人员对现有视频理解数据集的视频来源进行了全面调查,并确定了10个主要视频数据来源。他们从这些来源中收集视频数据,并建立了一个视频池。
- 动态未剪辑视频选择:从视频池中,研究人员使用多个过滤逻辑来选择最动态的视频。他们选择原始、未剪辑的视频以确保情节完整性。
- 递归详细字幕生成管道与密集帧采样:研究人员提出了一个详细的视频字幕管道,该管道递归运行,使他们能够为任意长度的视频生成详细字幕。他们还采用了每秒一帧的密集采样策略,以确保采样帧足够丰富,能够代表视频。
- 多样化任务:基于详细的视频描述,研究人员可以生成问题-答案对。为了确保他们的问题涵盖广泛的场景,他们参考了视频问题回答数据集,并定义了16种问题类型。
研究人员在各种视频基准上对LLaVA-Video进行了实验,并证明了它的强大性能。他们发现,LLaVA-Video在视频字幕、开放性问题回答和多项选择问题回答等任务上都表现出色。这表明他们的合成数据集在提高视频LMM的性能方面非常有效。
为了支持通用视觉助手的发展,研究人员将他们的多模态指令数据、代码库、模型检查点和一个视觉聊天演示公开发布。这将使其他研究人员能够使用他们的数据集和模型来进一步推动视频LMM的发展。
优点
- 高质量的合成数据集:LLaVA-Video-178K是一个高质量的合成数据集,包括详细字幕、开放性问题回答和多项选择问题回答等关键任务。
- 强大的性能:LLaVA-Video在各种视频任务上表现出色,包括视频字幕、开放性问题回答和多项选择问题回答。
- 开源项目:研究人员将他们的数据集、代码库和模型检查点公开发布,以支持其他研究人员的工作。
缺点
- 数据集规模相对较小:尽管LLaVA-Video-178K是一个高质量的数据集,但它的规模相对较小,可能不足以涵盖所有可能的视频场景。
- 对计算资源的要求较高:由于视频数据的复杂性,训练视频LMM需要大量的计算资源,这可能限制了它的广泛应用。