突破视频多模态大模型瓶颈!合成数据立大功,项目已开源

简介: 针对视频多模态大模型(LMMs)因缺乏高质量原始数据而发展受限的问题,研究人员开发了LLaVA-Video-178K数据集,包含178,510个视频,涵盖详细字幕、开放性问题回答和多项选择题。此数据集通过结合GPT-4o和人工标注,实现了广泛视频来源、动态视频选择、递归字幕生成及多样化任务设计。基于此数据集训练的LLaVA-Video模型,在视频字幕、问答等任务上表现优异,且已开源,助力视频LMM的研究与发展。

在人工智能领域,视频多模态大模型(LMMs)的发展一直受到高质量原始数据稀缺的困扰。为了解决这个问题,研究人员提出了一种替代方法,即创建一个专门用于视频指令遵循的高质量合成数据集。这个数据集名为LLaVA-Video-178K,包括详细字幕、开放性问题回答(QA)和多项选择问题回答等关键任务。通过在这个数据集上进行训练,并结合现有的视觉指令微调数据,研究人员引入了一个新的视频LMM,名为LLaVA-Video。

在当前的人工智能研究中,大规模计算和数据对于多模态学习至关重要。视觉指令微调(Liu et al., 2024a)是最近的一个重要进展,它为构建通用视觉助手奠定了基础。然而,获取高质量的视频语言指令遵循数据具有挑战性(Zhang et al., 2023; Li et al., 2024e)。首先,获取高质量的视频很困难。其次,当前的视频语言指令遵循数据集通常使用非常稀疏的采样率进行帧注释,这导致在需要详细描述视频时出现幻觉。

为了克服这些挑战,研究人员提出了一个名为LLaVA-Video-178K的综合视频指令微调数据集。这个数据集包含178,510个视频,范围从0到3分钟。它通过结合GPT-4o(OpenAI, 2024)和人类努力,丰富了详细注释、开放性问题和多项选择问题。该数据集具有以下四个优点:

  1. 广泛的视频来源:研究人员对现有视频理解数据集的视频来源进行了全面调查,并确定了10个主要视频数据来源。他们从这些来源中收集视频数据,并建立了一个视频池。
  2. 动态未剪辑视频选择:从视频池中,研究人员使用多个过滤逻辑来选择最动态的视频。他们选择原始、未剪辑的视频以确保情节完整性。
  3. 递归详细字幕生成管道与密集帧采样:研究人员提出了一个详细的视频字幕管道,该管道递归运行,使他们能够为任意长度的视频生成详细字幕。他们还采用了每秒一帧的密集采样策略,以确保采样帧足够丰富,能够代表视频。
  4. 多样化任务:基于详细的视频描述,研究人员可以生成问题-答案对。为了确保他们的问题涵盖广泛的场景,他们参考了视频问题回答数据集,并定义了16种问题类型。

研究人员在各种视频基准上对LLaVA-Video进行了实验,并证明了它的强大性能。他们发现,LLaVA-Video在视频字幕、开放性问题回答和多项选择问题回答等任务上都表现出色。这表明他们的合成数据集在提高视频LMM的性能方面非常有效。

为了支持通用视觉助手的发展,研究人员将他们的多模态指令数据、代码库、模型检查点和一个视觉聊天演示公开发布。这将使其他研究人员能够使用他们的数据集和模型来进一步推动视频LMM的发展。

优点

  1. 高质量的合成数据集:LLaVA-Video-178K是一个高质量的合成数据集,包括详细字幕、开放性问题回答和多项选择问题回答等关键任务。
  2. 强大的性能:LLaVA-Video在各种视频任务上表现出色,包括视频字幕、开放性问题回答和多项选择问题回答。
  3. 开源项目:研究人员将他们的数据集、代码库和模型检查点公开发布,以支持其他研究人员的工作。

缺点

  1. 数据集规模相对较小:尽管LLaVA-Video-178K是一个高质量的数据集,但它的规模相对较小,可能不足以涵盖所有可能的视频场景。
  2. 对计算资源的要求较高:由于视频数据的复杂性,训练视频LMM需要大量的计算资源,这可能限制了它的广泛应用。

论文链接:https://arxiv.org/pdf/2410.02713

目录
相关文章
|
6月前
|
人工智能 vr&ar 图形学
开源单图生成3D模型TripoSR的局限性分析
【2月更文挑战第25天】开源单图生成3D模型TripoSR的局限性分析
321 6
开源单图生成3D模型TripoSR的局限性分析
|
1天前
|
人工智能 编解码 搜索推荐
OneDiffusion:无缝支持双向图像合成和理解的开源扩散模型
OneDiffusion 是一个开源的扩散模型,能够无缝支持双向图像合成和理解。它基于统一的训练框架,支持多种任务,如文本到图像生成、条件图像生成和图像理解等。OneDiffusion 通过流匹配框架和序列建模技术,实现了高度的灵活性和可扩展性。
12 2
OneDiffusion:无缝支持双向图像合成和理解的开源扩散模型
|
16天前
|
监控
SMoA: 基于稀疏混合架构的大语言模型协同优化框架
通过引入稀疏化和角色多样性,SMoA为大语言模型多代理系统的发展开辟了新的方向。
29 6
SMoA: 基于稀疏混合架构的大语言模型协同优化框架
|
16天前
|
机器学习/深度学习 数据采集 数据处理
谷歌提出视觉记忆方法,让大模型训练数据更灵活
谷歌研究人员提出了一种名为“视觉记忆”的方法,结合了深度神经网络的表示能力和数据库的灵活性。该方法将图像分类任务分为图像相似性和搜索两部分,支持灵活添加和删除数据、可解释的决策机制以及大规模数据处理能力。实验结果显示,该方法在多个数据集上取得了优异的性能,如在ImageNet上实现88.5%的top-1准确率。尽管有依赖预训练模型等限制,但视觉记忆为深度学习提供了新的思路。
22 2
|
2月前
|
数据可视化 Swift
小钢炮进化,MiniCPM 3.0 开源!4B参数超GPT3.5性能,无限长文本,超强RAG三件套!模型推理、微调实战来啦!
旗舰端侧模型面壁「小钢炮」系列进化为全新 MiniCPM 3.0 基座模型,再次以小博大,以 4B 参数,带来超越 GPT-3.5 的性能。并且,量化后仅 2GB 内存,端侧友好。
小钢炮进化,MiniCPM 3.0 开源!4B参数超GPT3.5性能,无限长文本,超强RAG三件套!模型推理、微调实战来啦!
|
2月前
|
人工智能 开发者
谷歌通过数据增强、对比调优,减少多模态模型幻觉
【9月更文挑战第16天】谷歌研究人员针对多模态大语言模型(MLLMs)中的幻觉问题,提出了一种结合数据增强与对比调优的新方法,旨在减少模型生成错误信息的情况。该方法通过生成式数据增强制造幻觉标记并与真实标记对比,利用对比损失优化模型参数,从而提升模型对真实信息的辨识能力。实验结果显示,此方法能显著降低对象幻觉现象,但在模拟复杂现实场景及计算需求方面仍面临挑战。相关研究已发布在论文《通过数据增强的对比调优减轻对象幻觉》中。
48 3
|
3月前
|
数据采集 人工智能 编解码
抛弃视觉编码器,这个原生版多模态大模型也能媲美主流方法
【8月更文挑战第4天】在AI领域,多模态大模型(VLMs)融合视觉与语言处理,但现有模型多依赖视觉编码器,限制了灵活性与效率。为解决此问题,研究者开发出不依赖编码器的VLMs,提出一种高效训练方案,通过统一解码器内部桥接视觉-语言表示,并引入额外监督增强视觉识别能力。基于此,开发出EVE模型,在多个基准测试中表现出色,仅用3500万公开数据即可媲美甚至超越传统模型。尽管如此,EVE仍面临计算资源需求高及数据质量等挑战。这一突破引发了对未来VLM发展方向的讨论。[论文链接: https://arxiv.org/abs/2406.11832]
58 1
|
5月前
|
机器学习/深度学习 语音技术
多模态大模型不够灵活,谷歌DeepMind创新架构Zipper:分开训练再压缩
【6月更文挑战第12天】谷歌DeepMind的Zipper架构解决了多模态大模型灵活性问题,通过分解为单模态模型并用“压缩”过程组合,实现多模态生成。该方法允许独立训练每个模态,提升灵活性和可扩展性,适用于数据有限或领域特定的模态。Zipper利用交叉注意力机制融合模态输出,适用于图像描述、语音识别等任务。尽管需要更多计算资源且性能受限于单模态模型质量,但已在ASR和TTS领域展现潜力。论文链接:https://arxiv.org/pdf/2405.18669
66 3
|
5月前
|
机器学习/深度学习 监控
【机器学习】基于扩散模型的文本到音频生成:突破数据局限,优化音频概念与实践顺序
【机器学习】基于扩散模型的文本到音频生成:突破数据局限,优化音频概念与实践顺序
175 0
|
6月前
|
机器学习/深度学习 人工智能
论文介绍:PreFLMR——扩展细粒度晚期交互多模态检索器以提升知识视觉问答性能
【5月更文挑战第3天】PreFLMR是扩展的细粒度晚期交互多模态检索器,用于提升知识视觉问答(KB-VQA)性能。基于FLMR,PreFLMR结合大型语言模型和检索增强生成,增强准确性与效率。通过M2KR框架全面评估,PreFLMR展示出色性能,尤其在E-VQA和Infoseek等任务。然而,其在预训练阶段未充分训练知识密集型任务,且仍有优化训练方法和数据集混合比例的空间。[论文链接](https://arxiv.org/abs/2402.08327)
172 1
下一篇
无影云桌面