支持1024帧、准确率近100%,英伟达LongVILA开始发力长视频

简介: 【9月更文挑战第15天】近年来,随着人工智能技术的发展,长视频的理解与处理成为研究热点。针对长视频对模型长上下文能力的高要求,NVIDIA提出了综合性解决方案LongVILA,涵盖系统设计、模型训练及数据集开发。其MM-SP系统在多GPU环境下大幅提升训练速度;五阶段训练流程逐步增强模型理解能力;大规模数据集支持多阶段训练。LongVILA成功将VILA模型帧数扩展至1024,并显著提升了长视频字幕得分,但在计算成本和实际应用准确性方面仍面临挑战。

近年来,随着人工智能技术的飞速发展,长视频的理解和处理成为了研究的热点。长视频相比于短视频,具有更长的时间跨度和更丰富的内容,因此对于模型的长上下文能力有着更高的要求。为了解决这个问题,英伟达(NVIDIA)的研究人员提出了一种名为LongVILA的全栈解决方案,旨在为长视频的视觉语言模型提供更好的支持。

LongVILA是一种综合性的解决方案,它涵盖了系统、模型训练和数据集开发等多个方面。在系统方面,研究人员引入了一种名为多模态序列并行(MM-SP)的系统,这种系统能够支持长视频的训练和推理,并且可以在256个GPU上实现200万上下文长度的训练,而无需使用任何梯度检查点。相比于传统的环序列并行和Megatron上下文并行,MM-SP系统在性能上有着显著的提升,可以实现2.1到5.7倍的速度提升。

在模型训练方面,LongVILA采用了一种五阶段的训练流程,包括对齐、预训练、短监督微调、上下文扩展和长监督微调。这个流程的设计旨在逐步提高模型的长上下文能力,并使其能够更好地理解和处理长视频。

在数据集方面,研究人员构建了大规模的视觉语言预训练数据集和长视频指令遵循数据集,以支持多阶段的训练过程。这些数据集的构建对于提高模型的长上下文能力至关重要,因为它们提供了丰富的长视频数据,使模型能够更好地学习和理解长视频的内容。

通过使用LongVILA,研究人员成功地将VILA模型的帧数从8扩展到了1024,并且将长视频字幕的得分从2.00提高到了3.26,实现了1.6倍的提升。此外,LongVILA还在1400帧的视频中实现了99.5%的准确率,这相当于在274k上下文长度的针尖搜索实验中取得了成功。

然而,尽管LongVILA在长视频的理解和处理方面取得了显著的进展,但仍然存在一些挑战和限制。首先,由于长视频的规模和复杂性,训练和推理的计算成本仍然很高。其次,尽管LongVILA在准确率上取得了近100%的成绩,但在实际应用中,仍然可能存在一些错误和遗漏。

论文地址:https://arxiv.org/pdf/2408.10188

目录
相关文章
|
机器学习/深度学习 编解码 固态存储
超轻目标检测 | 超越 NanoDet-Plus、YOLOv4-Tiny实时性、高精度都是你想要的!
超轻目标检测 | 超越 NanoDet-Plus、YOLOv4-Tiny实时性、高精度都是你想要的!
752 0
超轻目标检测 | 超越 NanoDet-Plus、YOLOv4-Tiny实时性、高精度都是你想要的!
|
5月前
|
机器学习/深度学习 算法 开发工具
【YOLOv8量化】普通CPU上加速推理可达100+FPS
【YOLOv8量化】普通CPU上加速推理可达100+FPS
690 0
|
3月前
|
小程序 API 调度
消费级显卡,17G显存,玩转图像生成模型FLUX.1!
近期stable diffusion的部分核心开发同学,推出了全新的图像生成模型FLUX.1。
|
4月前
|
机器学习/深度学习 计算机视觉
字节豆包全新图像Tokenizer:生成图像最低只需32个token,最高提速410倍
【7月更文挑战第1天】新方法将图像转为1D token序列,减少计算复杂度,提高生成效率。在保持高画质(如gFID: 1.97 on ImageNet 256x256)的同时,TiTok比现有模型快410倍。虽有资源需求及token限制问题,但展示了图像处理的新方向。[论文链接](https://arxiv.org/abs/2406.07550)
154 7
|
6月前
|
机器学习/深度学习 算法 计算机视觉
图视觉模型崛起 | MobileViG同等精度比MobileNetv2快4倍,同等速度精度高4%!
图视觉模型崛起 | MobileViG同等精度比MobileNetv2快4倍,同等速度精度高4%!
98 0
|
自然语言处理 数据可视化 PyTorch
双卡3090消费级显卡推理微调OpenBuddy-LLaMA2-70B最佳实践
9月4日,OpenBuddy发布700亿参数跨语言大模型 OpenBuddy-LLaMA2-70B,并以可商用的形态全面开源!现在已经全面上架魔搭ModelScope社区。
双卡3090消费级显卡推理微调OpenBuddy-LLaMA2-70B最佳实践
|
存储 机器学习/深度学习 编解码
ImageNet-1K压缩20倍,Top-1精度首超60%:大规模数据集蒸馏转折点
ImageNet-1K压缩20倍,Top-1精度首超60%:大规模数据集蒸馏转折点
194 0
|
机器学习/深度学习 编解码 固态存储
超轻目标检测 | 超越 NanoDet-Plus、YOLOv4-Tiny实时性、高精度都是你想要的!(一)
超轻目标检测 | 超越 NanoDet-Plus、YOLOv4-Tiny实时性、高精度都是你想要的!(一)
561 0
|
编解码 算法 数据可视化
超轻目标检测 | 超越 NanoDet-Plus、YOLOv4-Tiny实时性、高精度都是你想要的!(二)
超轻目标检测 | 超越 NanoDet-Plus、YOLOv4-Tiny实时性、高精度都是你想要的!(二)
227 0
|
编解码 人工智能 数据可视化
Transformer崛起| TopFormer打造Arm端实时分割与检测模型,完美超越MobileNet!(二)
Transformer崛起| TopFormer打造Arm端实时分割与检测模型,完美超越MobileNet!(二)
242 0