支持1024帧、准确率近100%,英伟达LongVILA开始发力长视频

简介: 【9月更文挑战第15天】近年来,随着人工智能技术的发展,长视频的理解与处理成为研究热点。针对长视频对模型长上下文能力的高要求,NVIDIA提出了综合性解决方案LongVILA,涵盖系统设计、模型训练及数据集开发。其MM-SP系统在多GPU环境下大幅提升训练速度;五阶段训练流程逐步增强模型理解能力;大规模数据集支持多阶段训练。LongVILA成功将VILA模型帧数扩展至1024,并显著提升了长视频字幕得分,但在计算成本和实际应用准确性方面仍面临挑战。

近年来,随着人工智能技术的飞速发展,长视频的理解和处理成为了研究的热点。长视频相比于短视频,具有更长的时间跨度和更丰富的内容,因此对于模型的长上下文能力有着更高的要求。为了解决这个问题,英伟达(NVIDIA)的研究人员提出了一种名为LongVILA的全栈解决方案,旨在为长视频的视觉语言模型提供更好的支持。

LongVILA是一种综合性的解决方案,它涵盖了系统、模型训练和数据集开发等多个方面。在系统方面,研究人员引入了一种名为多模态序列并行(MM-SP)的系统,这种系统能够支持长视频的训练和推理,并且可以在256个GPU上实现200万上下文长度的训练,而无需使用任何梯度检查点。相比于传统的环序列并行和Megatron上下文并行,MM-SP系统在性能上有着显著的提升,可以实现2.1到5.7倍的速度提升。

在模型训练方面,LongVILA采用了一种五阶段的训练流程,包括对齐、预训练、短监督微调、上下文扩展和长监督微调。这个流程的设计旨在逐步提高模型的长上下文能力,并使其能够更好地理解和处理长视频。

在数据集方面,研究人员构建了大规模的视觉语言预训练数据集和长视频指令遵循数据集,以支持多阶段的训练过程。这些数据集的构建对于提高模型的长上下文能力至关重要,因为它们提供了丰富的长视频数据,使模型能够更好地学习和理解长视频的内容。

通过使用LongVILA,研究人员成功地将VILA模型的帧数从8扩展到了1024,并且将长视频字幕的得分从2.00提高到了3.26,实现了1.6倍的提升。此外,LongVILA还在1400帧的视频中实现了99.5%的准确率,这相当于在274k上下文长度的针尖搜索实验中取得了成功。

然而,尽管LongVILA在长视频的理解和处理方面取得了显著的进展,但仍然存在一些挑战和限制。首先,由于长视频的规模和复杂性,训练和推理的计算成本仍然很高。其次,尽管LongVILA在准确率上取得了近100%的成绩,但在实际应用中,仍然可能存在一些错误和遗漏。

论文地址:https://arxiv.org/pdf/2408.10188

目录
相关文章
|
机器学习/深度学习 编解码 固态存储
超轻目标检测 | 超越 NanoDet-Plus、YOLOv4-Tiny实时性、高精度都是你想要的!
超轻目标检测 | 超越 NanoDet-Plus、YOLOv4-Tiny实时性、高精度都是你想要的!
791 0
超轻目标检测 | 超越 NanoDet-Plus、YOLOv4-Tiny实时性、高精度都是你想要的!
|
6月前
|
机器学习/深度学习 算法 开发工具
【YOLOv8量化】普通CPU上加速推理可达100+FPS
【YOLOv8量化】普通CPU上加速推理可达100+FPS
881 0
|
4月前
|
小程序 API 调度
消费级显卡,17G显存,玩转图像生成模型FLUX.1!
近期stable diffusion的部分核心开发同学,推出了全新的图像生成模型FLUX.1。
|
6月前
|
算法 测试技术 异构计算
【SAM模型超级进化】MobileSAM轻量化的分割一切大模型出现,模型缩小60倍,速度提高40倍,效果不减
【SAM模型超级进化】MobileSAM轻量化的分割一切大模型出现,模型缩小60倍,速度提高40倍,效果不减
|
编解码 vr&ar 计算机视觉
39亿参数模型公开可用,采样速度7倍提升,残差量化生成图片入选CVPR'22
39亿参数模型公开可用,采样速度7倍提升,残差量化生成图片入选CVPR'22
192 0
39亿参数模型公开可用,采样速度7倍提升,残差量化生成图片入选CVPR'22
|
存储 机器学习/深度学习 编解码
ImageNet-1K压缩20倍,Top-1精度首超60%:大规模数据集蒸馏转折点
ImageNet-1K压缩20倍,Top-1精度首超60%:大规模数据集蒸馏转折点
208 0
|
机器学习/深度学习 编解码 固态存储
超轻目标检测 | 超越 NanoDet-Plus、YOLOv4-Tiny实时性、高精度都是你想要的!(一)
超轻目标检测 | 超越 NanoDet-Plus、YOLOv4-Tiny实时性、高精度都是你想要的!(一)
583 0
|
编解码 算法 数据可视化
超轻目标检测 | 超越 NanoDet-Plus、YOLOv4-Tiny实时性、高精度都是你想要的!(二)
超轻目标检测 | 超越 NanoDet-Plus、YOLOv4-Tiny实时性、高精度都是你想要的!(二)
234 0
|
机器学习/深度学习 存储 缓存
首次在智能手机上训练BERT和ResNet,能耗降35%
首次在智能手机上训练BERT和ResNet,能耗降35%
120 0
|
机器学习/深度学习 编解码 算法
自回归解码加速64倍,谷歌提出图像合成新模型MaskGIT
自回归解码加速64倍,谷歌提出图像合成新模型MaskGIT
250 0