给视频模型安上快慢两只眼睛,苹果免训练新方法秒了一切SOTA

简介: 【9月更文挑战第5天】近年来,视频大型语言模型(LLM)在计算机视觉领域取得显著进展,但高昂的监督微调成本成为瓶颈。苹果研究人员提出了免训练的SF-LLaVA模型,采用慢流(捕捉空间语义)和快流(捕捉时序上下文)的双流设计,能高效处理视频中的静态与动态信息,显著提升了开放性视频问答、多选视频问答及文本生成等任务的表现。然而,该模型在复杂视频场景理解和特定任务泛化能力方面仍有局限。论文详见:https://arxiv.org/pdf/2407.15841

近年来,视频大型语言模型(LLM)在计算机视觉领域取得了显著进展。然而,这些模型通常需要大量的监督微调(SFT)数据进行训练,这不仅成本高昂,而且效率低下。为了解决这个问题,苹果的研究人员提出了一种名为SlowFast-LLaVA(SF-LLaVA)的免训练视频大型语言模型。

SF-LLaVA的独特之处在于其采用了一种双流设计,即慢流(Slow)和快流(Fast)。慢流负责捕捉视频中的详细空间语义,而快流则专注于捕捉视频中的长时序上下文。这种设计使得SF-LLaVA能够同时处理视频中的静态和动态信息,从而提高视频理解的准确性。

具体而言,慢流以较低的帧率提取特征,同时保持尽可能多的空间细节。例如,它可以以每秒8帧的速度提取特征,每帧包含24x24个空间细节。而快流则以较高的帧率提取特征,但使用更大的空间池化步长来关注运动线索。例如,它可以以每秒64帧的速度提取特征,每帧包含4x4个空间细节。

研究人员在多个视频任务上对SF-LLaVA进行了评估,包括开放性视频问答(Open-Ended VideoQA)、多选视频问答(Multiple Choice VideoQA)和文本生成(Text Generation)。实验结果表明,SF-LLaVA在所有任务上都取得了显著的性能提升。

在开放性视频问答任务中,SF-LLaVA在多个基准数据集上取得了最佳性能,包括MSVD-QA、MSRVTT-QA、TGIF-QA和ActivityNet-QA。在多选视频问答任务中,SF-LLaVA在NExTQA、EgoSchema和IntentQA数据集上也取得了最佳性能。在文本生成任务中,SF-LLaVA在VCGBench数据集上取得了最佳的Temporal Understanding(TU)性能。

尽管SF-LLaVA在多个视频任务上取得了显著的性能提升,但它仍然存在一些局限性。首先,SF-LLaVA的双流设计虽然能够同时处理视频中的静态和动态信息,但对于一些复杂的视频场景,如多目标跟踪或场景理解,可能还不够强大。其次,SF-LLaVA的免训练设计虽然降低了训练成本,但也限制了其在特定任务上的泛化能力。

论文链接:https://arxiv.org/pdf/2407.15841

目录
相关文章
|
1月前
|
机器学习/深度学习 编解码 人工智能
扩散模型失宠?端侧非自回归图像生成基础模型Meissonic登场,超越SDXL!
Meissonic是一种新型图像生成模型,采用非自回归的掩码图像建模(MIM)方法,在性能和效率上超越了当前最先进的扩散模型SDXL。其创新点包括改进的注意力机制、多尺度特征提取、先进位置编码策略和优化采样条件等,能够生成高质量、高分辨率图像。此外,Meissonic引入人类偏好评分和特征压缩层,提升图像质量和计算效率。尽管存在一些挑战,Meissonic为统一语言-视觉模型的发展提供了新思路,并在创意设计、虚拟现实等领域展现出广泛应用前景。
76 24
|
5月前
|
编解码 人工智能 测试技术
2B多模态新SOTA!华科、华南理工发布Mini-Monkey,专治切分增大分辨率后遗症
【9月更文挑战第7天】华中科技大学与华南理工大学联合发布了一款名为Mini-Monkey的2B参数多模态大语言模型,采用多尺度自适应裁剪策略(MSAC)和尺度压缩机制(SCM),在高分辨率图像处理方面取得突破,尤其在文档理解上超越了8B参数的SOTA模型InternVL2-8B。Mini-Monkey仅需8张RTX 3090显卡即可完成训练,展现出高效性能,但处理复杂图像场景时仍存局限。论文详情见:https://arxiv.org/pdf/2408.02034。
87 8
|
9月前
|
机器学习/深度学习 自然语言处理 搜索推荐
手机上0.2秒出图、当前速度之最,谷歌打造超快扩散模型MobileDiffusion
【2月更文挑战第17天】手机上0.2秒出图、当前速度之最,谷歌打造超快扩散模型MobileDiffusion
110 2
手机上0.2秒出图、当前速度之最,谷歌打造超快扩散模型MobileDiffusion
|
9月前
|
人工智能 算法 TensorFlow
基于AidLux的工业视觉少样本缺陷检测实战
基于AidLux的工业视觉少样本缺陷检测实战
93 0
|
9月前
|
运维 算法 数据处理
|
编解码 人工智能 移动开发
AIGC图像分辨率太低?快来试试像素感知扩散超分模型,你想要的细节都在这里
阿里巴巴最新自研的像素感知扩散超分模型已经开源,它把扩散模型强大的生成能力和像素级控制能力相结合,能够适应从老照片修复到AIGC图像超分的各种图像增强任务和各种图像风格,并且能够控制生成强度和增强风格。这项技术的直接应用之一是AIGC图像的后处理增强和二次生成,能够带来可观的效果提升。
946 4
|
人工智能 搜索推荐 物联网
速度提升数十倍,只需一张图一句话,谷歌新模型20秒即可实现变脸
速度提升数十倍,只需一张图一句话,谷歌新模型20秒即可实现变脸
146 0
|
编解码 人工智能 自然语言处理
只需3个样本一句话,AI就能定制照片级图像,谷歌在玩一种很新的扩散模型
只需3个样本一句话,AI就能定制照片级图像,谷歌在玩一种很新的扩散模型
139 0
|
人工智能 自然语言处理
Midjourney|文心一格prompt教程[技巧篇]:生成多样性、增加艺术风格、图片二次修改、渐进优化、权重、灯光设置等17个技巧等你来学
Midjourney|文心一格prompt教程[技巧篇]:生成多样性、增加艺术风格、图片二次修改、渐进优化、权重、灯光设置等17个技巧等你来学
|
计算机视觉
采样提速256倍,蒸馏扩散模型生成图像质量媲美教师模型,只需4步
采样提速256倍,蒸馏扩散模型生成图像质量媲美教师模型,只需4步
243 0