给视频模型安上快慢两只眼睛,苹果免训练新方法秒了一切SOTA

简介: 【9月更文挑战第5天】近年来,视频大型语言模型(LLM)在计算机视觉领域取得显著进展,但高昂的监督微调成本成为瓶颈。苹果研究人员提出了免训练的SF-LLaVA模型,采用慢流(捕捉空间语义)和快流(捕捉时序上下文)的双流设计,能高效处理视频中的静态与动态信息,显著提升了开放性视频问答、多选视频问答及文本生成等任务的表现。然而,该模型在复杂视频场景理解和特定任务泛化能力方面仍有局限。论文详见:https://arxiv.org/pdf/2407.15841

近年来,视频大型语言模型(LLM)在计算机视觉领域取得了显著进展。然而,这些模型通常需要大量的监督微调(SFT)数据进行训练,这不仅成本高昂,而且效率低下。为了解决这个问题,苹果的研究人员提出了一种名为SlowFast-LLaVA(SF-LLaVA)的免训练视频大型语言模型。

SF-LLaVA的独特之处在于其采用了一种双流设计,即慢流(Slow)和快流(Fast)。慢流负责捕捉视频中的详细空间语义,而快流则专注于捕捉视频中的长时序上下文。这种设计使得SF-LLaVA能够同时处理视频中的静态和动态信息,从而提高视频理解的准确性。

具体而言,慢流以较低的帧率提取特征,同时保持尽可能多的空间细节。例如,它可以以每秒8帧的速度提取特征,每帧包含24x24个空间细节。而快流则以较高的帧率提取特征,但使用更大的空间池化步长来关注运动线索。例如,它可以以每秒64帧的速度提取特征,每帧包含4x4个空间细节。

研究人员在多个视频任务上对SF-LLaVA进行了评估,包括开放性视频问答(Open-Ended VideoQA)、多选视频问答(Multiple Choice VideoQA)和文本生成(Text Generation)。实验结果表明,SF-LLaVA在所有任务上都取得了显著的性能提升。

在开放性视频问答任务中,SF-LLaVA在多个基准数据集上取得了最佳性能,包括MSVD-QA、MSRVTT-QA、TGIF-QA和ActivityNet-QA。在多选视频问答任务中,SF-LLaVA在NExTQA、EgoSchema和IntentQA数据集上也取得了最佳性能。在文本生成任务中,SF-LLaVA在VCGBench数据集上取得了最佳的Temporal Understanding(TU)性能。

尽管SF-LLaVA在多个视频任务上取得了显著的性能提升,但它仍然存在一些局限性。首先,SF-LLaVA的双流设计虽然能够同时处理视频中的静态和动态信息,但对于一些复杂的视频场景,如多目标跟踪或场景理解,可能还不够强大。其次,SF-LLaVA的免训练设计虽然降低了训练成本,但也限制了其在特定任务上的泛化能力。

论文链接:https://arxiv.org/pdf/2407.15841

目录
相关文章
|
2月前
|
物联网
StableDiffusion-04 (炼丹篇) 15分钟 部署服务并进行LoRA微调全过程详细记录 不到20张百变小樱Sakura微调 3090(24GB) 学不会你打我!(二)
StableDiffusion-04 (炼丹篇) 15分钟 部署服务并进行LoRA微调全过程详细记录 不到20张百变小樱Sakura微调 3090(24GB) 学不会你打我!(二)
39 0
|
2月前
|
物联网
StableDiffusion-04 (炼丹篇) 15分钟 部署服务并进行LoRA微调全过程详细记录 不到20张百变小樱Sakura微调 3090(24GB) 学不会你打我!(一)
StableDiffusion-04 (炼丹篇) 15分钟 部署服务并进行LoRA微调全过程详细记录 不到20张百变小樱Sakura微调 3090(24GB) 学不会你打我!(一)
38 0
|
3月前
|
编解码 人工智能 测试技术
2B多模态新SOTA!华科、华南理工发布Mini-Monkey,专治切分增大分辨率后遗症
【9月更文挑战第7天】华中科技大学与华南理工大学联合发布了一款名为Mini-Monkey的2B参数多模态大语言模型,采用多尺度自适应裁剪策略(MSAC)和尺度压缩机制(SCM),在高分辨率图像处理方面取得突破,尤其在文档理解上超越了8B参数的SOTA模型InternVL2-8B。Mini-Monkey仅需8张RTX 3090显卡即可完成训练,展现出高效性能,但处理复杂图像场景时仍存局限。论文详情见:https://arxiv.org/pdf/2408.02034。
59 8
|
5月前
|
机器学习/深度学习 数据采集 搜索推荐
打开黑盒神经网络!港大推出全新会说话的推荐系统大模型XRec,从黑盒预测到可解释
【7月更文挑战第2天】港大研发XRec模型,将可解释性引入推荐系统。XRec结合大型语言模型的语义理解与协同过滤,生成推荐的文本解释,提升透明度。该模型无关设计允许与各类推荐系统配合,增强用户体验。然而,计算资源需求高、数据质量和用户理解能力可能影响其效果。[查看论文](https://arxiv.org/pdf/2406.02377)**
75 11
|
6月前
使用高性能服务器训练StableDiffusion——人物模型.safetensors
使用高性能服务器训练StableDiffusion——人物模型.safetensors
60 0
|
7月前
|
机器学习/深度学习 算法 PyTorch
【PyTorch深度强化学习】带基线的蒙特卡洛策略梯度法(REINFOECE)在短走廊和CartPole环境下的实战(超详细 附源码)
【PyTorch深度强化学习】带基线的蒙特卡洛策略梯度法(REINFOECE)在短走廊和CartPole环境下的实战(超详细 附源码)
130 0
|
机器学习/深度学习 编解码 算法
30%Token就能实现SOTA性能,华为诺亚轻量目标检测器Focus-DETR效率倍增
30%Token就能实现SOTA性能,华为诺亚轻量目标检测器Focus-DETR效率倍增
433 0
|
机器学习/深度学习 机器人 计算机视觉
耗时两年,谷歌用强化学习打造23个机器人帮助垃圾分类
耗时两年,谷歌用强化学习打造23个机器人帮助垃圾分类
|
机器学习/深度学习 自动驾驶 Oracle
YOLO |多域自适应MSDA-YOLO解读,恶劣天气也看得见(附论文)
YOLO |多域自适应MSDA-YOLO解读,恶劣天气也看得见(附论文)
389 0
|
编解码 人工智能 自然语言处理
只需3个样本一句话,AI就能定制照片级图像,谷歌在玩一种很新的扩散模型
只需3个样本一句话,AI就能定制照片级图像,谷歌在玩一种很新的扩散模型
133 0
下一篇
DataWorks