近年来,视频大型语言模型(LLM)在计算机视觉领域取得了显著进展。然而,这些模型通常需要大量的监督微调(SFT)数据进行训练,这不仅成本高昂,而且效率低下。为了解决这个问题,苹果的研究人员提出了一种名为SlowFast-LLaVA(SF-LLaVA)的免训练视频大型语言模型。
SF-LLaVA的独特之处在于其采用了一种双流设计,即慢流(Slow)和快流(Fast)。慢流负责捕捉视频中的详细空间语义,而快流则专注于捕捉视频中的长时序上下文。这种设计使得SF-LLaVA能够同时处理视频中的静态和动态信息,从而提高视频理解的准确性。
具体而言,慢流以较低的帧率提取特征,同时保持尽可能多的空间细节。例如,它可以以每秒8帧的速度提取特征,每帧包含24x24个空间细节。而快流则以较高的帧率提取特征,但使用更大的空间池化步长来关注运动线索。例如,它可以以每秒64帧的速度提取特征,每帧包含4x4个空间细节。
研究人员在多个视频任务上对SF-LLaVA进行了评估,包括开放性视频问答(Open-Ended VideoQA)、多选视频问答(Multiple Choice VideoQA)和文本生成(Text Generation)。实验结果表明,SF-LLaVA在所有任务上都取得了显著的性能提升。
在开放性视频问答任务中,SF-LLaVA在多个基准数据集上取得了最佳性能,包括MSVD-QA、MSRVTT-QA、TGIF-QA和ActivityNet-QA。在多选视频问答任务中,SF-LLaVA在NExTQA、EgoSchema和IntentQA数据集上也取得了最佳性能。在文本生成任务中,SF-LLaVA在VCGBench数据集上取得了最佳的Temporal Understanding(TU)性能。
尽管SF-LLaVA在多个视频任务上取得了显著的性能提升,但它仍然存在一些局限性。首先,SF-LLaVA的双流设计虽然能够同时处理视频中的静态和动态信息,但对于一些复杂的视频场景,如多目标跟踪或场景理解,可能还不够强大。其次,SF-LLaVA的免训练设计虽然降低了训练成本,但也限制了其在特定任务上的泛化能力。