VideoRefer：阿里达摩院开源视频对象感知与推理框架，可集成 VLLM 提升其空间和时间理解能力

2025-01-09 217 发布于广东

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

视觉智能开放平台，图像通用资源包5000点

视觉智能开放平台，视频通用资源包5000点

视觉智能开放平台，分割抠图1万点

简介： VideoRefer 是浙江大学与阿里达摩学院联合推出的视频对象感知与推理技术，支持细粒度视频对象理解、复杂关系分析及多模态交互，适用于视频剪辑、教育、安防等多个领域。

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发非常感兴趣，我会每日分享大模型与 AI 领域的最新开源项目和应用，提供运行实例和实用教程，帮助你快速上手AI技术，欢迎关注我哦！

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

🚀 快速阅读

功能：支持细粒度视频对象理解、复杂关系分析、推理预测及多模态交互。
技术：基于多智能体数据引擎和空间-时间对象编码器，实现高质量视频指令数据生成与对象级特征提取。
应用：适用于视频剪辑、教育、安防监控、交互式机器人及电子商务等多个领域。

正文（附运行示例）

VideoRefer 是什么

videorefer

VideoRefer 是浙江大学与阿里达摩学院联合推出的视频对象感知与推理技术，旨在增强视频大型语言模型（Video LLMs）的空间-时间理解能力。该技术能够对视频中的任意对象进行细粒度的感知和推理，支持单帧和多帧输入，适用于多种复杂场景。

VideoRefer 的核心组件包括 VideoRefer-700K 数据集、VideoRefer 模型和 VideoRefer-Bench 基准。通过这些组件，VideoRefer 能够实现对视频内容的精确理解、推理和检索，推动细粒度视频理解技术的发展。

VideoRefer 的主要功能

细粒度视频对象理解：对视频中的任意对象进行精确感知，捕捉对象的空间位置、外观特征和运动状态。
复杂关系分析：分析视频中多个对象之间的交互和相对位置变化，理解对象之间的相互作用。
推理与预测：基于视频内容进行推理，预测对象的未来行为或事件发展趋势。
视频对象检索：根据用户指定的条件，从视频中检索出相关对象或场景片段。
多模态交互：支持基于文本指令、语音提示或图像标记的多模态交互，理解用户需求并提供相应的视频理解结果。

VideoRefer 的技术原理

多智能体数据引擎：通过多个专家模型协同工作，自动生成高质量的对象级视频指令数据，为模型训练提供多样化支持。
空间-时间对象编码器：设计多功能的空间-时间对象编码器，提取单帧对象的区域特征，并在多帧模式下捕捉对象的时间连续性。
融合与解码：将视频的全局场景特征、对象级特征和语言指令融合，送入预训练的大型语言模型进行解码，生成细粒度语义理解结果。
全面评估基准：构建 VideoRefer-Bench 评估基准，从多个维度评估模型在视频指代任务中的性能。

如何运行 VideoRefer

1. 环境配置

首先，确保满足以下基本依赖：

Python >= 3.8
Pytorch >= 2.2.0
CUDA Version >= 11.8
transformers == 4.40.0
tokenizers == 0.19.1

安装所需依赖：

git clone https://github.com/DAMO-NLP-SG/VideoRefer
cd VideoRefer
pip install -r requirements.txt
pip install flash-attn==2.5.8 --no-build-isolation

        
          
        
        
        
          
          AI 代码解读

2. 运行示例

参考 infer.ipynb 中的示例代码，使用 VideoRefer 模型进行单视频推理。该示例支持单帧和多帧模式。

3. 集成 SAM2

为了更好地使用 VideoRefer，建议集成 SAM2：

git clone https://github.com/facebookresearch/sam2.git && cd sam2
SAM2_BUILD_CUDA=0 pip install -e ".[notebooks]"

        
          
        
        
        
          
          AI 代码解读

然后，下载 sam2.1_hiera_large.pt 到 checkpoints 目录。

资源

项目官网：https://damo-nlp-sg.github.io/VideoRefer/
GitHub 仓库：https://github.com/DAMO-NLP-SG/VideoRefer
HuggingFace 仓库：https://huggingface.co/DAMO-NLP-SG/VideoRefer-7B
arXiv 技术论文：https://arxiv.org/pdf/2501.00599