VideoRefer:阿里达摩院开源视频对象感知与推理框架,可集成 VLLM 提升其空间和时间理解能力

本文涉及的产品
视觉智能开放平台,图像资源包5000点
视觉智能开放平台,视频资源包5000点
视觉智能开放平台,分割抠图1万点
简介: VideoRefer 是浙江大学与阿里达摩学院联合推出的视频对象感知与推理技术,支持细粒度视频对象理解、复杂关系分析及多模态交互,适用于视频剪辑、教育、安防等多个领域。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 功能:支持细粒度视频对象理解、复杂关系分析、推理预测及多模态交互。
  2. 技术:基于多智能体数据引擎和空间-时间对象编码器,实现高质量视频指令数据生成与对象级特征提取。
  3. 应用:适用于视频剪辑、教育、安防监控、交互式机器人及电子商务等多个领域。

正文(附运行示例)

VideoRefer 是什么

videorefer

VideoRefer 是浙江大学与阿里达摩学院联合推出的视频对象感知与推理技术,旨在增强视频大型语言模型(Video LLMs)的空间-时间理解能力。该技术能够对视频中的任意对象进行细粒度的感知和推理,支持单帧和多帧输入,适用于多种复杂场景。

VideoRefer 的核心组件包括 VideoRefer-700K 数据集、VideoRefer 模型和 VideoRefer-Bench 基准。通过这些组件,VideoRefer 能够实现对视频内容的精确理解、推理和检索,推动细粒度视频理解技术的发展。

VideoRefer 的主要功能

  • 细粒度视频对象理解:对视频中的任意对象进行精确感知,捕捉对象的空间位置、外观特征和运动状态。
  • 复杂关系分析:分析视频中多个对象之间的交互和相对位置变化,理解对象之间的相互作用。
  • 推理与预测:基于视频内容进行推理,预测对象的未来行为或事件发展趋势。
  • 视频对象检索:根据用户指定的条件,从视频中检索出相关对象或场景片段。
  • 多模态交互:支持基于文本指令、语音提示或图像标记的多模态交互,理解用户需求并提供相应的视频理解结果。

VideoRefer 的技术原理

  • 多智能体数据引擎:通过多个专家模型协同工作,自动生成高质量的对象级视频指令数据,为模型训练提供多样化支持。
  • 空间-时间对象编码器:设计多功能的空间-时间对象编码器,提取单帧对象的区域特征,并在多帧模式下捕捉对象的时间连续性。
  • 融合与解码:将视频的全局场景特征、对象级特征和语言指令融合,送入预训练的大型语言模型进行解码,生成细粒度语义理解结果。
  • 全面评估基准:构建 VideoRefer-Bench 评估基准,从多个维度评估模型在视频指代任务中的性能。

如何运行 VideoRefer

1. 环境配置

首先,确保满足以下基本依赖:

  • Python >= 3.8
  • Pytorch >= 2.2.0
  • CUDA Version >= 11.8
  • transformers == 4.40.0
  • tokenizers == 0.19.1

安装所需依赖:

git clone https://github.com/DAMO-NLP-SG/VideoRefer
cd VideoRefer
pip install -r requirements.txt
pip install flash-attn==2.5.8 --no-build-isolation

2. 运行示例

参考 infer.ipynb 中的示例代码,使用 VideoRefer 模型进行单视频推理。该示例支持单帧和多帧模式。

3. 集成 SAM2

为了更好地使用 VideoRefer,建议集成 SAM2

git clone https://github.com/facebookresearch/sam2.git && cd sam2
SAM2_BUILD_CUDA=0 pip install -e ".[notebooks]"

然后,下载 sam2.1_hiera_large.ptcheckpoints 目录。

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
8月前
|
人工智能 自然语言处理 算法
谷歌推出”自我发现“框架,极大增强GPT-4等大模型推理能力
【4月更文挑战第20天】谷歌DeepMind团队推出了SELF-DISCOVER框架,让大型语言模型能自我发现并构建推理结构,提升在复杂任务中的性能。该框架模仿人类解决问题方式,分两阶段选择和适应原子推理模块,以解决挑战。在多任务测试中,SELF-DISCOVER相比传统方法表现出色,性能提升42%,计算量减少10至40倍。它具有跨模型应用的普适性,并与人类思维方式相通。然而,它在某些任务类型上仍有优化空间,且需解决计算成本问题。论文链接:https://arxiv.org/abs/2402.03620
111 1
|
8月前
魔塔社区的模型支持使用DJL 进行推理吗?
想使用DJL 加载魔塔社区的模型并进行推理
|
8月前
|
人工智能 物联网 PyTorch
SCEdit:轻量级高效可控的AI图像生成微调框架(附魔搭社区训练实践教程)
SCEdit是一个高效的生成式微调框架,由阿里巴巴通义实验室基础视觉智能团队所提出。
|
28天前
|
机器学习/深度学习 人工智能 自然语言处理
Gemini 2.0:谷歌推出的原生多模态输入输出 + Agent 为核心的 AI 模型
谷歌最新推出的Gemini 2.0是一款原生多模态输入输出的AI模型,以Agent技术为核心,支持多种数据类型的输入与输出,具备强大的性能和多语言音频输出能力。本文将详细介绍Gemini 2.0的主要功能、技术原理及其在多个领域的应用场景。
149 20
Gemini 2.0:谷歌推出的原生多模态输入输出 + Agent 为核心的 AI 模型
|
4月前
|
编解码 人工智能 文字识别
阶跃星辰开源GOT-OCR2.0:统一端到端模型,魔搭一站式推理微调最佳实践来啦!
GOT来促进OCR-2.0的到来。该模型具有580百万参数,是一个统一、优雅和端到端的模型,由高压缩编码器和长上下文解码器组成。
阶跃星辰开源GOT-OCR2.0:统一端到端模型,魔搭一站式推理微调最佳实践来啦!
|
4月前
|
数据可视化 Swift
小钢炮进化,MiniCPM 3.0 开源!4B参数超GPT3.5性能,无限长文本,超强RAG三件套!模型推理、微调实战来啦!
旗舰端侧模型面壁「小钢炮」系列进化为全新 MiniCPM 3.0 基座模型,再次以小博大,以 4B 参数,带来超越 GPT-3.5 的性能。并且,量化后仅 2GB 内存,端侧友好。
小钢炮进化,MiniCPM 3.0 开源!4B参数超GPT3.5性能,无限长文本,超强RAG三件套!模型推理、微调实战来啦!
|
3月前
|
计算机视觉
Deepseek开源多模态LLM模型框架Janus,魔搭社区最佳实践
deepseek近期推出了简单、统一且灵活的多模态框架Janus,它能够统一处理多模态理解和生成任务。让我们一起来了解一下吧。
|
5月前
|
人工智能 自然语言处理 Swift
"轻量级微调推理框架SWIFT:大模型时代的速度革命,让你秒变AI部署高手!"
【8月更文挑战第17天】随着AI技术的发展,大模型如GPT-3和BERT引领风潮,但其部署与推理速度面临挑战。为此,魔搭社区推出了SWIFT(Simple Weight-Integrated Fine-Tuning)框架,它采用轻量级微调技术,实现模型参数压缩与加速,确保大模型能在移动端和边缘设备上高效运行。SWIFT具备四大特点:创新微调方法减少训练参数;内置优化策略提高推理速度;跨平台支持便于部署;兼容主流预训练模型。通过示例可见,从加载预训练模型到模型的微调、评估及导出,SWIFT简化了工作流程,降低了大模型的应用门槛,促进了AI技术的实际应用。
560 3
|
5月前
|
人工智能 物联网 异构计算
AI智能体研发之路-模型篇(一):大模型训练框架LLaMA-Factory在国内网络环境下的安装、部署及使用
AI智能体研发之路-模型篇(一):大模型训练框架LLaMA-Factory在国内网络环境下的安装、部署及使用
412 0
|
8月前
|
机器学习/深度学习 人工智能 自然语言处理
预训练驱动的统一文本表示-GTE魔搭社区最佳实践
文本表示是自然语言处理(NLP)领域的核心问题, 其在很多NLP、信息检索的下游任务中发挥着非常重要的作用。

热门文章

最新文章