❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!
🥦 微信公众号|搜一搜:蚝油菜花 🥦
🚀 快速阅读
- 主题:VSI-Bench是李飞飞和谢赛宁团队推出的视觉空间智能基准测试集。
- 功能:评估多模态大型语言模型在空间认知和理解方面的能力。
- 应用:适用于机器人导航、增强现实、自动驾驶等多个领域。
正文(附运行示例)
VSI-Bench 是什么
VSI-Bench(Visual-Spatial Intelligence Benchmark)是由李飞飞、谢赛宁及其研究团队推出的视觉空间智能基准测试集。该测试集旨在评估多模态大型语言模型(MLLMs)在空间认知和理解方面的能力。VSI-Bench包含超过5000个问题-答案对,覆盖近290个真实室内场景视频,涉及住宅、办公室和工厂等多种环境。
VSI-Bench的任务分为配置型任务(如物体计数、相对距离等)、测量估计(如物体尺寸、房间大小等)和时空任务(如物体出现顺序),能够系统地测试和提高MLLMs在视觉空间智能方面的表现。
VSI-Bench 的主要功能
- 评估视觉空间智能:量化评估多模态大型语言模型(MLLMs)的视觉空间智能,包括对空间关系的感知、理解和记忆能力。
- 基准测试:提供标准化的测试集,包含5000多个问答对,用于基准测试和比较不同MLLMs在视觉空间任务上的性能。
- 任务多样性:包括配置型任务、测量估计和时空任务,全面覆盖视觉空间智能的多个方面。
- 视频理解:基于视频输入,测试MLLMs对连续、时间性输入的理解,比静态图像更接近人类观察世界的方式。
- 数据质量和控制:基于人工审核确保数据质量,消除歧义和错误标注,提高测试结果的可靠性。
VSI-Bench 的技术原理
- 数据集构建:基于多个公共室内3D场景重建数据集(如ScanNet、ScanNet++和ARKitScenes),提供高保真度的视频扫描和对象级别的3D注释。
- 问题-答案对生成:基于数据集中的元信息和问题模板自动生成问题-答案对,同时对路线规划任务进行人工标注。
- 质量控制:实施人工审核流程,确保问题清晰无歧义,对错误或模糊的问题进行溯源和修正。
- 模型评估:在零样本设置下评估多种视频支持的MLLMs,采用精确匹配和模糊匹配作为主要评价指标。
- 性能指标:对于多项选择题(MCA)任务使用准确度(ACC),对于数值答案(NA)任务引入新的度量标准——平均相对准确度(MRA)。
- 认知图生成:提示MLLMs预测视频中对象的中心位置,生成认知图,评估模型的内部空间表示和记忆能力。
如何运行 VSI-Bench
安装
conda create --name vsibench python=3.10
conda activate vsibench
git clone git@github.com:vision-x-nyu/thinking-in-space.git
cd thinking-in-space
git submodule update --init --recursive
cd transformers && pip install -e . && cd ..
pip install -e .
pip install s2wrapper@git+https://github.com/bfshi/scaling_on_scales
pip install deepspeed
评估
bash evaluate_all_in_one.sh --model all --num_processes 8 --benchmark vsibench
资源
- 项目官网:https://vision-x-nyu.github.io/thinking-in-space
- GitHub 仓库:https://github.com/vision-x-nyu/thinking-in-space
- HuggingFace 模型库:https://huggingface.co/datasets/nyu-visionx/VSI-Bench
- arXiv 技术论文:https://arxiv.org/pdf/2412.14171
❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!
🥦 微信公众号|搜一搜:蚝油菜花 🥦