VSI-Bench:李飞飞谢赛宁团队推出视觉空间智能基准测试集,旨在评估多模态大语言模型在空间认知和理解方面的能力

本文涉及的产品
图像搜索,任选一个服务类型 1个月
简介: VSI-Bench是由李飞飞和谢赛宁团队推出的视觉空间智能基准测试集,旨在评估多模态大型语言模型(MLLMs)在空间认知和理解方面的能力。该基准测试集包含超过5000个问题-答案对,覆盖近290个真实室内场景视频,涉及多种环境,能够系统地测试和提高MLLMs在视觉空间智能方面的表现。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 主题:VSI-Bench是李飞飞和谢赛宁团队推出的视觉空间智能基准测试集。
  2. 功能:评估多模态大型语言模型在空间认知和理解方面的能力。
  3. 应用:适用于机器人导航、增强现实、自动驾驶等多个领域。

正文(附运行示例)

VSI-Bench 是什么

公众号: 蚝油菜花 - thinking-in-space

VSI-Bench(Visual-Spatial Intelligence Benchmark)是由李飞飞、谢赛宁及其研究团队推出的视觉空间智能基准测试集。该测试集旨在评估多模态大型语言模型(MLLMs)在空间认知和理解方面的能力。VSI-Bench包含超过5000个问题-答案对,覆盖近290个真实室内场景视频,涉及住宅、办公室和工厂等多种环境。

VSI-Bench的任务分为配置型任务(如物体计数、相对距离等)、测量估计(如物体尺寸、房间大小等)和时空任务(如物体出现顺序),能够系统地测试和提高MLLMs在视觉空间智能方面的表现。

VSI-Bench 的主要功能

  • 评估视觉空间智能:量化评估多模态大型语言模型(MLLMs)的视觉空间智能,包括对空间关系的感知、理解和记忆能力。
  • 基准测试:提供标准化的测试集,包含5000多个问答对,用于基准测试和比较不同MLLMs在视觉空间任务上的性能。
  • 任务多样性:包括配置型任务、测量估计和时空任务,全面覆盖视觉空间智能的多个方面。
  • 视频理解:基于视频输入,测试MLLMs对连续、时间性输入的理解,比静态图像更接近人类观察世界的方式。
  • 数据质量和控制:基于人工审核确保数据质量,消除歧义和错误标注,提高测试结果的可靠性。

VSI-Bench 的技术原理

  • 数据集构建:基于多个公共室内3D场景重建数据集(如ScanNet、ScanNet++和ARKitScenes),提供高保真度的视频扫描和对象级别的3D注释。
  • 问题-答案对生成:基于数据集中的元信息和问题模板自动生成问题-答案对,同时对路线规划任务进行人工标注。
  • 质量控制:实施人工审核流程,确保问题清晰无歧义,对错误或模糊的问题进行溯源和修正。
  • 模型评估:在零样本设置下评估多种视频支持的MLLMs,采用精确匹配和模糊匹配作为主要评价指标。
  • 性能指标:对于多项选择题(MCA)任务使用准确度(ACC),对于数值答案(NA)任务引入新的度量标准——平均相对准确度(MRA)。
  • 认知图生成:提示MLLMs预测视频中对象的中心位置,生成认知图,评估模型的内部空间表示和记忆能力。

如何运行 VSI-Bench

安装

conda create --name vsibench python=3.10
conda activate vsibench

git clone git@github.com:vision-x-nyu/thinking-in-space.git
cd thinking-in-space

git submodule update --init --recursive

cd transformers && pip install -e . && cd ..

pip install -e .
pip install s2wrapper@git+https://github.com/bfshi/scaling_on_scales
pip install deepspeed

评估

bash evaluate_all_in_one.sh --model all --num_processes 8 --benchmark vsibench

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
23天前
|
机器学习/深度学习 人工智能 计算机视觉
让AI真正"看懂"世界:多模态表征空间构建秘籍
本文深入解析多模态学习的两大核心难题:多模态对齐与多模态融合,探讨如何让AI理解并关联图像、文字、声音等异构数据,实现类似人类的综合认知能力。
172 6
|
4月前
|
传感器 人工智能 自然语言处理
比亚迪座舱接入通义大模型,未来将联合打造更多AI智能座舱场景
比亚迪与阿里云深度合作,将通义大模型应用于智能座舱和营销服务。通过通义万相,腾势推出“AI壁纸”功能;借助通义星尘,实现“心理伴聊”等情感陪伴场景。阿里云Mobile-Agent智能体落地比亚迪座舱,支持复杂语音操作,如查询淘宝物流、订火车票等。该方案基于全视觉解决技术,具有强泛化能力,未来双方将持续拓展更多AI应用。
457 8
|
8天前
|
人工智能 Java API
Java与大模型集成实战:构建智能Java应用的新范式
随着大型语言模型(LLM)的API化,将其强大的自然语言处理能力集成到现有Java应用中已成为提升应用智能水平的关键路径。本文旨在为Java开发者提供一份实用的集成指南。我们将深入探讨如何使用Spring Boot 3框架,通过HTTP客户端与OpenAI GPT(或兼容API)进行高效、安全的交互。内容涵盖项目依赖配置、异步非阻塞的API调用、请求与响应的结构化处理、异常管理以及一些面向生产环境的最佳实践,并附带完整的代码示例,助您快速将AI能力融入Java生态。
124 12
|
5月前
|
传感器 存储 人工智能
用通义灵码2.5打造智能倒计时日历:从零开始的Python开发体验
本文记录了使用通义灵码2.5开发倒计时日历工具的全过程,展现了其智能体模式带来的高效协作体验。从项目构思到功能实现,通义灵码不仅提供了代码生成与补全,还通过自主决策分解需求、优化界面样式,并集成MCP工具扩展功能。其记忆能力让开发流程更连贯,显著提升效率。最终成果具备事件管理、天气预报等功能,界面简洁美观。实践证明,通义灵码正从代码补全工具进化为真正的智能开发伙伴。
|
5月前
|
人工智能 自然语言处理 算法
AI智能混剪视频大模型开发方案:从文字到视频的自动化生成·优雅草卓伊凡
AI智能混剪视频大模型开发方案:从文字到视频的自动化生成·优雅草卓伊凡
382 0
AI智能混剪视频大模型开发方案:从文字到视频的自动化生成·优雅草卓伊凡
|
24天前
|
机器学习/深度学习 人工智能 测试技术
探索 Qwen2.5-Max 的智能:大规模 MoE 模型的飞跃
Qwen2.5-Max 是通义实验室推出的最先进MoE模型,在推理、知识和代码任务中表现卓越,已在超20万亿token上预训练,并通过SFT和RLHF优化。在多项基准测试中领先,如Arena-Hard达89.4,MMLU-Pro为76.1,性能超越DeepSeek V3、GPT-4o等模型,成为当前最佳开源模型。可通过Qwen Chat和API使用,适用于开发者、研究者及AI爱好者探索前沿AI能力。
161 2
|
5月前
|
传感器 人工智能 算法
场景入选|TsingtaoAI基于DeepSeek的具身智能实训入选河北省垂直大模型应用场景名单
河北省网络社会组织联合会正式公布《垂直大模型应用场景征集结果名单》,TsingtaoAI自主研发的“基于DeepSeek的具身智能高校实训解决方案——从DeepSeek+机器人到通用具身智能”成功入选河北省15个标杆应用场景。这一成果标志着TsingtaoAI在具身智能与大模型融合领域的技术创新与落地能力获得政府及行业权威认可,同时也为人工智能技术与实体产业深度融合提供了可复制的示范案例。
157 0
|
4月前
|
机器学习/深度学习 人工智能 算法
通义OmniAudio大模型,让 AI 看懂 360° 视频,并“听”出对应的空间音频
OmniAudio 是一项突破性的空间音频生成技术,能够直接从 360° 视频生成 FOA(First-order Ambisonics)空间音频,为虚拟现实和沉浸式娱乐带来全新可能。通过自监督 coarse-to-fine 预训练和双分支视频表示微调,OmniAudio 在非空间音频质量和空间定位准确性上显著优于现有方法。项目包含超过 103,000 个视频片段的 Sphere360 数据集,支持高质量的模型训练与评估。代码、数据及论文均已开源,助力沉浸式体验技术发展。
511 62
|
3月前
|
人工智能 BI 语音技术
AR眼镜+AI大模型:颠覆工业设备验收流程的智能革命
本方案结合AR眼镜与AI视觉大模型,打造高效、精准、可追溯的设备验收流程。通过第一视角记录、智能识别、结构化数据生成与智能报表功能,提升验收效率与质量,助力企业实现智能化管理。
|
3月前
|
人工智能 物联网 测试技术
智能化测试基础架构:软件质量保障的新纪元
本文介绍了智能化测试基础架构的核心构成与优势。该架构融合AI、领域工程与自动化技术,包含智能测试平台、测试智能体、赋能引擎和自动化工具链四部分,能自动生成用例、调度执行、分析结果,显著提升测试效率与覆盖率。其核心优势在于实现专家经验规模化、质量前移和快速适应业务变化,助力企业构建新一代质量保障体系。建议从构建知识图谱和试点关键领域智能体起步,逐步推进测试智能化转型。

热门文章

最新文章