VSI-Bench:李飞飞谢赛宁团队推出视觉空间智能基准测试集,旨在评估多模态大语言模型在空间认知和理解方面的能力

本文涉及的产品
图像搜索,7款服务类型 1个月
简介: VSI-Bench是由李飞飞和谢赛宁团队推出的视觉空间智能基准测试集,旨在评估多模态大型语言模型(MLLMs)在空间认知和理解方面的能力。该基准测试集包含超过5000个问题-答案对,覆盖近290个真实室内场景视频,涉及多种环境,能够系统地测试和提高MLLMs在视觉空间智能方面的表现。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 主题:VSI-Bench是李飞飞和谢赛宁团队推出的视觉空间智能基准测试集。
  2. 功能:评估多模态大型语言模型在空间认知和理解方面的能力。
  3. 应用:适用于机器人导航、增强现实、自动驾驶等多个领域。

正文(附运行示例)

VSI-Bench 是什么

公众号: 蚝油菜花 - thinking-in-space

VSI-Bench(Visual-Spatial Intelligence Benchmark)是由李飞飞、谢赛宁及其研究团队推出的视觉空间智能基准测试集。该测试集旨在评估多模态大型语言模型(MLLMs)在空间认知和理解方面的能力。VSI-Bench包含超过5000个问题-答案对,覆盖近290个真实室内场景视频,涉及住宅、办公室和工厂等多种环境。

VSI-Bench的任务分为配置型任务(如物体计数、相对距离等)、测量估计(如物体尺寸、房间大小等)和时空任务(如物体出现顺序),能够系统地测试和提高MLLMs在视觉空间智能方面的表现。

VSI-Bench 的主要功能

  • 评估视觉空间智能:量化评估多模态大型语言模型(MLLMs)的视觉空间智能,包括对空间关系的感知、理解和记忆能力。
  • 基准测试:提供标准化的测试集,包含5000多个问答对,用于基准测试和比较不同MLLMs在视觉空间任务上的性能。
  • 任务多样性:包括配置型任务、测量估计和时空任务,全面覆盖视觉空间智能的多个方面。
  • 视频理解:基于视频输入,测试MLLMs对连续、时间性输入的理解,比静态图像更接近人类观察世界的方式。
  • 数据质量和控制:基于人工审核确保数据质量,消除歧义和错误标注,提高测试结果的可靠性。

VSI-Bench 的技术原理

  • 数据集构建:基于多个公共室内3D场景重建数据集(如ScanNet、ScanNet++和ARKitScenes),提供高保真度的视频扫描和对象级别的3D注释。
  • 问题-答案对生成:基于数据集中的元信息和问题模板自动生成问题-答案对,同时对路线规划任务进行人工标注。
  • 质量控制:实施人工审核流程,确保问题清晰无歧义,对错误或模糊的问题进行溯源和修正。
  • 模型评估:在零样本设置下评估多种视频支持的MLLMs,采用精确匹配和模糊匹配作为主要评价指标。
  • 性能指标:对于多项选择题(MCA)任务使用准确度(ACC),对于数值答案(NA)任务引入新的度量标准——平均相对准确度(MRA)。
  • 认知图生成:提示MLLMs预测视频中对象的中心位置,生成认知图,评估模型的内部空间表示和记忆能力。

如何运行 VSI-Bench

安装

conda create --name vsibench python=3.10
conda activate vsibench

git clone git@github.com:vision-x-nyu/thinking-in-space.git
cd thinking-in-space

git submodule update --init --recursive

cd transformers && pip install -e . && cd ..

pip install -e .
pip install s2wrapper@git+https://github.com/bfshi/scaling_on_scales
pip install deepspeed

评估

bash evaluate_all_in_one.sh --model all --num_processes 8 --benchmark vsibench

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
1天前
|
机器学习/深度学习 人工智能 智能设计
VisionFM:通用眼科 AI 大模型,具备眼科疾病诊断能力,展现出专家级别的准确性
VisionFM 是一个多模态多任务的视觉基础模型,专为通用眼科人工智能设计。通过预训练大量眼科图像,模型能够处理多种眼科成像模态,并在多种眼科任务中展现出专家级别的智能性和准确性。
22 4
VisionFM:通用眼科 AI 大模型,具备眼科疾病诊断能力,展现出专家级别的准确性
|
5天前
|
机器学习/深度学习 人工智能 自然语言处理
NeurIPS 2024:真实世界复杂任务,全新基准GTA助力大模型工具调用能力评测
在NeurIPS 2024会议上,GTA(General Tool Agents Benchmark)基准测试被提出,旨在评估大型语言模型(LLM)在真实世界复杂任务中的工具调用能力。GTA采用真实用户查询、真实部署工具和多模态输入,全面评估LLM的推理和执行能力。结果显示,现有LLM在真实世界任务中仍面临巨大挑战,为未来研究提供了重要方向。
29 13
|
6月前
|
机器学习/深度学习 人工智能 算法
全面超越DPO:陈丹琦团队提出简单偏好优化SimPO,还炼出最强8B开源模型
【6月更文挑战第4天】普林斯顿大学陈丹琦团队推出SimPO,一种超越DPO的强化学习优化算法,旨在优化大型语言模型以符合人类价值观。SimPO通过序列平均对数概率作为奖励,提高计算效率并减少对参考模型的依赖。在多基准测试中,SimPO表现优秀,尤其在AlpacaEval 2和Arena-Hard上大幅超越现有方法。团队还基于Llama3-8B-Instruct创建了最强8B开源模型,推动AI技术发展。尽管存在超参数敏感性等挑战,SimPO仍为AI优化提供新途径。[论文链接](https://arxiv.org/pdf/2405.14734)
94 1
|
7月前
|
人工智能 计算机视觉
李飞飞空间智能系列新进展,吴佳俊团队新BVS套件评估计算机视觉模型
【5月更文挑战第29天】李飞飞教授的SVL实验室与吴佳俊团队推出BEHAVIOR Vision Suite(BVS),一个创新工具包,用于生成定制合成数据以评估计算机视觉模型。BVS解决了现有数据生成器在资产、多样性和真实性方面的局限,提供灵活的场景、对象和相机参数调整。它包含8000多个对象模型和1000个场景,适用于多种视觉任务。实验展示了BVS在评估模型鲁棒性、场景理解和域适应中的效用,但也指出其在覆盖范围、使用难度和域适应上的局限。[论文链接](https://arxiv.org/pdf/2405.09546)
103 4
|
7月前
|
人工智能
MIT等首次深度研究集成LLM预测能力:可媲美人类群体准确率
【4月更文挑战第16天】研究人员集成12个大型语言模型(LLM)组成“硅基群体”,在预测比赛中与925名人类预测者对比。研究发现,LLM群体的预测准确性与人类群体无显著差异,且通过集成可抵消个体模型的偏差,提高预测准确。GPT-4和Claude 2等模型结合人类预测后,准确度提升17%至28%。然而,个别LLM预测精度不一,模型选择和校准度是提升预测性能的关键,同时LLM在时间跨度和现实场景适应性方面仍有挑战。
107 6
MIT等首次深度研究集成LLM预测能力:可媲美人类群体准确率
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
【大模型】LLM研究和开发的一些新兴趋势
【5月更文挑战第7天】【大模型】LLM研究和开发的一些新兴趋势
|
7月前
|
机器学习/深度学习 数据采集 人工智能
ICLR 2024:RLHF有了通用平台和基准,天大开源,专攻现实决策场景
【4月更文挑战第21天】天津大学在ICLR 2024发布RLHF新框架Uni-RLHF,以人类反馈引导强化学习,降低奖励函数设计需求,适应现实决策场景。该框架提供通用平台和基准,支持大规模众包注释,促进研究。尽管面临准确捕捉人类反馈、数据质量和多任务处理等挑战,但开源特性加速了学术进步。[链接](https://arxiv.org/abs/2402.02423)
108 0
|
7月前
|
机器学习/深度学习 自然语言处理 安全
18LLM4SE革命性技术揭秘:大型语言模型LLM在软件工程SE领域的全景解析与未来展望 - 探索LLM的多维应用、优化策略与软件管理新视角【网安AIGC专题11.15】作者汇报 综述
18LLM4SE革命性技术揭秘:大型语言模型LLM在软件工程SE领域的全景解析与未来展望 - 探索LLM的多维应用、优化策略与软件管理新视角【网安AIGC专题11.15】作者汇报 综述
709 0
|
7月前
|
机器学习/深度学习 存储 人工智能
极智AI | 谈谈模型量化组织方式
本文主要聊一下深度学习模型量化组织方式。
320 0
|
7月前
|
人工智能 并行计算 前端开发
极智AI | 谈谈推理引擎的推理组织流程
本文主要讨论一下推理引擎的推理组织流程,包括 英伟达 tensorrt、华为 CANN 以及 TVM。
234 0

热门文章

最新文章