MAG-3D: Multi-Agent Grounded Reasoning for 3D Understanding

简介: MAG-3D提出无需训练的多智能体三维具身推理框架,通过规划、定位、编码三智能体动态协同,结合开放词汇三维定位与可执行几何验证,在Beacon3D、MSQA基准上实现零样本最优性能,同时大幅提升定位与问答的一致性,有效解决现有方法依赖微调、流程僵化、易产生幻觉的问题,为开放世界三维可靠推理提供实用方案。

作者信息

  1. 郑锦浩:清华大学
  2. 方辰越:清华大学

研究背景

image

  1. 视觉语言模型(VLMs)在二维多模态理解与推理任务中表现优异,但在三维场景的具身空间推理领域仍存在显著挑战,二维视觉任务的成功无法直接迁移到三维几何、空间关系与场景结构推理中。
  2. 三维推理高度依赖精准的目标定位(grounding),开放式三维场景查询需要识别任务相关实体、整合碎片化观测并执行一致的空间推演,而纯语言先验或二维语义关联无法满足需求。
  3. 现有三维具身推理方法存在明显缺陷:面向推理的方法依赖领域内微调与专用监督,泛化能力受限;工具增强方法采用固定手工设计的推理流程,难以适配开放世界的多样化查询。
  4. 三维标注数据稀缺且成本高昂,现有模型在非结构化开放环境中难以实现鲁棒、多步、全局一致的推理,同时易出现与真实物理环境脱节的幻觉问题。

研究目的

  1. 解决现有三维视觉语言模型依赖领域内微调、固定推理流程导致的灵活性不足与零样本泛化能力差的问题。
  2. 构建无需训练、可动态协同的多智能体框架,让现成视觉语言模型具备可靠的三维具身推理能力。
  3. 实现三维场景中精准的开放词汇目标定位、高效的视觉记忆检索与可验证的几何推理,提升三维问答的准确性与推理一致性。
  4. 在Beacon3D、MSQA等主流三维问答基准上达到无需训练的最优性能,同时实现定位与问答的高一致性对齐。

本文核心贡献

  1. 提出MAG-3D框架:一种无需训练的多智能体框架,可直接赋能现成视觉语言模型完成三维具身推理,摆脱任务专用训练与领域内微调依赖。
  2. 设计三智能体协同架构:通过规划智能体、定位智能体、编码智能体动态协作,显式完成任务拆解、三维开放词汇定位与几何计算验证,提升推理灵活性与可解释性。
  3. 创新三维视觉记忆机制:基于三维体覆盖率缓存与检索关键视角,相比二维视觉记忆更适配遮挡场景,显著提升定位与推理鲁棒性。
  4. 实验验证最优性能:在Beacon3D、MSQA两大基准上,无需训练即超越现有方法,同时大幅提升定位-问答一致性,减少无依据推理的幻觉现象。

研究方法

image

整体框架

MAG-3D采用无需训练的多智能体架构,以多视角RGB观测为输入,通过共享场景记忆实现三智能体协同,完成三维具身推理并输出自然语言答案。

核心智能体设计

  1. 规划智能体(Planning Agent)
    • 作为中央协调器,接收自然语言查询与场景记忆状态,动态拆解复杂任务为子目标。
    • 分配子任务至对应智能体,根据中间结果迭代重规划,最终汇总验证信息生成答案。
  2. 定位智能体(Grounding Agent)
    • 开放词汇三维定位:结合SAM3二维实例分割与VGGT几何提升,将语言描述转化为三维 bounding box,处理清晰与模糊描述。
    • 三维视觉记忆:基于三维体覆盖率计算帧得分,缓存高覆盖率视角,支持实例与位置两种检索模式。
    • 后处理优化:通过视觉重提示、标签门控几何融合、偏航框拟合解决跨视角不一致问题。
  3. 编码智能体(Coding Agent)
    • 将空间语言意图转化为可执行Python代码,完成距离、体积、相对位置等几何计算与验证。
    • 与Python解释器多轮交互,执行代码并根据结果修正,提升多步空间推理可靠性。

实验设置

  1. 骨干模型:规划智能体采用Seed-1.6或GPT-4o,定位与编码智能体默认采用Seed-1.6。
  2. 实验基准:Beacon3D(评估问答精度与定位-问答一致性)、MSQA(评估多模态情境三维问答)。
  3. 评估指标:案例级问答得分、物体级问答得分、定位-问答链一致性(GQA-Chains)。

研究结果

  1. Beacon3D基准性能
    • 相比纯GPT-4o,MAG-3D_GPT-4o案例级得分提升6.4,物体级得分提升3.2。
    • 相比纯Seed-1.6,MAG-3D_Seed-1.6案例级得分提升4.8,物体级得分提升4.3。
    • 超越需训练的SceneCOT,案例级得分提升6.1,物体级得分提升4.3,定位-问答良好一致性占比最高。
  2. MSQA基准性能
    • 官方设置下,MAG-3D_Seed-1.6整体得分提升6.4,MAG-3D_GPT-4o提升3.3。
    • 纯视觉设置下,MAG-3D_Seed-1.6得分从29.6提升至42.4,涨幅达12.8,无三维输入时优势更显著。
  3. 消融实验结论
    • 多智能体协同优于单智能体工具调用,得分从44.6提升至47.6。
    • 开放词汇定位智能体远优于闭词汇Mask3D,计数与存在类任务提升明显。
    • 三维视觉记忆优于二维记忆与无记忆方案,得分提升3.3。
    • 定位智能体采用Seed-1.6比GPT-4o-mini效果更优。

总结与展望

MAG-3D提出无需训练的多智能体三维具身推理框架,通过规划、定位、编码三智能体动态协同,结合开放词汇三维定位与可执行几何验证,在Beacon3D、MSQA基准上实现零样本最优性能,同时大幅提升定位与问答的一致性,有效解决现有方法依赖微调、流程僵化、易产生幻觉的问题,为开放世界三维可靠推理提供实用方案。

展望

  1. 可将MAG-3D作为自动标注工具,基于大规模数据生成三维目标引用、空间关系与验证轨迹,规模化构建三维具身推理数据集。
  2. 可集成更强的骨干模型与感知模块,进一步提升复杂场景的推理能力。
  3. 可拓展至机器人交互、自动驾驶等真实三维 embodied 场景,落地实际应用。
  4. 原文未明确提及核心局限性,整体框架具备良好可扩展性与迭代潜力。
相关文章
|
17天前
|
机器人 计算机视觉 知识图谱
HSG: Hyperbolic Scene Graph
HSG通过双曲几何学习场景图嵌入,有效捕获场所-物体层级蕴含关系,在保持检索性能的同时大幅提升场景图结构质量,验证了双曲表示在结构化视觉推理中的有效性。
|
5月前
|
机器学习/深度学习 人工智能 监控
NeurIPS 2025 Spotlight!跨模态重识别革命!东北大学等 MDReID 图像信息智能匹配
东北大学等提出MDReID,获NeurIPS 2025 Spotlight!该方法实现跨模态行人重识别,创新性地将图像特征解耦为通用与专用特征,支持RGB、NIR、TIR等任意模态自由匹配,显著提升异源图像检索精度,推动安防、监控等领域智能化发展。
328 1
NeurIPS 2025 Spotlight!跨模态重识别革命!东北大学等 MDReID 图像信息智能匹配
|
6月前
|
机器学习/深度学习 人工智能 测试技术
NeurIPS 2025|让AI读懂第一视角的“内心独白”!浙大等联合突破性实现自我中心视频推理
浙大等提出EgoThinker,首创支持第一视角视频推理的AI模型。构建500万问答对数据集EgoRe-5M,结合思维链与手物交互标注,通过两阶段训练提升时空定位与长时序因果推理能力,在多项基准超越现有模型,推动可穿戴助手与具身智能发展。
199 3
NeurIPS 2025|让AI读懂第一视角的“内心独白”!浙大等联合突破性实现自我中心视频推理
|
6月前
|
机器学习/深度学习 人工智能
NeurIPS 2025!电子科大同济等提出Table2LaTeX-RL:表格转 LaTeX 精准度再突破
Table2LaTeX-RL:基于强化多模态大模型,实现从表格图像到高保真LaTeX代码的生成。创新提出VSGRPO双奖励机制与百万级数据集,显著提升复杂表格的结构与视觉一致性,推动学术文档自动化重建新进展。
175 1
NeurIPS 2025!电子科大同济等提出Table2LaTeX-RL:表格转 LaTeX 精准度再突破
|
6月前
|
人工智能 Linux C++
VideoLLaMA 3新一代前沿多模态基础模型赋能图像与视频深度理解| LLM | 计算机视觉
VideoLLaMA 3是2025年发布的前沿多模态模型,深度融合视觉、音频与语言,支持长视频、高分辨率图像理解及视听融合推理。基于Llama 3架构,具备强大时空因果分析能力,适用于复杂视频理解任务,已在Lab4AI平台开放复现。
527 1
VideoLLaMA 3新一代前沿多模态基础模型赋能图像与视频深度理解| LLM | 计算机视觉
|
6月前
|
人工智能 自然语言处理 计算机视觉
CVPR 2024 | 赋能大语言模型以精准理解视频时序瞬间 | LLM | 时序预测
VTimeLLM提出新型时间感知架构,赋能大语言模型精准理解视频时序瞬间。通过时间对齐表征与时序预训练,实现事件定位、时序推理与细粒度视频理解,支持自然语言交互式探索视频内容。
222 0
CVPR 2024 | 赋能大语言模型以精准理解视频时序瞬间 | LLM | 时序预测
|
6月前
|
机器学习/深度学习 人工智能 计算机视觉
AAAI2025!北理工团队提出FBRT-YOLO:面向实时航拍图像更快更好的目标检测 |计算机视觉|目标检测
FBRT-YOLO提出专用于航拍图像的实时目标检测模型,通过轻量化设计、增强多尺度融合与小目标优化,在保证高精度的同时显著提升速度,实现复杂场景下更优的性能平衡。
563 0
AAAI2025!北理工团队提出FBRT-YOLO:面向实时航拍图像更快更好的目标检测 |计算机视觉|目标检测
|
5月前
|
机器学习/深度学习 人工智能 测试技术
NeurIPS 2025 | 浙大、浙工大等团队提出LRMs 自适应思考:简单任务快处理,复杂任务深分析
浙大、阿里云等提出首个LRM快慢思维控制方法,发现特定词可触发思维模式,结合PCA导向与自适应策略,实现无需训练的推理速度调控,在多模型上显著提升准确率并减少耗材。
269 1
NeurIPS 2025 | 浙大、浙工大等团队提出LRMs 自适应思考:简单任务快处理,复杂任务深分析
|
6月前
|
人工智能 异构计算
从帧到世界:面向世界模型的长视频生成
《从帧到世界》介绍面向世界模型的长视频生成新范式MMPL,由南京大学范琦团队提出。该方法通过“微观规划+宏观规划”双阶段策略,解决传统生成中的时域漂移与串行瓶颈,实现高物理合理性、强时空连贯的长视频生成,支持并行加速,为世界模型提供认知与预测世界的AI基础设施。
364 1
从帧到世界:面向世界模型的长视频生成
|
5月前
|
JSON 算法 Shell
实测腾讯混元HY-World 1.5:虚拟世界的推理实战
腾讯混元HY-World 1.5发布,全球首个开源、实时交互且具长时几何一致性的3D世界模型。支持24帧/秒流式生成,适用于虚拟拍摄、仿真合成等场景。提供双向、自回归及蒸馏模型,兼顾质量与速度。现已开放GitHub、Hugging Face及Lab4AI一键体验平台,助力创作者构建沉浸式虚拟世界。
345 0