ICLR 2026|上海交通提出 π³,突破参考视图束缚,提升 3D 几何重建鲁棒性

简介: π³通过全排列等变设计彻底消除固定参考视图的归纳偏置,构建了鲁棒、高效、可扩展的前馈式视觉几何重建模型,在多项核心任务上刷新 SOTA。该研究存在局限性:无法处理透明物体,重建几何细节精度不及扩散类方法,点云生成易产生网格状伪影。未来可围绕透明物体建模优化、几何细节精度提升、点云生成伪影消除等方向展开拓展研究。

image

该篇论文被 ICLR 2026 录用。
论文标题: π³: PERMUTATION-EQUIVARIANT VISUAL GEOMETRY LEARNING
GitHub项目:https://github.com/yyfz/Pi3
论文链接:https://www.lab4ai.cn/paper/detail/reproductionPaper?utm_source=aliyun_pi3&id=6ce923eecb1047d0b59c8689c27cb2ed

01 引言

视觉几何重建是计算机视觉领域的核心任务,广泛应用于 AR、机器人、自主导航等场景。

不管是传统 SfM、MVS,还是近几年最火的 DUSt3R、VGGT、FLARE 等前馈 3D 重建模型,全都有一个沿用了几十年的 默认操作:用多张照片重建 3D 场景时,必须先选一张当 “主参考照片”。

但这个设计藏着缺陷:

  • 过度依赖“主角”: 之前的模型(如 DUSt3R 或 VGGT)通常需要选定一张照片作为参考视图,并以它的视角作为整个 3D 世界的中心 。
  • 脆弱的稳定性: 如果选定的那张参考照片拍得不好,比如太模糊、光照差或遮挡多,整个场景的重建就会由于“先入为主”的偏见而彻底失败 。
  • 顺序敏感: 同样的几张照片,如果输入的顺序变了,或者选了不同的照片当“主角”,出来的结果往往大相径庭,这在实际应用中是非常危险的 。

image
于是,论文作者直接给出了一个颠覆性答案:我们干脆不要主参考照片了!作者提出一个排列等变模型,不依赖参考帧、不依赖输入顺序,照样实现高精度、高速度的 3D 几何重建。

PS:大模型实验室Lab4AI提供科研skills,赋能科研全流程。
image

02 核心思路

image

2.1 排列等变架构

以前的 AI 就像一个性格古怪的摄影师:你给它一组照片,它必须死板地认定第一张或者它自认为最好的一张照片为绝对中心,所有其他照片都要围着它转。这种先入为主的偏见,让 AI 变得极其敏感。一旦这张中心照片拍得模糊、光照不好,或者你只是调换了一下照片的顺序,AI 就会‘闹情绪’,最后生成的 3D 模型轻则走形,重则直接崩溃。

π³ 带来的最大突破,就是实现了一种“完全排列等变”架构。

什么是排列等变架构?
π³模型在处理照片时,把所有照片放在一个圆桌会议上平等对待。即无论你给它的照片序列是 1-2-3 还是 3-1-2,模型都能给每张图精准地算出它的相机位置、立体形状和自信度。

那这是如何做到的呢?
为了让模型达到这种不看顺序、只看内容的效果,研发团队做了以下工作:

  • 撕掉“排号标签”: 以前模型会给照片贴上“第1帧”、“第2帧”的标签,这会让 AI 产生先入为主的偏见,π³索性把这些标签全撕了。
  • 取消“主角光环”: 团队去掉了所有专门用来标记“参考视角”的特殊指令。
  • 平等对话: 它借用了 DINOv2来理解照片,并让照片之间进行“全员大讨论”,共同商量出最优的 3D 方案。

这么处理能够实现无论选哪张照片当头,或者把序列怎么乱排,重建出来的 3D 质量都一样稳。

2.2 尺度不变的局部几何

如果说排列等变解决了 AI 的偏见问题,那么尺度不变几何就解决了 AI 的空间感。

对于每一张输入的照片,AI 都会先画出一份 3D 点云图。但这时候有一个大难题:比例尺模糊。
通俗点说,AI 看到照片里的一辆车,它分不清那是 5 米外的一辆真车,还是 0.5 米外的一个玩具车模型。在单张照片里,物体的远近和大小是很难绝对分清的。

为了解决这个问题,π³做到保证在同一组照片里,即使不知道绝对尺寸,但它用的比例尺完全一致。

首先,AI 会通过ROE 求解器,找到一个最完美的“奇迹倍数”,把所有的“小素描”同时放大或缩小,直到它们能完美地套在真实的场景上 。定好大小之后,AI 还要负责把 3D 模型修饰得更真实:

  • 法线损失:如果只看点云,表面可能会坑坑洼洼。AI 会计算每个点对应的“表面方向”。它要求自己画出来的表面必须像镜面或墙面一样平滑自然,不要有奇怪的突起。
  • 置信度图:AI 还会给自己打分。它会预测一张“置信度图”,告诉我们哪些地方它画得非常肯定,哪些地方它只是在瞎猜。如果它画的 3D 点和真实情况差得太远,这个点的得分就会很低。

π³并不死记硬背物体绝对有多大,而是学会了在不同视角间统一比例尺。再加上法线磨皮和置信度评分,它不仅能复原出一个立体的世界,还能确保这个世界表面平滑,并且对自己的错误‘心中有数’。

2.3 仿射不变的相机姿态

在以前的模型中,必须要定一个坐标原点(比如第一张照片的位置)。但在 π³ 中,因为大家都是平等的,所以没有绝对的原点。

通俗点说,这就像是在茫茫大海上导航,如果你找不到北极星(参考帧),你就没法说出自己的绝对经纬度。你只能说:“我在 A 船左边 10 米,面向 B 船”。

这种不依赖绝对位置、只看物体之间相对关系的特性,就是仿射不变性。

为了训练 AI 找准位置,研究团队不再告诉它“你在地图的哪个点”,而是教它计算两两照片之间的相对位置。

  • 旋转:两张照片的角度转了多少?这个是固定的,比较好算。
  • 平移:两张照片之间离了多远?这里又遇到了那个“比例尺”难题。

因此,为了让 AI 成为定位高手,论文设计了两个考核指标:

  • 测地线角度损失:专门考核“旋转”准不准,要求 AI 预测的角度与实际角度的偏差越小越好。
  • Huber 平移损失:专门考核“距离”准不准。使用 Huber 损失是为了让 AI 更有“包容性”,不要因为一两张拍坏的照片就影响整体定位。

π³ 的相机定位就像是一个不需要 GPS 的老司机。它不关心自己在地图上的绝对经纬度,而是通过观察每两张照片之间的“邻里关系”来锁定位置。

2.4 模型训练

研究人员给 AI 制定了一份多维度的评分标准,具体包括四个指标:

  • 点重建损失:考察 3D 形状画得准不准。
  • 法线损失:考察表面修得平不平滑。
  • 置信度损失:考察 AI 有没有自知之明(知道哪画错了)。
  • 相机姿态损失:考察相机位置是否正确。

并且使用15 个不同的大型数据库进行训练,包括游戏场景、室内扫描和互联网照片等行业顶尖的数据源。让π³具备了极强的适应力,无论是游戏画面还是手机实拍它都能轻松应对。

03 实验结果

3.1 相机姿态估计

image
在 RealEstate 10K 和 Co3Dv2 上进行测试角度准确性评估;在 Sintel、TUM-dynamics 和 ScanNet 上评估测试轨迹误差。在 Sintel 和 RealEstate 10K 的零样本泛化测试中, Sintel 数据集的相机轨迹误差 (ATE)从 VGGT 的 0.167 大幅降低至 0.074 ,RealEstate 10K 的旋转精度(RRA )达到 99.99%。

3.2 点图估计

image
π³使用DTU、ETH3D 数据集评估模型重建多视图点云的质量,包括准确度、完整性和法线一致性。在 ETH3D 场景重建中,其准确度(Acc.)达到 0.194,优于 VGGT 的 0.280,完整度也表现出色。

3.3 深度估计

image
在视频深度估计方面,π³不仅在精度上实现了质的飞跃,在运行效率上更是展现出降维打击般的优势。在视频深度估计任务中,其绝对相对误差(Abs Rel)在 Sintel 数据集上从 VGGT 的 0.299 降低至 0.233,Bonn 数据集上从 0.057 降至 0.049,而在 KITTI 数据集上则从 0.062 优化到了 0.038。

04 总结

π³通过全排列等变设计彻底消除固定参考视图的归纳偏置,构建了鲁棒、高效、可扩展的前馈式视觉几何重建模型,在多项核心任务上刷新 SOTA。该研究存在局限性:无法处理透明物体,重建几何细节精度不及扩散类方法,点云生成易产生网格状伪影。未来可围绕透明物体建模优化、几何细节精度提升、点云生成伪影消除等方向展开拓展研究。

相关文章
|
14天前
|
人工智能 数据可视化 安全
王炸组合!阿里云 OpenClaw X 飞书 CLI,开启 Agent 基建狂潮!(附带免费使用6个月服务器)
本文详解如何用阿里云Lighthouse一键部署OpenClaw,结合飞书CLI等工具,让AI真正“动手”——自动群发、生成科研日报、整理知识库。核心理念:未来软件应为AI而生,CLI即AI的“手脚”,实现高效、安全、可控的智能自动化。
34762 38
王炸组合!阿里云 OpenClaw X 飞书 CLI,开启 Agent 基建狂潮!(附带免费使用6个月服务器)
|
8天前
|
人工智能 自然语言处理 安全
Claude Code 全攻略:命令大全 + 实战工作流(建议收藏)
本文介绍了Claude Code终端AI助手的使用指南,主要内容包括:1)常用命令如版本查看、项目启动和更新;2)三种工作模式切换及界面说明;3)核心功能指令速查表,包含初始化、压缩对话、清除历史等操作;4)详细解析了/init、/help、/clear、/compact、/memory等关键命令的使用场景和语法。文章通过丰富的界面截图和场景示例,帮助开发者快速掌握如何通过命令行和交互界面高效使用Claude Code进行项目开发,特别强调了CLAUDE.md文件作为项目知识库的核心作用。
8784 26
Claude Code 全攻略:命令大全 + 实战工作流(建议收藏)
|
3天前
|
人工智能 JavaScript Ubuntu
低成本搭建AIP自动化写作系统:Hermes保姆级使用教程,长文和逐步实操贴图
我带着怀疑的态度,深度使用了几天,聚焦微信公众号AIP自动化写作场景,写出来的几篇文章,几乎没有什么修改,至少合乎我本人的意愿,而且排版风格,也越来越完善,同样是起码过得了我自己这一关。 这个其实OpenClaw早可以实现了,但是目前我觉得最大的区别是,Hermes会自主总结提炼,并更新你的写作技能。 相信就冲这一点,就值得一试。 这篇帖子主要就Hermes部署使用,作一个非常详细的介绍,几乎一步一贴图。 关于Hermes,无论你赞成哪种声音,我希望都是你自己动手行动过,发自内心的选择!
1744 17
|
25天前
|
人工智能 JSON 机器人
让龙虾成为你的“公众号分身” | 阿里云服务器玩Openclaw
本文带你零成本玩转OpenClaw:学生认证白嫖6个月阿里云服务器,手把手配置飞书机器人、接入免费/高性价比AI模型(NVIDIA/通义),并打造微信公众号“全自动分身”——实时抓热榜、AI选题拆解、一键发布草稿,5分钟完成热点→文章全流程!
45659 155
让龙虾成为你的“公众号分身” | 阿里云服务器玩Openclaw
|
8天前
|
机器学习/深度学习 存储 人工智能
还在手写Skill?hermes-agent 让 Agent 自己进化能力
Hermes-agent 是 GitHub 23k+ Star 的开源项目,突破传统 Agent 依赖人工编写Aegnt Skill 的瓶颈,首创“自我进化”机制:通过失败→反思→自动生成技能→持续优化的闭环,让 Agent 在实践中自主构建、更新技能库,持续自我改进。
1549 5
|
15天前
|
人工智能 JSON 监控
Claude Code 源码泄露:一份价值亿元的 AI 工程公开课
我以为顶级 AI 产品的护城河是模型。读完这 51.2 万行泄露的源码,我发现自己错了。
5642 24
|
3天前
|
云安全 人工智能 供应链
|
5天前
|
IDE Java 编译器
【全网最详细】JDK17下载安装图文教程 | Java17编程环境搭建步骤详解
JDK 17是Java官方长期支持(LTS)版本,提供编译、调试、运行Java程序的完整工具链。具备高稳定性、强安全性及现代语言特性(如密封类、模式匹配),广泛用于企业开发、教学入门与生产环境,是学习和实践Java的首选基础工具。(239字)