HSG: Hyperbolic Scene Graph
简介:
HSG通过双曲几何学习场景图嵌入,有效捕获场所-物体层级蕴含关系,在保持检索性能的同时大幅提升场景图结构质量,验证了双曲表示在结构化视觉推理中的有效性。
作者单位:北京大学计算机学院
研究背景
- 场景图是计算机视觉中建模物体及其语义、空间关系的结构化表示,广泛应用于机器人、自主导航、具身智能等3D环境理解任务。
- 现有多视图场景图方法(如MSG)在欧氏空间中通过对比学习与注意力关联学习嵌入,虽能实现较好的位置识别精度,但欧氏几何无法显式建模场景中场所-物体的层级蕴含关系,导致学习到的表示结构一致性不足。
- 真实场景具备天然层级结构:场所语义蕴含物体,物体间也存在层级语义关系,而欧氏嵌入难以高效表示这类层级与蕴含关系,常需更高维度或导致结构组织劣化。
- 双曲空间具备指数级容量增长特性,天然适配层级与蕴含关系建模,已在视觉表征、视觉-语言对齐等任务中验证有效性,但尚未被用于多视图场景图的层级结构学习。
研究目的
- 解决欧氏空间场景图嵌入无法有效捕获场所-物体层级蕴含关系的核心问题,提升场景图的结构一致性与质量。
- 提出适配场景图建模的双曲表示学习框架,在保持位置检索性能的同时,显著优化场景图层级结构指标。
- 设计显式的层级约束损失,强化场所与物体间的蕴含关系建模,兼容现有MSG构建流程。
本文核心贡献

- 提出双曲场景图(HSG)框架,首次将双曲几何引入多视图场景图学习,利用双曲空间天然特性编码场景层级关系。
- 设计双曲空间下的蕴含损失(Entailment Loss),显式约束场所-物体的层级蕴含结构,提升表示的结构一致性。
- 通过大量定量与定性实验验证,HSG在保持高位置检索精度的同时,大幅超越欧氏基线方法,在图级指标上实现显著提升。
- 提供兼容现有MSG pipeline的双曲嵌入映射方案,可无缝集成到多视图场景图构建流程中,具备良好扩展性。
研究方法

- 双曲空间基础:采用洛伦兹双曲面模型(Lorentz hyperboloid model),将欧氏嵌入通过指数映射映射到双曲空间,原点表示最抽象概念,越具体实体距离原点越远。
- 模型架构:沿用MSG整体架构,将L2归一化超球嵌入与余弦相似度替换为洛伦兹双曲面嵌入与负洛伦兹距离,新增蕴含损失。
- 核心技术
- 双曲对比学习:基于负洛伦兹距离重构InfoNCE损失,分别优化场所级与物体级对比目标。
- 蕴含损失:采用双曲蕴含锥,定义场所嵌入为锥中心,约束物体嵌入位于锥内,控制层级约束强度。
- 总损失:总损失=场所对比损失+物体对比损失+λ×蕴含损失。
- 实验设置
- 骨干网络:DINOv2-Base(最优),辅以ConvNeXt、ViT、ResNet等对比。
- 数据集:ARKitScenes,4492个训练场景、200个测试场景。
- 训练配置:AdamW优化器,学习率2e-6,曲率初始值80(可学习),损失权重比1:1:20。
- 评价指标:Recall@1、PP IoU(场所-场所交并比)、PO IoU(场所-物体交并比)、Graph IoU(图交并比)。
研究结果
- 核心性能:HSG的Recall@1达98.39%,与最优欧氏基线相当;PP IoU为33.17%,Graph IoU为33.51%,超越最优AoMSG变体25.37%,提升8.14%。
- 维度与骨干影响:投影头维度1024时性能最优;DINOv2-Base作为骨干效果最佳,自监督预训练对双曲场景图学习至关重要。
- 消融实验
- 移除蕴含损失:图级指标小幅下降,验证蕴含损失对层级结构的优化作用。
- 固定曲率c=1:PP IoU骤降,层级结构失效,说明可学习曲率的必要性。
- 替换为欧氏损失:图级指标大幅退化,证明双曲表示的核心价值。
- 定性结果:HSG的场所嵌入更靠近双曲原点(更抽象),物体嵌入远离原点,呈现清晰层级分布;欧氏基线无明显层级结构。
- 超参数鲁棒性:对蕴含锥孔径阈值、InfoNCE温度参数(最优0.1)具备良好鲁棒性。
总结与展望
- 研究总结:HSG通过双曲几何学习场景图嵌入,有效捕获场所-物体层级蕴含关系,在保持检索性能的同时大幅提升场景图结构质量,验证了双曲表示在结构化视觉推理中的有效性。
- 局限性
- 双曲投影对投影器维度敏感,过大或过小均影响性能。
- 性能高度依赖底层编码器质量。
- 曲率优化方式较为简单,极端曲率易引发数值不稳定。
- 未来展望
- 采用自适应或多阶段曲率优化,提升几何表达能力与训练稳定性。
- 集成更强基础模型(如DINOv3)与开放词汇检测器(如GroundingDINO),提升泛化性。
- 结合多模态线索与下游任务联合优化,拓展双曲场景图的应用场景。
- 探索时序场景图框架,适配长期、大规模环境理解。