HSG: Hyperbolic Scene Graph

简介: HSG通过双曲几何学习场景图嵌入,有效捕获场所-物体层级蕴含关系,在保持检索性能的同时大幅提升场景图结构质量,验证了双曲表示在结构化视觉推理中的有效性。

作者单位:北京大学计算机学院

研究背景

  1. 场景图是计算机视觉中建模物体及其语义、空间关系的结构化表示,广泛应用于机器人、自主导航、具身智能等3D环境理解任务。
  2. 现有多视图场景图方法(如MSG)在欧氏空间中通过对比学习与注意力关联学习嵌入,虽能实现较好的位置识别精度,但欧氏几何无法显式建模场景中场所-物体的层级蕴含关系,导致学习到的表示结构一致性不足。
  3. 真实场景具备天然层级结构:场所语义蕴含物体,物体间也存在层级语义关系,而欧氏嵌入难以高效表示这类层级与蕴含关系,常需更高维度或导致结构组织劣化。
  4. 双曲空间具备指数级容量增长特性,天然适配层级与蕴含关系建模,已在视觉表征、视觉-语言对齐等任务中验证有效性,但尚未被用于多视图场景图的层级结构学习。

研究目的

  1. 解决欧氏空间场景图嵌入无法有效捕获场所-物体层级蕴含关系的核心问题,提升场景图的结构一致性与质量。
  2. 提出适配场景图建模的双曲表示学习框架,在保持位置检索性能的同时,显著优化场景图层级结构指标。
  3. 设计显式的层级约束损失,强化场所与物体间的蕴含关系建模,兼容现有MSG构建流程。

本文核心贡献

image

  1. 提出双曲场景图(HSG)框架,首次将双曲几何引入多视图场景图学习,利用双曲空间天然特性编码场景层级关系。
  2. 设计双曲空间下的蕴含损失(Entailment Loss),显式约束场所-物体的层级蕴含结构,提升表示的结构一致性。
  3. 通过大量定量与定性实验验证,HSG在保持高位置检索精度的同时,大幅超越欧氏基线方法,在图级指标上实现显著提升。
  4. 提供兼容现有MSG pipeline的双曲嵌入映射方案,可无缝集成到多视图场景图构建流程中,具备良好扩展性。

研究方法

image

  1. 双曲空间基础:采用洛伦兹双曲面模型(Lorentz hyperboloid model),将欧氏嵌入通过指数映射映射到双曲空间,原点表示最抽象概念,越具体实体距离原点越远。
  2. 模型架构:沿用MSG整体架构,将L2归一化超球嵌入与余弦相似度替换为洛伦兹双曲面嵌入与负洛伦兹距离,新增蕴含损失。
  3. 核心技术
    • 双曲对比学习:基于负洛伦兹距离重构InfoNCE损失,分别优化场所级与物体级对比目标。
    • 蕴含损失:采用双曲蕴含锥,定义场所嵌入为锥中心,约束物体嵌入位于锥内,控制层级约束强度。
    • 总损失:总损失=场所对比损失+物体对比损失+λ×蕴含损失。
  4. 实验设置
    • 骨干网络:DINOv2-Base(最优),辅以ConvNeXt、ViT、ResNet等对比。
    • 数据集:ARKitScenes,4492个训练场景、200个测试场景。
    • 训练配置:AdamW优化器,学习率2e-6,曲率初始值80(可学习),损失权重比1:1:20。
    • 评价指标:Recall@1、PP IoU(场所-场所交并比)、PO IoU(场所-物体交并比)、Graph IoU(图交并比)。

研究结果

  1. 核心性能:HSG的Recall@1达98.39%,与最优欧氏基线相当;PP IoU为33.17%,Graph IoU为33.51%,超越最优AoMSG变体25.37%,提升8.14%。
  2. 维度与骨干影响:投影头维度1024时性能最优;DINOv2-Base作为骨干效果最佳,自监督预训练对双曲场景图学习至关重要。
  3. 消融实验
    • 移除蕴含损失:图级指标小幅下降,验证蕴含损失对层级结构的优化作用。
    • 固定曲率c=1:PP IoU骤降,层级结构失效,说明可学习曲率的必要性。
    • 替换为欧氏损失:图级指标大幅退化,证明双曲表示的核心价值。
  4. 定性结果:HSG的场所嵌入更靠近双曲原点(更抽象),物体嵌入远离原点,呈现清晰层级分布;欧氏基线无明显层级结构。
  5. 超参数鲁棒性:对蕴含锥孔径阈值、InfoNCE温度参数(最优0.1)具备良好鲁棒性。

总结与展望

  1. 研究总结:HSG通过双曲几何学习场景图嵌入,有效捕获场所-物体层级蕴含关系,在保持检索性能的同时大幅提升场景图结构质量,验证了双曲表示在结构化视觉推理中的有效性。
  2. 局限性
    • 双曲投影对投影器维度敏感,过大或过小均影响性能。
    • 性能高度依赖底层编码器质量。
    • 曲率优化方式较为简单,极端曲率易引发数值不稳定。
  3. 未来展望
    • 采用自适应或多阶段曲率优化,提升几何表达能力与训练稳定性。
    • 集成更强基础模型(如DINOv3)与开放词汇检测器(如GroundingDINO),提升泛化性。
    • 结合多模态线索与下游任务联合优化,拓展双曲场景图的应用场景。
    • 探索时序场景图框架,适配长期、大规模环境理解。
相关文章
|
20天前
|
人工智能 数据可视化 安全
王炸组合!阿里云 OpenClaw X 飞书 CLI,开启 Agent 基建狂潮!(附带免费使用6个月服务器)
本文详解如何用阿里云Lighthouse一键部署OpenClaw,结合飞书CLI等工具,让AI真正“动手”——自动群发、生成科研日报、整理知识库。核心理念:未来软件应为AI而生,CLI即AI的“手脚”,实现高效、安全、可控的智能自动化。
34881 52
王炸组合!阿里云 OpenClaw X 飞书 CLI,开启 Agent 基建狂潮!(附带免费使用6个月服务器)
|
14天前
|
人工智能 自然语言处理 安全
Claude Code 全攻略:命令大全 + 实战工作流(建议收藏)
本文介绍了Claude Code终端AI助手的使用指南,主要内容包括:1)常用命令如版本查看、项目启动和更新;2)三种工作模式切换及界面说明;3)核心功能指令速查表,包含初始化、压缩对话、清除历史等操作;4)详细解析了/init、/help、/clear、/compact、/memory等关键命令的使用场景和语法。文章通过丰富的界面截图和场景示例,帮助开发者快速掌握如何通过命令行和交互界面高效使用Claude Code进行项目开发,特别强调了CLAUDE.md文件作为项目知识库的核心作用。
13378 40
Claude Code 全攻略:命令大全 + 实战工作流(建议收藏)
|
9天前
|
人工智能 JavaScript Ubuntu
低成本搭建AIP自动化写作系统:Hermes保姆级使用教程,长文和逐步实操贴图
我带着怀疑的态度,深度使用了几天,聚焦微信公众号AIP自动化写作场景,写出来的几篇文章,几乎没有什么修改,至少合乎我本人的意愿,而且排版风格,也越来越完善,同样是起码过得了我自己这一关。 这个其实OpenClaw早可以实现了,但是目前我觉得最大的区别是,Hermes会自主总结提炼,并更新你的写作技能。 相信就冲这一点,就值得一试。 这篇帖子主要就Hermes部署使用,作一个非常详细的介绍,几乎一步一贴图。 关于Hermes,无论你赞成哪种声音,我希望都是你自己动手行动过,发自内心的选择!
2707 27
|
2天前
|
缓存 人工智能 自然语言处理
我对比了8个Claude API中转站,踩了不少坑,总结给你
本文是个人开发者耗时1周实测的8大Claude中转平台横向评测,聚焦Claude Code真实体验:以加权均价(¥/M token)、内部汇率、缓存支持、模型真实性及稳定性为核心指标。
|
1月前
|
人工智能 JSON 机器人
让龙虾成为你的“公众号分身” | 阿里云服务器玩Openclaw
本文带你零成本玩转OpenClaw:学生认证白嫖6个月阿里云服务器,手把手配置飞书机器人、接入免费/高性价比AI模型(NVIDIA/通义),并打造微信公众号“全自动分身”——实时抓热榜、AI选题拆解、一键发布草稿,5分钟完成热点→文章全流程!
45790 158
让龙虾成为你的“公众号分身” | 阿里云服务器玩Openclaw
|
5天前
|
弹性计算 人工智能 自然语言处理
阿里云Qwen3.6全新开源,三步完成专有版部署!
Qwen3.6是阿里云全新MoE架构大模型系列,稀疏激活显著降低推理成本,兼顾顶尖性能与高性价比;支持多规格、FP8量化、原生Agent及100+语言,开箱即用。
|
7天前
|
人工智能 弹性计算 安全
Hermes Agent是什么?怎么部署?超详细实操教程
Hermes Agent 是 Nous Research 于2026年2月开源的自进化AI智能体,支持跨会话持久记忆、自动提炼可复用技能、多平台接入与200+模型切换,真正实现“越用越懂你”。MIT协议,部署灵活,隐私可控。
2026 3