蚂蚁正式开源 LingBot-Depth，基于掩码深度建模的新一代空间感知模型-阿里云开发者社区

蚂蚁正式开源 LingBot-Depth，基于掩码深度建模的新一代空间感知模型

2026-01-28 817

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 蚂蚁灵波科技开源LingBot-Depth空间感知模型，首创“掩码深度建模”技术，显著提升消费级双目相机对透明、反光物体的深度补全能力。实测精度与覆盖率超越顶级工业相机，支持机器人稳定抓取、4D场景理解，已轻量化部署。

今天，蚂蚁灵波科技正式开源了 LingBot-Depth 空间感知模型。

不同于数字世界，具身智能的落地高度依赖物理空间信息，空间智能是其在现实场景落地应用的核心关键，而视觉维度下支撑空间智能的重要桥梁正是距离与尺度（Metric Depth）。基于这一核心需求，空间感知模型 LingBot-Depth 应运而生。

LingBot-Depth 是一种面向真实场景的深度补全模型，依托奥比中光 Gemini 330 系列双目 3D 相机进行 RGB-Depth 数据采集与效果验证，并基于深度引擎芯片直出的深度数据进行训练与优化，旨在将不完整且受噪声干扰的深度传感器数据转化为高质量、具备真实尺度的三维测量结果，提升环境深度感知与三维空间理解能力，为机器人、自动驾驶汽车等智能终端赋予更精准、更可靠的三维视觉。

实验结果表明，LingBot-Depth模型在深度精度与像素覆盖率两项核心指标上均超越业界顶级工业级深度相机。在 NYUv2、ETH3D 等多个基准测试中，LingBot-Depth 在深度补全、单目深度估计及双目匹配任务上均达到当前最优水平，并在无需显式时序建模的情况下保持视频级时间一致性。LingBot-Depth 模型也已通过奥比中光深度视觉实验室的专业认证，在精度、稳定性及复杂场景适应性方面均达到行业领先水平。

注解：在最具挑战的稀疏深度补全任务中，LingBot-Depth 性能整体优于现有多种主流模型。（图中数值越低代表性能越好。）

下游任务验证进一步表明，模型能够在 RGB 与深度两种模态之间学习到对齐的潜在空间表征，从而实现对透明及反光物体的稳定机器人抓取。

创空间体验

开源地址：

GitHub：https://github.com/Robbyant/lingbot-depth

ModelScope：https://modelscope.cn/collections/Robbyant/LingBot-Depth

Website：https://technology.robbyant.com/lingbot-depth

Tech Report：https://github.com/Robbyant/lingbot-depth/blob/main/tech-report.pdf

技术架构：创新的掩码深度建模范式

在家庭和工业环境中，玻璃器皿、镜面、不锈钢设备等透明和反光物体物体十分常见，但却是机器空间感知的难点。传统深度相机受制于光学物理特性，在面对透明或高反光材质时，往往无法接收有效回波。针对这一行业共性难题，灵波科技研发了“掩码深度建模”（Masked Depth Modeling，MDM）技术。训练过程中，使用海量 RGB–深度图像对，但刻意遮挡其中一部分深度区域，让模型仅根据 RGB 图像去预测缺失的深度值。随着训练进行，模型逐渐学会建立“外观—几何”之间的对应关系，也就是从“物体看起来像什么”推断“它大概有多远”。

在涵盖家庭、办公环境、健身房及户外场景的上千万张图像数据上完成训练后，当深度相机传回的数据出现缺失或异常时，LingBot-Depth 模型已能够融合彩色图像（RGB）中的纹理、轮廓及环境上下文信息，对缺失区域进行推断与补全，输出更完整、致密、边缘更清晰的三维深度图。

核心亮点

精准且稳定的相机深度感知

LingBot-Depth 在传统深度传感器易失效的复杂场景中，仍可输出具备真实尺度的高精度深度结果，包括透明物体、玻璃表面以及高反光材质等极具挑战性的环境。不同于依赖硬件改进的方案，本模型从视觉理解层面弥补传感器缺陷，实现对真实三维结构的可靠恢复。

除单帧精度优势外，LingBot-Depth 还表现出优异的时间一致性。在无需显式时序建模的情况下，模型即可为视频输入生成稳定、连贯的深度序列，有效避免闪烁与结构跳变问题，为机器人操作、AR/VR 以及动态场景感知等应用提供可靠的连续空间理解能力。

卓越的 3D 和 4D 环境感知能力

LingBot-Depth 为下游空间感知任务提供了坚实而通用的基础能力。通过将含噪且不完整的传感器深度优化为干净、稠密且具备真实尺度的三维测量结果，模型显著提升了多种高层视觉任务的稳定性与精度。具体而言，LingBot-Depth 支持：更加准确的结构化室内场景建图，并有效提升相机位姿与运动轨迹估计的精度；面向机器人学习的可靠 4D 点跟踪能力，在统一的真实尺度空间中同时刻画静态场景几何结构与动态物体运动。这使得系统能够在复杂真实环境中建立一致、连续且可用于决策与交互的空间理解表征。

灵巧抓取操作适用于透明与反光物体

通过在统一潜在空间中联合对齐 RGB 外观信息与深度几何结构，LingBot-Depth 使机器人在以往难以处理的复杂场景中实现稳定可靠的操作能力。基于模型优化后的高质量深度结果及跨模态对齐特征，我们进一步训练了一种基于扩散模型的抓取位姿生成策略，在透明杯、反光金属容器等具有挑战性的物体上取得了较高的抓取成功率。在真实机器人测试中，在透明储物盒等传统传感器难以处理的场景中，LingBot-Depth 通过生成合理的深度估计，成功实现了 50% 的抓握率，突破了技术瓶颈。

测试对象	抓握尝试次数	LingBot-Depth 成功率	原始深度成功率
不锈钢杯	20	85% (17/20)	65% (13/20)
透明杯	20	80% (16/20)	60% (12/20)
玩具车	20	80% (16/20)	45% (9/20)
透明储物盒	20	50% (10/20)	0% (无法抓握)

深度demo5.mp4

从实验室到落地应用：显著提升消费级深度相机对高难物体的处理处理

LingBot-Depth 展现出与现有硬件设备的良好适配性。在不更换更高成本传感器的情况下，模型可提升可靠性并降低系统部署门槛。LingBot-Depth 模型依托奥比中光 Gemini330 系列双目 3D 相机进行效果测试，结果显示：面对透明玻璃、高反射镜面、强逆光以及复杂曲面等极具挑战性的光学场景，搭载 LingBot-Depth 后输出的深度图变得平滑、完整，且物体的轮廓边缘非常锐利，效果优于业内领先 3D 视觉公司 Stereolabs 推出的 ZED Stereo Depth 深度相机。