SpatialLM：手机视频秒建3D场景！开源空间认知模型颠覆机器人训练

2025-03-24 501

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

图像搜索，任选一个服务类型 1个月

简介： SpatialLM 是群核科技开源的空间理解多模态模型，能够通过普通手机拍摄的视频重建 3D 场景布局，赋予机器人类似人类的空间认知能力，适用于具身智能训练、自动导航、AR/VR 等领域。

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发感兴趣，我会每日分享大模型与 AI 领域的开源项目和应用，提供运行实例和实用教程，帮助你快速上手AI技术！

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜：蚝油菜花 🥦

🏠 「扫地机器人终于长眼了！开源模型让手机视频秒变3D地图」

大家好，我是蚝油菜花。你是否遇到过这些行业痛点——

👉 训练服务机器人要激光雷达，单设备成本超5万元
👉 虚拟场景建模师通宵加班，1平方米建模收费300元
👉 智能家居系统看不懂户型图，避障全靠撞了再说...

今天带来的 群核科技SpatialLM 正在改写空间智能规则！这个开源多模态模型：

✅ 手机视频转3D场景：普通拍摄即可重建家具布局/通道尺寸
✅ 物理规则内置：自动规避「悬空柜子」「狭窄过道」等反常识设计
✅ 零硬件门槛：告别激光雷达，中小团队也能玩转空间AI

已有团队用它训练餐厅送餐机器人，游戏公司用它批量生成虚拟场景——空间认知的革命，从一段2分钟的手机视频开始！

🚀 快速阅读

SpatialLM 是群核科技开源的空间理解多模态模型，赋予机器人类似人类的空间认知能力。

核心功能：通过普通手机视频生成 3D 场景布局，支持空间认知与推理、低成本数据采集、具身智能训练和虚拟场景生成。
技术原理：基于 MASt3R-SLAM 技术处理视频输入，结合点云重建和大语言模型生成结构化 3D 场景布局，并嵌入物理规则确保场景合理性。

SpatialLM 是什么

spatiallm

SpatialLM 是群核科技开源的空间理解多模态模型，旨在赋予机器人和智能系统类似人类的空间认知能力。通过分析普通手机拍摄的视频，SpatialLM 能够重建出详细的 3D 场景布局，标注出房间结构、家具摆放、通道宽度等信息。

该模型基于大语言模型框架，结合点云重建和结构化表示技术，将视频中的场景转化为结构化的 3D 模型。这种能力为具身智能训练提供了高效的基础框架，使机器人能够在复杂环境中进行导航、避障和任务执行。

SpatialLM 的主要功能

视频生成 3D 场景：SpatialLM 可以将普通手机拍摄的视频转化为详细的 3D 场景布局，重建出场景的三维结构，包括房间布局、家具摆放、通道宽度等信息。
空间认知与推理：模型突破了传统大语言模型对物理世界几何与空间关系的理解局限，赋予机器类似人类的空间认知和解析能力。
低成本数据采集：SpatialLM 不需要借助复杂的传感器或智能穿戴设备，普通手机或相机拍摄的视频即可作为数据输入。
具身智能训练：为具身智能领域提供了基础的空间理解训练框架，支持机器人在复杂环境中的导航、避障和任务执行能力。
虚拟场景生成：可以将现实世界的数据转化为虚拟环境中的丰富场景，支持虚拟现实、增强现实和游戏开发等领域。

SpatialLM 的技术原理

视频输入与点云重建：使用 MASt3R-SLAM 技术处理输入的 RGB 视频，生成高密度的 3D 点云模型。
点云编码与特征提取：点云数据被编码器转化为紧凑的特征向量，保留场景中物体的关键几何和语义信息。
大语言模型生成场景代码：通过大语言模型（LLM），将点云特征转化为结构化的场景代码，包含空间结构的坐标和尺寸。
结构化 3D 布局生成：场景代码被进一步转换为结构化的 3D 场景布局，明确标注出每个物体的三维坐标、尺寸参数和类别信息。
物理规则嵌入：内置物理常识（如“家具不能悬空”“通道宽度≥0.8 米”），确保生成的 3D 场景符合物理规则。

如何运行 SpatialLM

1. 安装

测试环境要求：

Python 3.11
Pytorch 2.4.1
CUDA Version 12.4

# 克隆仓库
git clone https://github.com/manycore-research/SpatialLM.git
cd SpatialLM

# 创建 conda 环境
conda create -n spatiallm python=3.11
conda activate spatiallm
conda install -y nvidia/label/cuda-12.4.0::cuda-toolkit conda-forge::sparsehash

# 安装依赖
pip install poetry && poetry config virtualenvs.create false --local
poetry install
poe install-torchsparse

2. 推理

下载示例点云数据：

huggingface-cli download manycore-research/SpatialLM-Testset pcd/scene0000_00.ply --repo-type dataset --local-dir .

运行推理：

python inference.py --point_cloud pcd/scene0000_00.ply --output scene0000_00.txt --model_path manycore-research/SpatialLM-Llama-1B

3. 可视化

使用 rerun 可视化点云和预测的 3D 布局：

# 转换预测布局为 Rerun 格式
python visualize.py --point_cloud pcd/scene0000_00.ply --layout scene0000_00.txt --save scene0000_00.rrd

# 可视化点云和预测布局
rerun scene0000_00.rrd

4. 评估

下载测试集：

huggingface-cli download manycore-research/SpatialLM-Testset --repo-type dataset --local-dir SpatialLM-Testset

运行评估：

# 在测试集上运行推理
python inference.py --point_cloud SpatialLM-Testset/pcd --output SpatialLM-Testset/pred --model_path manycore-research/SpatialLM-Llama-1B

# 评估预测布局
python eval.py --metadata SpatialLM-Testset/test.csv --gt_dir SpatialLM-Testset/layout --pred_dir SpatialLM-Testset/pred --label_mapping SpatialLM-Testset/benchmark_categories.tsv