SpatialLM:手机视频秒建3D场景!开源空间认知模型颠覆机器人训练

本文涉及的产品
图像搜索,任选一个服务类型 1个月
简介: SpatialLM 是群核科技开源的空间理解多模态模型,能够通过普通手机拍摄的视频重建 3D 场景布局,赋予机器人类似人类的空间认知能力,适用于具身智能训练、自动导航、AR/VR 等领域。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦


🏠 「扫地机器人终于长眼了!开源模型让手机视频秒变3D地图」

大家好,我是蚝油菜花。你是否遇到过这些行业痛点——

  • 👉 训练服务机器人要激光雷达,单设备成本超5万元
  • 👉 虚拟场景建模师通宵加班,1平方米建模收费300元
  • 👉 智能家居系统看不懂户型图,避障全靠撞了再说...

今天带来的 群核科技SpatialLM 正在改写空间智能规则!这个开源多模态模型:

  • 手机视频转3D场景:普通拍摄即可重建家具布局/通道尺寸
  • 物理规则内置:自动规避「悬空柜子」「狭窄过道」等反常识设计
  • 零硬件门槛:告别激光雷达,中小团队也能玩转空间AI

已有团队用它训练餐厅送餐机器人,游戏公司用它批量生成虚拟场景——空间认知的革命,从一段2分钟的手机视频开始!

🚀 快速阅读

SpatialLM 是群核科技开源的空间理解多模态模型,赋予机器人类似人类的空间认知能力。

  1. 核心功能:通过普通手机视频生成 3D 场景布局,支持空间认知与推理、低成本数据采集、具身智能训练和虚拟场景生成。
  2. 技术原理:基于 MASt3R-SLAM 技术处理视频输入,结合点云重建和大语言模型生成结构化 3D 场景布局,并嵌入物理规则确保场景合理性。

SpatialLM 是什么

spatiallm

SpatialLM 是群核科技开源的空间理解多模态模型,旨在赋予机器人和智能系统类似人类的空间认知能力。通过分析普通手机拍摄的视频,SpatialLM 能够重建出详细的 3D 场景布局,标注出房间结构、家具摆放、通道宽度等信息。

该模型基于大语言模型框架,结合点云重建和结构化表示技术,将视频中的场景转化为结构化的 3D 模型。这种能力为具身智能训练提供了高效的基础框架,使机器人能够在复杂环境中进行导航、避障和任务执行。

SpatialLM 的主要功能

  • 视频生成 3D 场景:SpatialLM 可以将普通手机拍摄的视频转化为详细的 3D 场景布局,重建出场景的三维结构,包括房间布局、家具摆放、通道宽度等信息。
  • 空间认知与推理:模型突破了传统大语言模型对物理世界几何与空间关系的理解局限,赋予机器类似人类的空间认知和解析能力。
  • 低成本数据采集:SpatialLM 不需要借助复杂的传感器或智能穿戴设备,普通手机或相机拍摄的视频即可作为数据输入。
  • 具身智能训练:为具身智能领域提供了基础的空间理解训练框架,支持机器人在复杂环境中的导航、避障和任务执行能力。
  • 虚拟场景生成:可以将现实世界的数据转化为虚拟环境中的丰富场景,支持虚拟现实、增强现实和游戏开发等领域。

SpatialLM 的技术原理

  • 视频输入与点云重建:使用 MASt3R-SLAM 技术处理输入的 RGB 视频,生成高密度的 3D 点云模型。
  • 点云编码与特征提取:点云数据被编码器转化为紧凑的特征向量,保留场景中物体的关键几何和语义信息。
  • 大语言模型生成场景代码:通过大语言模型(LLM),将点云特征转化为结构化的场景代码,包含空间结构的坐标和尺寸。
  • 结构化 3D 布局生成:场景代码被进一步转换为结构化的 3D 场景布局,明确标注出每个物体的三维坐标、尺寸参数和类别信息。
  • 物理规则嵌入:内置物理常识(如“家具不能悬空”“通道宽度≥0.8 米”),确保生成的 3D 场景符合物理规则。

如何运行 SpatialLM

1. 安装

测试环境要求:

  • Python 3.11
  • Pytorch 2.4.1
  • CUDA Version 12.4
# 克隆仓库
git clone https://github.com/manycore-research/SpatialLM.git
cd SpatialLM

# 创建 conda 环境
conda create -n spatiallm python=3.11
conda activate spatiallm
conda install -y nvidia/label/cuda-12.4.0::cuda-toolkit conda-forge::sparsehash

# 安装依赖
pip install poetry && poetry config virtualenvs.create false --local
poetry install
poe install-torchsparse

2. 推理

下载示例点云数据:

huggingface-cli download manycore-research/SpatialLM-Testset pcd/scene0000_00.ply --repo-type dataset --local-dir .

运行推理:

python inference.py --point_cloud pcd/scene0000_00.ply --output scene0000_00.txt --model_path manycore-research/SpatialLM-Llama-1B

3. 可视化

使用 rerun 可视化点云和预测的 3D 布局:

# 转换预测布局为 Rerun 格式
python visualize.py --point_cloud pcd/scene0000_00.ply --layout scene0000_00.txt --save scene0000_00.rrd

# 可视化点云和预测布局
rerun scene0000_00.rrd

4. 评估

下载测试集:

huggingface-cli download manycore-research/SpatialLM-Testset --repo-type dataset --local-dir SpatialLM-Testset

运行评估:

# 在测试集上运行推理
python inference.py --point_cloud SpatialLM-Testset/pcd --output SpatialLM-Testset/pred --model_path manycore-research/SpatialLM-Llama-1B

# 评估预测布局
python eval.py --metadata SpatialLM-Testset/test.csv --gt_dir SpatialLM-Testset/layout --pred_dir SpatialLM-Testset/pred --label_mapping SpatialLM-Testset/benchmark_categories.tsv

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦

相关文章
|
5月前
|
传感器 人工智能 算法
傅利叶开源人形机器人,提供完整的开源套件!Fourier N1:具备23个自由度和3.5米/秒运动能力
傅利叶推出的开源人形机器人N1搭载自研动力系统与多模态交互模块,具备23个自由度和3.5米/秒运动能力,提供完整开源套件助力开发者验证算法。
408 3
傅利叶开源人形机器人,提供完整的开源套件!Fourier N1:具备23个自由度和3.5米/秒运动能力
|
6月前
|
机器学习/深度学习 人工智能 算法
MIDI-3D:单图秒变3D场景!40秒生成360度空间,多实例扩散黑科技
MIDI-3D 是一种先进的 AI 3D 场景生成技术,能够将单张图像快速转化为高保真度的 360 度 3D 场景,具有强大的全局感知能力和细节表现力,适用于游戏开发、虚拟现实、室内设计等多个领域。
216 18
MIDI-3D:单图秒变3D场景!40秒生成360度空间,多实例扩散黑科技
|
7月前
|
机器学习/深度学习 存储 人工智能
MNN-LLM App:在手机上离线运行大模型,阿里巴巴开源基于 MNN-LLM 框架开发的手机 AI 助手应用
MNN-LLM App 是阿里巴巴基于 MNN-LLM 框架开发的 Android 应用,支持多模态交互、多种主流模型选择、离线运行及性能优化。
4985 22
MNN-LLM App:在手机上离线运行大模型,阿里巴巴开源基于 MNN-LLM 框架开发的手机 AI 助手应用
|
7月前
|
机器学习/深度学习 人工智能 算法
ToddlerBot:告别百万经费!6000刀就能造人形机器人,斯坦福开源全套方案普及机器人研究
ToddlerBot 是斯坦福大学推出的低成本开源人形机器人平台,支持强化学习、模仿学习和零样本模拟到现实转移,适用于运动操作研究和多场景应用。
630 3
ToddlerBot:告别百万经费!6000刀就能造人形机器人,斯坦福开源全套方案普及机器人研究
|
8月前
|
Web App开发 机器学习/深度学习 人工智能
Weebo:支持多语言和实时语音交流的开源 AI 聊天机器人,回复具备语调、情感的语音
Weebo 是一款基于 Whisper Small、Llama 3.2 和 Kokoro-82M 技术的 AI 语音聊天机器人,支持实时语音交互和多语言对话,适用于个人助理、娱乐互动和教育辅导等多种场景。
724 17
Weebo:支持多语言和实时语音交流的开源 AI 聊天机器人,回复具备语调、情感的语音
|
8月前
|
数据采集 人工智能 算法
Seer:上海 AI Lab 与北大联合开源端到端操作模型,结合视觉预测与动作执行信息,使机器人任务提升成功率43%
Seer是由上海AI实验室与北大等机构联合推出的端到端操作模型,结合视觉预测与动作执行,显著提升机器人任务成功率。
285 20
Seer:上海 AI Lab 与北大联合开源端到端操作模型,结合视觉预测与动作执行信息,使机器人任务提升成功率43%
|
7月前
|
人工智能 机器人 开发工具
LazyLLM:还在为AI应用开发掉头发?商汤开源智能体低代码开发工具,三行代码部署聊天机器人
LazyLLM 是一个低代码开发平台,可帮助开发者快速构建多智能体大语言模型应用,支持一键部署、跨平台操作和多种复杂功能。
270 3
|
9月前
|
传感器 人工智能 自然语言处理
RDT:清华开源全球最大的双臂机器人操作任务扩散基础模型、代码与训练集,基于模仿能力机器人能够自主完成复杂任务
RDT(Robotics Diffusion Transformer)是由清华大学AI研究院TSAIL团队推出的全球最大的双臂机器人操作任务扩散基础模型。RDT具备十亿参数量,能够在无需人类操控的情况下自主完成复杂任务,如调酒和遛狗。
607 22
RDT:清华开源全球最大的双臂机器人操作任务扩散基础模型、代码与训练集,基于模仿能力机器人能够自主完成复杂任务
|
8月前
|
数据采集 传感器 人工智能
AgiBot World:智元机器人开源百万真机数据集,数据集涵盖了日常生活所需的绝大多数动作
AgiBot World 是智元机器人开源的百万真机数据集,旨在推动具身智能的发展,覆盖家居、餐饮、工业等五大核心场景。
617 9
AgiBot World:智元机器人开源百万真机数据集,数据集涵盖了日常生活所需的绝大多数动作
|
存储 编解码 安全
带三维重建和还原的PACS源码 医学影像PACS系统源码
带三维重建和还原的PACS源码 医学影像PACS系统源码 PACS及影像存取与传输系统”( Picture Archiving and Communication System),为以实现医学影像数字化存储、诊断为核心任务,从医学影像设备(如CT、CR、DR、MR、DSA、RF等)获取影像,集中存储、综合管理医学影像及病人相关信息,建立数字化工作流程。系统可实现检查预约、病人信息登记、计算机阅片、电子报告书写、胶片打印、数据备份等一系列满足影像科室日常工作的功能,并且由于影像数字化存储,用户可利用影像处理与测量技术辅助诊断、方便快捷地查找资料或利用网络将资料传输至临床科室,还可与医院HIS、L
213 0

热门文章

最新文章