SpatialVLA:上海AI Lab联合上科大推出的空间具身通用操作模型

本文涉及的产品
图像搜索,任选一个服务类型 1个月
简介: SpatialVLA 是由上海 AI Lab、中国电信人工智能研究院和上海科技大学等机构共同推出的新型空间具身通用操作模型,基于百万真实数据预训练,赋予机器人强大的3D空间理解能力,支持跨平台泛化控制。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦


🎯 “机器人新革命!SpatialVLA 让 AI 轻松掌控 3D 空间,零样本泛化能力惊艳全场!”

大家好,我是蚝油菜花。你是否也遇到过——

  • 👉 机器人在复杂环境中难以精准操作,任务失败率高?
  • 👉 不同机器人平台需要重新训练模型,耗时耗力?
  • 👉 3D 空间理解能力不足,导致抓取、放置等任务难以完成?

今天揭秘的 SpatialVLA,用 AI 彻底颠覆机器人操作方式!这个由上海 AI Lab、中国电信人工智能研究院和上海科技大学等机构联合推出的新型空间具身通用操作模型,基于百万真实数据预训练,赋予机器人强大的 3D 空间理解能力,支持跨平台泛化控制。无论是工业制造、物流仓储,还是医疗辅助,SpatialVLA 都能轻松应对复杂环境和多任务场景。接下来,我们将深入解析它的核心功能和技术原理,带你一探究竟!

🚀 快速阅读

SpatialVLA 是一款基于百万真实数据预训练的空间具身通用操作模型。

  1. 核心功能:支持零样本泛化控制、高效适应新场景、强大的空间理解能力、跨机器人平台的通用性以及快速推理与高效动作生成。
  2. 技术原理:采用 Ego3D 位置编码、自适应动作网格、空间嵌入适应等技术,实现跨平台的泛化控制和高效微调。

SpatialVLA 是什么

SpatialVLA

SpatialVLA 是上海 AI Lab、中国电信人工智能研究院和上海科技大学等机构共同推出的新型空间具身通用操作模型。它基于百万真实数据预训练,为机器人赋予通用的 3D 空间理解能力,支持跨平台的泛化控制。

SpatialVLA 通过 Ego3D 位置编码将 3D 空间信息与语义特征融合,用自适应动作网格将连续动作离散化,实现跨机器人平台的泛化控制。该模型在大规模真实机器人数据上预训练,展现出强大的零样本泛化能力和空间理解能力,在复杂环境和多任务场景中表现突出。

SpatialVLA 的主要功能

  • 零样本泛化控制:在未见过的机器人任务和环境中直接执行操作,无需额外训练。
  • 高效适应新场景:用少量数据微调,快速适应新的机器人平台或任务。
  • 强大的空间理解能力:理解复杂的 3D 空间布局,执行精准的操作任务,如物体定位、抓取和放置。
  • 跨机器人平台的通用性:支持多种机器人形态和配置,实现通用的操作策略。
  • 快速推理与高效动作生成:基于离散化动作空间,提高模型推理速度,适合实时机器人控制。

SpatialVLA 的技术原理

  • Ego3D 位置编码:将深度信息与 2D 语义特征结合,构建以机器人为中心的 3D 坐标系。消除对特定机器人-相机校准的需求,让模型感知 3D 场景结构适应不同机器人平台。
  • 自适应动作网格:将连续的机器人动作离散化为自适应网格,基于数据分布划分动作空间。不同机器人的动作用网格对齐,实现跨平台的动作泛化和迁移。
  • 空间嵌入适应:在微调阶段,根据新机器人的动作分布重新划分网格,调整空间嵌入。提供灵活且高效的机器人特定后训练方法,加速模型适应新环境。
  • 预训练与微调:在大规模真实机器人数据上进行预训练,学习通用的操作策略。在新任务或机器人平台上进行微调,进一步优化模型性能。

如何运行 SpatialVLA

🚀 Quick Start

SpatialVLA 依赖于 HuggingFace Transformers,部署非常简单。如果你的环境支持 transformers >= 4.47.0,可以直接使用以下代码加载模型并进行推理(需要 8.5GB 的 GPU 内存)。

import torch
from PIL import Image
from transformers import AutoModel, AutoProcessor

model_name_or_path="IPEC-COMMUNITY/spatialvla-4b-224-pt"
processor = AutoProcessor.from_pretrained(model_name_or_path, trust_remote_code=True)
model = AutoModel.from_pretrained(model_name_or_path, trust_remote_code=True, torch_dtype=torch.bfloat16).eval().cuda()

image = Image.open("example.png").convert("RGB")
prompt = "What action should the robot take to pick the cup?"
inputs = processor(images=[image], text=prompt, return_tensors="pt")
generation_outputs = model.predict_action(inputs)

actions = processor.decode_actions(generation_outputs, unnorm_key="bridge_orig/1.0.0")
print(actions)

🌟 预训练与微调

预训练

SpatialVLA 在 64 个 A100 GPU 上使用 110 万条真实机器人数据进行了约 10 天的预训练,批量大小为 2048。你可以使用以下命令从头开始预训练模型:

# torchrun
bash scripts/spatialvla_4b_pretrain/torchrun_pretrain.sh

# 或在 slurm 集群中
bash scripts/spatialvla_4b_pretrain/slurm_pretrain.sh

微调

大多数微调实验使用 LoRA 在 4 或 8 个 A100 GPU 上进行。你可以使用以下脚本进行全参数或 LoRA 微调:

# 全参数微调
bash scripts/spatialvla_4b_finetune/finetune_full.sh

# LoRA 微调
bash scripts/spatialvla_4b_finetune/finetune_lora.sh

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦

相关文章
|
22天前
|
云安全 人工智能 自然语言处理
阿里云x硅基流动:AI安全护栏助力构建可信模型生态
阿里云AI安全护栏:大模型的“智能过滤系统”。
|
2月前
|
人工智能 Java API
AI 超级智能体全栈项目阶段一:AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式(SDK/HTTP/SpringAI/langchain4j)
本文介绍AI大模型的核心概念、分类及开发者学习路径,重点讲解如何选择与接入大模型。项目基于Spring Boot,使用阿里云灵积模型(Qwen-Plus),对比SDK、HTTP、Spring AI和LangChain4j四种接入方式,助力开发者高效构建AI应用。
1063 122
AI 超级智能体全栈项目阶段一:AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式(SDK/HTTP/SpringAI/langchain4j)
|
19天前
|
人工智能 搜索推荐 程序员
当AI学会“跨界思考”:多模态模型如何重塑人工智能
当AI学会“跨界思考”:多模态模型如何重塑人工智能
209 120
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
416 13
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
|
2月前
|
人工智能 负载均衡 API
Vercel 发布 AI Gateway 神器!可一键访问数百个模型,助力零门槛开发 AI 应用
大家好,我是Immerse,独立开发者、AGI实践者。分享编程、AI干货、开源项目与个人思考。关注公众号“沉浸式趣谈”,获取独家内容。Vercel新推出的AI Gateway,统一多模型API,支持自动切换、负载均衡与零加价调用,让AI开发更高效稳定。一行代码切换模型,告别接口烦恼!
256 1
Vercel 发布 AI Gateway 神器!可一键访问数百个模型,助力零门槛开发 AI 应用
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
如何让AI更“聪明”?VLM模型的优化策略与测试方法全解析​
本文系统解析视觉语言模型(VLM)的核心机制、推理优化、评测方法与挑战。涵盖多模态对齐、KV Cache优化、性能测试及主流基准,助你全面掌握VLM技术前沿。建议点赞收藏,深入学习。
468 8
|
双11 人工智能
双11 AI LAB“全息直播2+2
#看直播,享特惠# 喜迎双十一,阿里云AI LAB特别推出“全息直播2+2”活动: 不仅有最新鲜的人工智能界黑科技, 还有产品及解决方案特惠等你来拿! 全息无限,智享未来!
2495 0
双11 AI LAB“全息直播2+2
|
15天前
|
人工智能 运维 Kubernetes
Serverless 应用引擎 SAE:为传统应用托底,为 AI 创新加速
在容器技术持续演进与 AI 全面爆发的当下,企业既要稳健托管传统业务,又要高效落地 AI 创新,如何在复杂的基础设施与频繁的版本变化中保持敏捷、稳定与低成本,成了所有技术团队的共同挑战。阿里云 Serverless 应用引擎(SAE)正是为应对这一时代挑战而生的破局者,SAE 以“免运维、强稳定、极致降本”为核心,通过一站式的应用级托管能力,同时支撑传统应用与 AI 应用,让企业把更多精力投入到业务创新。
226 28
|
29天前
|
消息中间件 人工智能 安全
云原生进化论:加速构建 AI 应用
本文将和大家分享过去一年在支持企业构建 AI 应用过程的一些实践和思考。
304 21

热门文章

最新文章