GR00T N1:全球首个开源人形机器人基座模型!双系统架构解锁通用操作

本文涉及的产品
图像搜索,任选一个服务类型 1个月
简介: GR00T N1 是英伟达推出的全球首个开源人形机器人基础模型,基于多模态输入和双系统架构,能够执行复杂操作任务,适用于物流、制造、零售等多个领域。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦


🤖 "人形机器人开发者炸锅了!英伟达开源核弹级模型:1个大脑适配所有机器人"

大家好,我是蚝油菜花。当波士顿动力还在秀后空翻时,英伟达已经用AI重新定义人形机器人开发范式!

你是否经历过这些行业之痛:

  • 🦾 不同人形机器人的控制代码要重写80%
  • 🧠 让机器人理解"把咖啡杯放到第三层架子"要标注十万级数据
  • ⏳ 复杂任务规划代码跑起来像树懒开会...

今天重磅解析的 GR00T N1 ,正在引发人形机器人开发革命!这个全球首个开源机器人基础模型,用三大黑科技重构行业规则:

  • 多模态大脑:语言指令+视觉感知秒级生成动作序列
  • 双系统架构:视觉语言模型做战略规划,扩散transformer搞战术执行
  • 数据炼金术:融合真实数据+合成数据+油管视频,训练效率提升10倍

已有开发者用它在Fourier GR-1上实现「隔空取物」,接下来我们将手把手解析如何用开源版本打造你的全能机器人管家!

🚀 快速阅读

GR00T N1 是英伟达推出的全球首个开源人形机器人基础模型。

  1. 核心功能:支持多模态输入处理、复杂任务推理与规划、跨机器人形态适应性。
  2. 技术原理:基于双系统架构,结合视觉-语言模型和扩散变换器,实现高效任务执行。

GR00T N1 是什么

Isaac-GR00T-model-architecture

GR00T N1 是英伟达推出的全球首个开源基础模型,专为通用人形机器人设计。它基于多模态输入(如语言和图像)实现多样化环境中的操作任务。GR00T N1 基于大规模人形机器人数据集训练,结合真实数据、合成数据和互联网视频数据,用后训练适应特定机器人形态、任务和环境。

GR00T N1 基于双系统架构,视觉-语言模型负责推理和规划,扩散变换器则生成精确动作。GR00T N1 在模拟和真实世界测试中表现出色,在复杂多步任务和精准操作中优势明显,为材料处理、包装和检查等应用提供高效解决方案。

GR00T N1 的主要功能

  • 通用操作任务执行:在多样化环境中执行各种操作任务,例如抓取、搬运、双臂协调操作等。
  • 多模态输入处理:同时处理语言指令和视觉图像,机器人根据自然语言指令执行复杂的操作任务。
  • 跨机器人形态适应性:适应不同类型的机器人平台(如 Fourier GR-1 和 1X Neo),实现通用性。
  • 复杂任务推理与规划:执行需要持续上下文理解和多种技能整合的复杂多步任务。
  • 高效数据利用与训练:结合互联网规模数据、合成数据和真实机器人数据进行预训练,显著提升性能和泛化能力,减少对大规模标注数据的依赖。

GR00T N1 的技术原理

  • 双系统架构
    • 视觉-语言模型(System 2):基于 NVIDIA-Eagle 和 SmolLM-1.7B 构建,负责用视觉和语言指令理解环境,进行推理和规划,输出动作计划。
    • 扩散变换器(System 1):作为动作模型,将视觉-语言模型的计划转化为精确的连续动作,控制机器人运动。
  • 数据策略:预训练数据包括互联网视频数据(提供人类动作模式和任务语义)、合成数据(基于 NVIDIA Omniverse 平台生成,补充运动控制信号)和真实机器人数据(遥操作收集,确保模型适应真实环境)。无监督学习从大规模未标注的人类视频数据中提取运动模式,提升机器人学习效率。
  • 模型训练与优化:在大规模数据上进行预训练,学习通用的运动和操作模式。针对特定机器人平台、任务和环境进行微调,进一步提升模型的适应性和性能。在推理阶段,减少扩散步骤等方式优化计算效率,确保实时性。

如何运行 GR00T N1

1. 安装指南

克隆仓库并创建 Conda 环境:

git clone https://github.com/NVIDIA/Isaac-GR00T
cd Isaac-GR00T
conda create -n gr00t python=3.10
conda activate gr00t
pip install --upgrade setuptools
pip install -e .
pip install --no-build-isolation flash-attn==2.7.1.post4

2. 数据格式与加载

数据需按照 LeRobot 兼容格式组织,具体结构如下:

.
├─meta 
│ ├─episodes.jsonl
│ ├─modality.json
│ ├─info.json
│ └─tasks.jsonl
├─videos
│ └─chunk-000
│   └─observation.images.ego_view
│     └─episode_000001.mp4
│     └─episode_000000.mp4
└─data
  └─chunk-000
    ├─episode_000001.parquet
    └─episode_000000.parquet

3. 推理

加载预训练模型并运行推理:

from gr00t.model.policy import Gr00tPolicy
from gr00t.data.embodiment_tags import EmbodimentTag

policy = Gr00tPolicy(
    model_path="nvidia/GR00T-N1-2B",
    modality_config=modality_config,
    modality_transform=transforms,
    embodiment_tag=EmbodimentTag.GR1,
    device="cuda"
)

action_chunk = policy.get_action(dataset[0])

4. 微调

运行微调脚本:

python scripts/gr00t_finetune.py --dataset-path ./demo_data/robot_sim.PickNPlace --num-gpus 1

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦

相关文章
|
17天前
|
机器学习/深度学习 人工智能 文件存储
Llama Nemotron:英伟达开源基于Llama架构优化的推理模型,253B参数持平DeepSeek R1!
NVIDIA推出的Llama Nemotron系列推理模型,基于Llama架构优化,包含Nano/Super/Ultra三款,在数学推理、编程和工具调用等任务中展现卓越性能。
56 5
Llama Nemotron:英伟达开源基于Llama架构优化的推理模型,253B参数持平DeepSeek R1!
|
10天前
|
人工智能 算法 网络安全
基于PAI+专属网关+私网连接:构建全链路Deepseek云上私有化部署与模型调用架构
本文介绍了阿里云通过PAI+专属网关+私网连接方案,帮助企业实现DeepSeek-R1模型的私有化部署。方案解决了算力成本高、资源紧张、部署复杂和数据安全等问题,支持全链路零公网暴露及全球低延迟算力网络,最终实现技术可控、成本优化与安全可靠的AI部署路径,满足企业全球化业务需求。
|
27天前
|
人工智能 编解码 机器人
RoboBrain:智源开源具身大脑模型,32B参数实现跨机器人协作
智源研究院推出的开源具身大脑模型RoboBrain,通过多阶段训练策略和模块化设计,在任务规划、可操作区域感知和轨迹预测等机器人核心能力上实现突破性进展。
121 46
RoboBrain:智源开源具身大脑模型,32B参数实现跨机器人协作
|
12天前
|
机器学习/深度学习 人工智能 算法
超越 DeepSeek-R1!Seed-Thinking-v1.5:字节跳动开源MoE架构推理模型,200B总参数仅激活20B,推理效率提升5倍
字节跳动推出的200B参数混合专家模型,在AIME/Codeforces/GPQA等基准测试中实现多项突破,采用强化学习框架与流式推理系统,支持7大领域复杂推理任务。
136 13
超越 DeepSeek-R1!Seed-Thinking-v1.5:字节跳动开源MoE架构推理模型,200B总参数仅激活20B,推理效率提升5倍
|
16天前
|
传感器 人工智能 算法
傅利叶开源人形机器人,提供完整的开源套件!Fourier N1:具备23个自由度和3.5米/秒运动能力
傅利叶推出的开源人形机器人N1搭载自研动力系统与多模态交互模块,具备23个自由度和3.5米/秒运动能力,提供完整开源套件助力开发者验证算法。
152 3
傅利叶开源人形机器人,提供完整的开源套件!Fourier N1:具备23个自由度和3.5米/秒运动能力
|
5天前
|
存储 人工智能 自然语言处理
Cursor这类编程Agent软件的模型架构与工作流程
编程Agent的核心是一个强大的大语言模型,负责理解用户意图并生成相应的代码和解决方案。这些模型通过海量文本和代码数据的训练,掌握了广泛的编程知识和语言理解能力。
46 1
|
30天前
|
人工智能 测试技术 语音技术
阿里开源多模态全能王 Qwen2.5-Omni:创新Thinker-Talker架构,全面超越Gemini-1.5-Pro等竞品
阿里开源Qwen2.5-Omni多模态大模型,支持文本、图像、音频和视频输入,具备实时语音合成与流式响应能力,在OmniBench等基准测试中全面超越Gemini-1.5-Pro等竞品,提供免费商用授权。
553 7
阿里开源多模态全能王 Qwen2.5-Omni:创新Thinker-Talker架构,全面超越Gemini-1.5-Pro等竞品
|
15天前
|
人工智能 JavaScript 开发工具
MCP详解:背景、架构与应用
模型上下文协议(MCP)是由Anthropic提出的开源标准,旨在解决大语言模型与外部数据源和工具集成的难题。作为AI领域的“USB-C接口”,MCP通过标准化、双向通信通道连接模型与外部服务,支持资源访问、工具调用及提示模板交互。其架构基于客户端-服务器模型,提供Python、TypeScript等多语言SDK,方便开发者快速构建服务。MCP已广泛应用于文件系统、数据库、网页浏览等领域,并被阿里云百炼平台引入,助力快速搭建智能助手。未来,MCP有望成为连接大模型与现实世界的通用标准,推动AI生态繁荣发展。
423 8
|
1月前
|
数据采集 人工智能 数据可视化
SpatialLM:手机视频秒建3D场景!开源空间认知模型颠覆机器人训练
SpatialLM 是群核科技开源的空间理解多模态模型,能够通过普通手机拍摄的视频重建 3D 场景布局,赋予机器人类似人类的空间认知能力,适用于具身智能训练、自动导航、AR/VR 等领域。
123 5
SpatialLM:手机视频秒建3D场景!开源空间认知模型颠覆机器人训练
|
13天前
|
机器学习/深度学习 编解码 人工智能
Kimi开源MoE架构多模态推理模型,小激活参数,大能量!
最近Moonshot AI推出了 Kimi-VL,这是一个高效的开源混合专家(MoE)视觉-语言模型(VLM),它提供了先进的多模态推理、长上下文理解以及强大的代理能力——所有这些功能都只需激活其语言解码器中的2.8B参数(Kimi-VL-A3B)。
71 1

热门文章

最新文章

下一篇
oss创建bucket