智源RoboCOIN重磅开源!全球本体数最多、标注最精细、使用最便捷的高质量双臂机器人真机数据集来了

简介: 北京智源研究院联合多家机构发布全球首个“本体数最多、标注最精细、使用最便捷”的双臂机器人真机数据集RoboCOIN,覆盖15类机器人、18万条轨迹、421项任务,首创“层级能力金字塔”标注体系,推动具身智能迈向真实场景应用。

在具身智能迈向真实世界应用的关键阶段,大规模、高质量、多平台兼容的机器人操作数据已成为制约技术突破的核心瓶颈:一方面,双臂操作作为最贴近人类行为的“刚需”形态,正成为行业主流趋势,但受限于高昂的采集成本与复杂的标注难度,相关数据极度稀缺;另一方面,现有数据集普遍存在真实场景覆盖不足、任务单一、过度实验室化等问题,且大多仅适配特定或有限种类的机器人本体与构型,缺乏跨平台、跨本体的通用性。


为破解这一难题,北京智源人工智能研究院牵头,联合蚂蚁天玑实验室、银河通用、乐聚、软通天擎、松灵、星海图、智平方、睿尔曼等产业先锋,以及清华大学、北京大学、斯坦福、伯克利、剑桥 等海内外顶尖学术力量,共同打造并发布了RoboCOIN(Bimanual Robotic Data COllection for INtegrated Manipulation) ——全球“本体数最多、标注最精细、使用最便捷”的高质量双臂机器人真机数据集

📎0bc3dqadgaaafmafverftruvahgdgmoaamya.f10002.mp4

🔍 破局三大挑战:格式混乱、质量参差、使用门槛高

当前具身智能数据正面临“标准缺失、质控薄弱、工具分散”三大核心痛点,严重制约行业发展:

  • 标准缺失导致“数据孤岛”林立:不同机器人平台的数据格式互不兼容,坐标系定义、量纲单位缺乏统一规范,元信息完整度参差不齐,大量数据无法直接复用,需投入高额成本进行预处理。
  • 质控薄弱造成数据质量堪忧:人工遥操作采集的数据常伴随多种问题,既包括丢帧、卡顿、花屏、噪点、静止帧、黑白帧等记录层面的缺陷,也存在数采员动作过快/过慢、操作抖动等行为层面的偏差,直接影响模型训练效果。
  • 工具分散严重抬高研发门槛:数据采集、处理、标注、管理等环节的工具链分散独立、不成体系,不仅增加了技术使用难度,还导致研发流程割裂、效率低下,难以实现规模化数据采集的高效产出。

为系统性解决这些问题,智源研究院研发了“面向异构本体、规范操作流程、提高研发效率”的具身数据软件框架CoRobot,实现了“定标准、保质量、提效率”三大目标,并以此作为构建RoboCOIN数据集的技术基座。

🌐 全球最多元化的双臂真机数据集:15平台 × 18万轨迹 × 421任务

RoboCOIN 数据集具备三大核心优势:

多本体、末端执行器:涵盖 15款异构机器人平台,包括双臂机械臂(如 Agilex Cobot Magic)、半人形(如 Realman RMC-AIDA-L)和全人形机器人(如 Unitree G1edu-u3),涉及夹爪与灵巧手两类末端执行器,本体和末端执行器的形态多样。


真实场景、丰富任务:覆盖 16类现实环境(家庭、办公室、工厂、餐厅、超市等),包含 432种物体(刚性、铰接、可变形)和 36种双臂操作技能,构建了从简单到复杂的渐进式任务体系。


数据规模大、质量高:通过人类遥操作采集超过18万条真实轨迹,每条均配备多视角图像、关节状态、末端位姿,并严格对齐时间戳,统一坐标系和量纲,确保数据物理一致性与语义完整性。

🧠 首创“能力金字塔”:三层结构化标注,赋能多粒度学习

RoboCOIN 首次提出 “层级能力金字塔”(Hierarchical Capability Pyramid),实现从宏观任务理解到微观动作控制的全栈式标注:

  • 轨迹层(Trajectory-level):描述整体场景、物体属性(颜色、材质、形状等),支持全局规划;
  • 片段层(Segment-level):将任务分解为可执行子步骤(如“右手抓篮子”“左手放桃子”),支持时序推理与错误恢复;
  • 帧层(Frame-level):逐帧标注运动状态(速度、加速度、夹爪开合),支撑精准闭环控制。

这种多分辨率标注体系,不仅显著提升了数据的信息密度和教学价值,还使模型能够同时学习“做什么”“怎么做”和“如何做准”,从而增强泛化能力、训练效率与系统可解释性,为通用具身智能的发展提供了关键支撑。

⚙️ CoRobot框架:一站式数据处理与训练基础设施

为支撑 RoboCOIN 的高效构建与广泛应用,团队同步开源具身数据软件框架CoRobot1.0,包含三大核心组件:

  1. RTML(Robot Trajectory Markup Language)首创机器人轨迹标记语言,通过 YAML 定义运动约束(速度、加速度、工作空间等),自动评估并过滤低质量轨迹,显著提升数据可靠性。
  2. 自动化标注工具链融合视觉语言模型(VLM)与规则引擎,实现场景描述、子任务分割、运动语义标签的半自动标注,大幅降低人工成本。
  3. 统一多本体管理平台基于 LeRobot 扩展,支持跨平台控制、原子化存储、按需组合下载,调用数据集使用工具链只需敲入一行代码"pip install robocoin",真正做到“开箱即用”。


📈 实测有效:显著提升主流VLA模型性能

在 Realman 与 Unitree 真机平台上,对 π0、GR00T-N1.5 等先进视觉语言动作(VLA)模型的实验表明:

  • 引入 RoboCOIN 的层级标注后,复杂任务(如“将桃子放入抽屉并关闭”)成功率从 20% 提升至 70%


  • 使用 RTML 过滤后的高质量数据训练,模型平均成功率提升 23%,验证了“质量优于数量”的数据范式。


🤝 开源共建,聚力前行

智源研究院具身数据负责人姚国才介绍:该数据集之所以取名为RoboCOIN,是寓意每一份高质量数据都如同一枚闪闪发光的“金币”,然而一枚金币的面值是微小的,需要大家都往“存钱罐”里投入更多“金币”,若全行业能够齐心协力,就有希望积少成多,换取到一张通向物理AGI的船票。


💡 项目已全面开源:

  • RoboCOIN数据集主页:https://flagopen.github.io/RoboCOIN/
  • CoRobot软件框架主页:https://github.com/FlagOpen/CoRobot


以开源生态为基,聚产业创新之力,促具身智能落地。RoboCOIN,让机器人真正学会“双手协作”!


点击即可跳转数据集合集

ModelScope 魔搭社区modelscope.cn/organization/RoboCOIN


目录
相关文章
|
2月前
|
传感器 数据采集 算法
LET数据集来魔搭了!开源首批超60,000分钟全尺寸人形机器人真机数据
国内最大全尺寸人形机器人真机数据集“LET数据集”正式发布,首批开源超6万分钟高质量数据,覆盖6大真实场景,支持多模态融合与标准化应用,助力具身智能研发,已在魔搭社区开放共享。
323 1
LET数据集来魔搭了!开源首批超60,000分钟全尺寸人形机器人真机数据
|
2月前
|
数据采集 自然语言处理 前端开发
智谱 GLM-4.6V开源!能看、能想还能执行「百变」任务
智谱发布GLM-4.6V系列多模态大模型,含106B基础版与9B轻量版,支持128k长上下文,视觉理解达同规模SOTA。原生融合工具调用能力,打通“视觉感知-行动执行”闭环,降价50%,API低至1元/百万tokens,助力图文创作、识图购物、前端复刻等复杂场景。
630 2
智谱 GLM-4.6V开源!能看、能想还能执行「百变」任务
|
2月前
|
人工智能 前端开发 测试技术
告别 GUI Agent 工程基建噩梦!阶跃星辰开源 4B 模型,本地轻松部署,玩转安卓应用
阶跃星辰开源GELab-Zero,首发4B GUI Agent模型及完整基建,支持一键部署,在多端性能达SOTA。同步推出真实场景评测基准AndroidDaily,推动GUI智能体规模化落地。
506 10
告别 GUI Agent 工程基建噩梦!阶跃星辰开源 4B 模型,本地轻松部署,玩转安卓应用
|
3月前
|
人工智能 安全 搜索推荐
杭州AI开源生态大会·魔搭社区开发者嘉年华全回顾
11月22日,杭州AI开源生态大会暨“魔搭社区”开发者中心启用仪式在云谷中心举行。大会汇聚超3000名开发者,发布“两张清单”与AI开源政策包,启用首个线下开发者空间,推动开放、共建、共创的AI生态发展。
574 10
|
3月前
|
开发框架 人工智能 测试技术
字节推出VeAgentBench + veADK,打造可评估、可复现的智能体开发新范式
字节跳动推出VeAgentBench与veADK,打造智能体“开发-评估”闭环。VeAgentBench是覆盖教育、金融、法律等四大场景的开源评估基准,veADK为高效易用的开发框架,支持工具调用、RAG与记忆管理,助力AI智能体可度量、可复现、可落地。
534 11
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
Z-Image:冲击体验上限的下一代图像生成模型
通义实验室推出全新文生图模型Z-Image,以6B参数实现“快、稳、轻、准”突破。Turbo版本仅需8步亚秒级生成,支持16GB显存设备,中英双语理解与文字渲染尤为出色,真实感和美学表现媲美国际顶尖模型,被誉为“最值得关注的开源生图模型之一”。
3382 9
|
2月前
|
人工智能 前端开发 JavaScript
告别"玄学调试":用这份指令让AI成为你的"赛博华佗"
调试占用了开发者50%的时间?本文提供一套专业的AI调试指令,将大模型转化为"拥有10年经验的代码医生"。通过结构化的诊断-修复-预防流程,告别低效的"玄学调试",实现从"修好Bug"到"根治隐患"的质变。
316 6

热门文章

最新文章