在具身智能迈向真实世界应用的关键阶段,大规模、高质量、多平台兼容的机器人操作数据已成为制约技术突破的核心瓶颈:一方面,双臂操作作为最贴近人类行为的“刚需”形态,正成为行业主流趋势,但受限于高昂的采集成本与复杂的标注难度,相关数据极度稀缺;另一方面,现有数据集普遍存在真实场景覆盖不足、任务单一、过度实验室化等问题,且大多仅适配特定或有限种类的机器人本体与构型,缺乏跨平台、跨本体的通用性。
为破解这一难题,北京智源人工智能研究院牵头,联合蚂蚁天玑实验室、银河通用、乐聚、软通天擎、松灵、星海图、智平方、睿尔曼等产业先锋,以及清华大学、北京大学、斯坦福、伯克利、剑桥 等海内外顶尖学术力量,共同打造并发布了RoboCOIN(Bimanual Robotic Data COllection for INtegrated Manipulation) ——全球“本体数最多、标注最精细、使用最便捷”的高质量双臂机器人真机数据集。
📎0bc3dqadgaaafmafverftruvahgdgmoaamya.f10002.mp4
🔍 破局三大挑战:格式混乱、质量参差、使用门槛高
当前具身智能数据正面临“标准缺失、质控薄弱、工具分散”三大核心痛点,严重制约行业发展:
- 标准缺失导致“数据孤岛”林立:不同机器人平台的数据格式互不兼容,坐标系定义、量纲单位缺乏统一规范,元信息完整度参差不齐,大量数据无法直接复用,需投入高额成本进行预处理。
- 质控薄弱造成数据质量堪忧:人工遥操作采集的数据常伴随多种问题,既包括丢帧、卡顿、花屏、噪点、静止帧、黑白帧等记录层面的缺陷,也存在数采员动作过快/过慢、操作抖动等行为层面的偏差,直接影响模型训练效果。
- 工具分散严重抬高研发门槛:数据采集、处理、标注、管理等环节的工具链分散独立、不成体系,不仅增加了技术使用难度,还导致研发流程割裂、效率低下,难以实现规模化数据采集的高效产出。
为系统性解决这些问题,智源研究院研发了“面向异构本体、规范操作流程、提高研发效率”的具身数据软件框架CoRobot,实现了“定标准、保质量、提效率”三大目标,并以此作为构建RoboCOIN数据集的技术基座。
🌐 全球最多元化的双臂真机数据集:15平台 × 18万轨迹 × 421任务
RoboCOIN 数据集具备三大核心优势:
✅ 多本体、末端执行器:涵盖 15款异构机器人平台,包括双臂机械臂(如 Agilex Cobot Magic)、半人形(如 Realman RMC-AIDA-L)和全人形机器人(如 Unitree G1edu-u3),涉及夹爪与灵巧手两类末端执行器,本体和末端执行器的形态多样。
✅ 真实场景、丰富任务:覆盖 16类现实环境(家庭、办公室、工厂、餐厅、超市等),包含 432种物体(刚性、铰接、可变形)和 36种双臂操作技能,构建了从简单到复杂的渐进式任务体系。
✅ 数据规模大、质量高:通过人类遥操作采集超过18万条真实轨迹,每条均配备多视角图像、关节状态、末端位姿,并严格对齐时间戳,统一坐标系和量纲,确保数据物理一致性与语义完整性。
🧠 首创“能力金字塔”:三层结构化标注,赋能多粒度学习
RoboCOIN 首次提出 “层级能力金字塔”(Hierarchical Capability Pyramid),实现从宏观任务理解到微观动作控制的全栈式标注:
- 轨迹层(Trajectory-level):描述整体场景、物体属性(颜色、材质、形状等),支持全局规划;
- 片段层(Segment-level):将任务分解为可执行子步骤(如“右手抓篮子”“左手放桃子”),支持时序推理与错误恢复;
- 帧层(Frame-level):逐帧标注运动状态(速度、加速度、夹爪开合),支撑精准闭环控制。
这种多分辨率标注体系,不仅显著提升了数据的信息密度和教学价值,还使模型能够同时学习“做什么”“怎么做”和“如何做准”,从而增强泛化能力、训练效率与系统可解释性,为通用具身智能的发展提供了关键支撑。
⚙️ CoRobot框架:一站式数据处理与训练基础设施
为支撑 RoboCOIN 的高效构建与广泛应用,团队同步开源具身数据软件框架CoRobot1.0,包含三大核心组件:
- RTML(Robot Trajectory Markup Language)首创机器人轨迹标记语言,通过 YAML 定义运动约束(速度、加速度、工作空间等),自动评估并过滤低质量轨迹,显著提升数据可靠性。
- 自动化标注工具链融合视觉语言模型(VLM)与规则引擎,实现场景描述、子任务分割、运动语义标签的半自动标注,大幅降低人工成本。
- 统一多本体管理平台基于 LeRobot 扩展,支持跨平台控制、原子化存储、按需组合下载,调用数据集使用工具链只需敲入一行代码"pip install robocoin",真正做到“开箱即用”。
📈 实测有效:显著提升主流VLA模型性能
在 Realman 与 Unitree 真机平台上,对 π0、GR00T-N1.5 等先进视觉语言动作(VLA)模型的实验表明:
- 引入 RoboCOIN 的层级标注后,复杂任务(如“将桃子放入抽屉并关闭”)成功率从 20% 提升至 70%;
- 使用 RTML 过滤后的高质量数据训练,模型平均成功率提升 23%,验证了“质量优于数量”的数据范式。
🤝 开源共建,聚力前行
智源研究院具身数据负责人姚国才介绍:该数据集之所以取名为RoboCOIN,是寓意每一份高质量数据都如同一枚闪闪发光的“金币”,然而一枚金币的面值是微小的,需要大家都往“存钱罐”里投入更多“金币”,若全行业能够齐心协力,就有希望积少成多,换取到一张通向物理AGI的船票。
💡 项目已全面开源:
- RoboCOIN数据集主页:https://flagopen.github.io/RoboCOIN/
- CoRobot软件框架主页:https://github.com/FlagOpen/CoRobot
以开源生态为基,聚产业创新之力,促具身智能落地。RoboCOIN,让机器人真正学会“双手协作”!
点击即可跳转数据集合集
ModelScope 魔搭社区modelscope.cn/organization/RoboCOIN