近日,国内规模最大的面向真实作业场景的全尺寸人形机器人真机数据集“LET数据集”正式发布!其首批开源60,000+分钟数据已在魔搭社区官网同步上线。
LET数据集由乐聚智能(深圳)股份有限公司、国家地方共建人形机器人创新中心、北京数聚通启运营管理有限公司和苏州吴江智训未来运营管理有限公司联合主导构建。该数据集不仅精准填补了具身智能领域对高质量真机数据的迫切需求,更为行业创新发展提供了关键的数据支撑。
国地标准共建,引领数据协同新生态
LET数据集以国家地方共建人形机器人创新中心规范为基准,从源头确保数据的高质量、专业合规性与可用性,旨在为开发者、企业及科研团队提供“开箱即用”的标准化数据资产。
通过统一流程与标准化处理,数据集有效破解了多源异构、数据格式不一、质量参差不齐等行业痛点,不仅实现了规模化高质量数据生产,更为行业数据体系建设提供了关键范本。与此同时,项目方正联合开展国家及行业标准研制,推动国家级标准化试点标准验证与实施应用。
高质量数据是驱动模型实现能力跃迁的关键。LET数据集此次发布包含超60,000分钟的真机数据,其质量更高,标准更严格。
这也将为验证Scaling Law提供更优质的数据基础,推动模型不再局限于简单的动作模仿,而是能够学习背后的通用规律与决策策略,从“机械执行”迈向“自主理解与推理”。
统一真机实采,锻造高鲁棒性模型
LET数据集基于乐聚夸父系列全尺寸人形机器人进行统一采集。该人形机器人具备40+自由度,身高约1.66米,体重约55公斤,同时搭配头部立体相机与腕部RGB-D相机,可有效避免因机器人形态差异导致的数据偏差问题。
得益于真机实采所包含的真实物理约束、环境扰动与传感器噪声,LET数据集为模型训练提供了高一致性的数据基础。这使得训练出的模型在端到端部署中展现出卓越的迁移能力与鲁棒性,其性能显著优于基于仿真数据的模型,能够高度契合复杂现实场景的应用需求。
多模态数据融合,数据更精细标准
LET数据集融合了机器人头部视角与双腕视角的清晰、稳定视频流,并同步采集RGB图像、深度图、关节状态及末端执行器状态等关键模态信息,全方位捕捉操作细节,为算法训练提供高一致性、高完整度的真机数据基础,能让模型更接近人类认知方式。
同时,LET数据集构建了一套系统的多模态对齐标注体系,通过任务标注细化与多维度语义标签,显著提升了数据的质量标准。
六大真实作业场景,铸就强大泛化能力
LET数据集以真实作业场景为核心,全面覆盖工业、商业零售及日常生活3大领域,6大场景,31项任务,117种原子技能。场景具体涵盖汽车工厂、快消场景、3C工厂、酒店服务、生活服务及物流场景,包含抓取放置、工具使用、搬运、协作等典型任务,覆盖移动平台、机械臂单臂抓取,多臂协作等多种操作形态,系统化支撑机器人算法在多样化真实场景中的泛化能力,为复杂技能的学习与组合提供坚实基础。
数采链三大技术创新,定义高质量数据
LET数据集通过数采链路三大技术创新,系统性提升数据质量、对齐精度与模型可验证性。
1. 构建视觉伺服闭环数据:将有误差的机器人本体和传感器,转变为依赖一个统一的、抽象的坐标系或特征,有效解决了多设备数据一致性难题,使数据质量一致性达到 90% 以上。
2. 采用高效的组帧技术:将多传感器数据帧的时间戳误差与延迟严格控制在10ms以内,确保数据层时序同步。
3. 建立自动化Benchmark评测体系:对数据收敛度、样本效率与稳定性进行全面评估,确保数据迁移的有效性和泛化能力。
模型使用开发者友好
LET数据集提供了一套数据转换、模型训练、仿真测试与真机部署的全流程数据工具链,这将进一步推动具身智能行业的研发与落地。
真机数据应用案例
日化生产场景
日化产品定姿摆放
汽车制造场景
SPS零件分拣
物流场景
快递分拣应用
3 C场景
传送带物料分拣应用
开源!全球共享高质量LET数据集
目前,LET数据集首批60,000+分钟高质量数据已上线魔搭社区!目前开发者可通过以下三种方式获取数据集:
2.魔搭社区官网链接:
3.公开平台扫码获取数据:魔搭社区/ GitHub
扫码获取数据
魔搭社区
https://www.modelscope.cn/profile/LejuRobotics
扫码获取资源
GitHub
https://github.com/LejuRobotics/kuavo_data_challenge