LET数据集来魔搭了!开源首批超60,000分钟全尺寸人形机器人真机数据

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型训练 PAI-DLC,100CU*H 3个月
简介: 国内最大全尺寸人形机器人真机数据集“LET数据集”正式发布,首批开源超6万分钟高质量数据,覆盖6大真实场景,支持多模态融合与标准化应用,助力具身智能研发,已在魔搭社区开放共享。

近日,国内规模最大的面向真实作业场景的全尺寸人形机器人真机数据集“LET数据集”正式发布!其首批开源60,000+分钟数据已在魔搭社区官网同步上线。

LET数据集由乐聚智能(深圳)股份有限公司、国家地方共建人形机器人创新中心、北京数聚通启运营管理有限公司和苏州吴江智训未来运营管理有限公司联合主导构建。该数据集不仅精准填补了具身智能领域对高质量真机数据的迫切需求,更为行业创新发展提供了关键的数据支撑。


国地标准共建,引领数据协同新生态

LET数据集以国家地方共建人形机器人创新中心规范为基准,从源头确保数据的高质量、专业合规性与可用性,旨在为开发者、企业及科研团队提供“开箱即用”的标准化数据资产。

通过统一流程与标准化处理,数据集有效破解了多源异构、数据格式不一、质量参差不齐等行业痛点,不仅实现了规模化高质量数据生产,更为行业数据体系建设提供了关键范本。与此同时,项目方正联合开展国家及行业标准研制,推动国家级标准化试点标准验证与实施应用。

高质量数据是驱动模型实现能力跃迁的关键。LET数据集此次发布包含超60,000分钟的真机数据,其质量更高,标准更严格。

这也将为验证Scaling Law提供更优质的数据基础,推动模型不再局限于简单的动作模仿,而是能够学习背后的通用规律与决策策略,从“机械执行”迈向“自主理解与推理”。


统一真机实采,锻造高鲁棒性模型

LET数据集基于乐聚夸父系列全尺寸人形机器人进行统一采集。该人形机器人具备40+自由度,身高约1.66米,体重约55公斤,同时搭配头部立体相机与腕部RGB-D相机,可有效避免因机器人形态差异导致的数据偏差问题。


得益于真机实采所包含的真实物理约束、环境扰动与传感器噪声,LET数据集为模型训练提供了高一致性的数据基础。这使得训练出的模型在端到端部署中展现出卓越的迁移能力与鲁棒性,其性能显著优于基于仿真数据的模型,能够高度契合复杂现实场景的应用需求。


多模态数据融合,数据更精细标准

LET数据集融合了机器人头部视角与双腕视角的清晰、稳定视频流,并同步采集RGB图像、深度图、关节状态及末端执行器状态等关键模态信息,全方位捕捉操作细节,为算法训练提供高一致性、高完整度的真机数据基础,能让模型更接近人类认知方式。


同时,LET数据集构建了一套系统的多模态对齐标注体系,通过任务标注细化与多维度语义标签,显著提升了数据的质量标准。


六大真实作业场景,铸就强大泛化能力

LET数据集以真实作业场景为核心,全面覆盖工业、商业零售及日常生活3大领域,6大场景,31项任务,117种原子技能。场景具体涵盖汽车工厂、快消场景、3C工厂、酒店服务、生活服务及物流场景,包含抓取放置、工具使用、搬运、协作等典型任务,覆盖移动平台、机械臂单臂抓取,多臂协作等多种操作形态,系统化支撑机器人算法在多样化真实场景中的泛化能力,为复杂技能的学习与组合提供坚实基础。

数采链三大技术创新,定义高质量数据

LET数据集通过数采链路三大技术创新,系统性提升数据质量、对齐精度与模型可验证性。

1. 构建视觉伺服闭环数据:将有误差的机器人本体和传感器,转变为依赖一个统一的、抽象的坐标系或特征,有效解决了多设备数据一致性难题,使数据质量一致性达到 90% 以上。

2. 采用高效的组帧技术:将多传感器数据帧的时间戳误差与延迟严格控制在10ms以内,确保数据层时序同步。

3. 建立自动化Benchmark评测体系:对数据收敛度、样本效率与稳定性进行全面评估,确保数据迁移的有效性和泛化能力。


模型使用开发者友好

LET数据集提供了一套数据转换、模型训练、仿真测试与真机部署的全流程数据工具链,这将进一步推动具身智能行业的研发与落地。


真机数据应用案例

日化生产场景

日化产品定姿摆放

汽车制造场景

SPS零件分拣

物流场景

快递分拣应用

3 C场景

传送带物料分拣应用


开源!全球共享高质量LET数据集

目前,LET数据集首批60,000+分钟高质量数据已上线魔搭社区!目前开发者可通过以下三种方式获取数据集:

2.魔搭社区官网链接:

3.公开平台扫码获取数据:魔搭社区/ GitHub


扫码获取数据

魔搭社区  

https://www.modelscope.cn/profile/LejuRobotics


扫码获取资源

GitHub

https://github.com/LejuRobotics/kuavo_data_challenge


目录
相关文章
|
1天前
|
云安全 人工智能 自然语言处理
|
8天前
|
数据采集 人工智能 自然语言处理
Meta SAM3开源:让图像分割,听懂你的话
Meta发布并开源SAM 3,首个支持文本或视觉提示的统一图像视频分割模型,可精准分割“红色条纹伞”等开放词汇概念,覆盖400万独特概念,性能达人类水平75%–80%,推动视觉分割新突破。
648 56
Meta SAM3开源:让图像分割,听懂你的话
|
6天前
|
搜索推荐 编译器 Linux
一个可用于企业开发及通用跨平台的Makefile文件
一款适用于企业级开发的通用跨平台Makefile,支持C/C++混合编译、多目标输出(可执行文件、静态/动态库)、Release/Debug版本管理。配置简洁,仅需修改带`MF_CONFIGURE_`前缀的变量,支持脚本化配置与子Makefile管理,具备完善日志、错误提示和跨平台兼容性,附详细文档与示例,便于学习与集成。
318 116
|
5天前
|
人工智能 Java API
Java 正式进入 Agentic AI 时代:Spring AI Alibaba 1.1 发布背后的技术演进
Spring AI Alibaba 1.1 正式发布,提供极简方式构建企业级AI智能体。基于ReactAgent核心,支持多智能体协作、上下文工程与生产级管控,助力开发者快速打造可靠、可扩展的智能应用。
|
21天前
|
域名解析 人工智能
【实操攻略】手把手教学,免费领取.CN域名
即日起至2025年12月31日,购买万小智AI建站或云·企业官网,每单可免费领1个.CN域名首年!跟我了解领取攻略吧~
|
8天前
|
机器学习/深度学习 人工智能 自然语言处理
AgentEvolver:让智能体系统学会「自我进化」
AgentEvolver 是一个自进化智能体系统,通过自我任务生成、经验导航与反思归因三大机制,推动AI从“被动执行”迈向“主动学习”。它显著提升强化学习效率,在更少参数下实现更强性能,助力智能体持续自我迭代。开源地址:https://github.com/modelscope/AgentEvolver
438 32
|
4天前
|
弹性计算 人工智能 Cloud Native
阿里云无门槛和有门槛优惠券解析:学生券,满减券,补贴券等优惠券领取与使用介绍
为了回馈用户与助力更多用户节省上云成本,阿里云会经常推出各种优惠券相关的活动,包括无门槛优惠券和有门槛优惠券。本文将详细介绍阿里云无门槛优惠券的领取与使用方式,同时也会概述几种常见的有门槛优惠券,帮助用户更好地利用这些优惠,降低云服务的成本。
272 132

热门文章

最新文章