戴盟联合数十家头部机构,发布全球最大规模含触觉全模态物理世界数据集

简介: 4月15日,戴盟机器人发布全球最大含触觉全模态具身数据集Daimon-Infinity,年内规模将达数百万小时、近十亿条数据。首批10000小时高质量开源数据已上线魔搭社区,覆盖80+真实场景、2000+任务,显著提升模型训练效率10倍。

4 月 15 日,戴盟机器人联合海内外数十家学术机构与知名企业,发布全球最大规模含触觉全模态物理世界具身数据集 Daimon-Infinity。数据规模计划于年内扩展至数百万小时,包含近十亿条具身数据;其中 10000 小时数据面向全行业开放共享,首批数据目前已于阿里魔搭社区上线开源。

当前具身智能难以落地、泛化能力不足,其核心瓶颈正在于缺乏来自真实世界,尤其是含有物理交互信息的数据。不同于视觉的远距离感知,触觉能直接提供接触力、接触形变、接触状态及物体纹理、材质等物理反馈,有效弥补视觉的盲区与错觉。在具身智能的“感知-行动”闭环中,触觉是连接被动观察与主动交互的关键——只有实现视觉与触觉的深度协同,机器人才能在复杂的物理环境中完成精准、稳定的操作。

作为率先提出 VTLA(Vision-Tactile-Language-Action)架构的创新者,戴盟依托全球领先的视触觉技术,将高密度、全模态触觉信息引入具身智能的数据主干,为机器人精细操作提供了更真实、更丰富的训练基础,进一步驱动具身智能向高泛化性与高可靠性演进。


全模态信息

高质量触觉,补全稀缺的物理交互数据

Daimon-Infinity 数据集依托于戴盟自研的二指夹爪及五指手套数据采集设备,其搭载的 11 万感知单元 120Hz 高频率视触觉传感器、鱼眼相机、编码器、IMU、双目相机,为数据集提供触觉、视觉、动作轨迹、执行动作、语音文本等全维度信息。

值得一提的是,Daimon-Infinity 提供了目前行业内最高质量的触觉数据包含接触力、接触形变、滑移,及物体材质、形貌、纹理、软硬等高密度全模态触觉信息,为精细操作补全稀缺的物理交互特征。戴盟视触觉数据获业界广泛认可,得到 OmniVTA、AnyTouch 2 、FG-CLTP 等含触觉模型的验证。

数据处理链路

全流程质量管控,确保数据高效利用

戴盟搭建了全链路数据处理引擎,为 Daimon-Infinity 提供从物理交互到数字世界的全流程质量管控:通过软硬件协同,从前端采集源头实现毫秒级对齐;通过高效编码压缩及序列化压缩,保持数据精度的同时,最小化数据存储成本;数据可从采集设备直传云端,进入处理管线,从中恢复双手运动轨迹,轨迹重建精度达到行业领先水平,确保数据一致性与可用性。

基于戴盟在触觉感知领域的长期积累,数据处理管线可从采集的原始数据中提取出接触形貌、三维形变场、三维分布力,以及六维集中力等十多种模态,将真实世界的交互表征嵌入到每一帧数据中。处理后的数据,通过大模型自动化标注、人工标注及审核,将触觉、视觉、动作等信息融合,输出操作任务的多维度标注,形成了从含触觉的多模态感知到动作的全链路闭环

依托于阿里云人工智能平台PAI、文件存储CPFS、对象存储OSS和无影提供的方案能力,戴盟实现了真机数据安全上传模型高效训练仿真数据可视化展示,解决具身智能从实验室走向产线的工程化难题,加速技术迭代与商业化落地。同时,在数据采集与模型训练方面,戴盟团队积累了规模化、定制化的量产经验——已累计处理并标注数万小时高质量多模态数据,并将核心流程、关键指标沉淀为平台标准能力,提升交付效率与结果一致性。


有效性验证

跨本体通用数据,训练效率跃升10倍

具身智能的快速迭代,高度依赖标准化的高质量数据供给。Daimon-Infinity 采用高度标准化的数据格式规范,支持主流模型需求;采集末端不依赖本体构型,可适配各种机器人,实现跨机器人本体的数据应用。

经验证,模型在 Daimon-Infinity 具身数据上进行预训练后,只需约十分之一的数据量,即可在轴孔装配、污痕擦拭、果蔬切削等多项精细操作任务中达到更优的成功率,驱动不同构型机器人完成自主操作任务,训练效率实现 10 倍的跨越式提升



外发式数据采集范式

突破空间限制,年产数百万小时数据

传统具身数据依赖封闭式采集工厂,成本高、场景单一、数据多样性不足,难以满足具身智能对真实复杂环境与泛化能力的需求。

为突破这一瓶颈,戴盟构建了全球最大规模的外发式具身数据采集网络。依托轻量化设备与分布式数采体系,采集员可深入真实、多变的应用场景,实现不受空间限制的数据获取,年产数据规模可达数百万小时。基于该网络,Daimon-Infinity 已建立全球化数据共建体系,覆盖工业装配、智慧物流、养老护理、家居服务、科研实验、餐饮零售及户外空间等核心场景,实现了跨场景、规模化、低成本的物理交互数据沉淀与可持续供给,构建具身智能的数据基础设施。


开源共建

10000 小时最大规模开源数据集

戴盟深知,具身智能的奇点无法由任何一家企业独立跨越,唯有共建才能推动真正的技术跃迁。

Daimon-Infinity 部分数据将面向行业共享开放,开源规模达10000小时,包含数百万条真实操作轨迹,覆盖 16 个行业、80 个真实场景超 2000 项任务类别,涉及超过 2000 项人类技能、超 300 种真实物品;其中,时长超过40秒的长序列任务超过 1400 个,包含如抓放、插入、堆叠等高频手物交互任务。

物品词云图


目前,首批 1000 小时真实世界数据已上线阿里魔搭社区。戴盟诚邀行业伙伴共建开放的数据生态,共同推动具身智能迈向通用的新阶段。


魔搭链接:

https://modelscope.cn/datasets/daimonrobotics/Daimon-Infinity


目录
相关文章
|
28天前
|
机器学习/深度学习 算法 机器人
逐际动力开源 FluxVLA Engine:专为具身智能打造的标准化VLA工程底座
逐际动力开源FluxVLA Engine——面向具身智能的标准化VLA工程底座。它以统一配置、标准接口、模块解耦、加速部署为核心,解决数据碎片化、代码高耦合、仿真-真机迁移难三大瓶颈,支持VLM/VLA全栈任务,开箱即用部署于UR、ALOHA、TRON2等多平台。
222 0
逐际动力开源 FluxVLA Engine:专为具身智能打造的标准化VLA工程底座
|
1月前
|
人工智能 监控 调度
什么是异构算力管理平台?一文讲清核心概念、能力边界与应用价值
异构算力管理平台是面向大模型生产的“统一算力操作层”,实现CPU/GPU/NPU/FPGA等多芯、多集群、多环境算力的统一纳管、智能调度与闭环治理,提升资源利用率,支撑训推一体与AI规模化落地。
307 2
|
1月前
|
人工智能 自然语言处理 安全
OpenClaw 2.6.2 安装与网关配置全程教程
本文详解Windows一键部署OpenClaw 2.6.2(小龙虾AI)全流程:无需编程基础,全程可视化操作;解压即启,自动安装依赖;支持文件整理、浏览器自动化等办公任务,数据本地运行更安全。(239字)
|
4月前
|
人工智能 自然语言处理 运维
业内首发泛娱乐底座大模型!元象开源XVERSE-Ent中英双模型,单卡部署超低门槛
元象开源首款聚焦泛娱乐场景的大模型XVERSE-Ent,含中英双版本,专精角色一致性、长剧情理解与多元语境适配,支持轻量化部署,助力开发者低成本打造AI社交、游戏与创意内容应用。
413 3
|
17天前
|
人工智能 机器人 测试技术
从成功率到能力画像:上海AI Lab推出具身操作仿真评测基座EBench
上海AI Lab推出EBench,突破单一成功率评测范式,构建可复现、可拆解的具身操作能力诊断框架。涵盖26类任务、5维能力标签与4类泛化测试,共794条用例,助力精准刻画模型强项、短板及真实泛化性。
140 2

热门文章

最新文章