谷歌公布13GB 3D扫描数据集:17大类、1030个家用物品

简介: 谷歌公布13GB 3D扫描数据集:17大类、1030个家用物品

谷歌的研究者提出了 Google Scanned Objects (GSO) 数据集,这是一个由超过 1000 个 3D 扫描的家用物品组成的精选集。



近年来,深度学习技术使得计算机视觉和机器人领域的许多进展成为可能,但训练深度模型需要各种各样的输入,以泛化到新的场景。

此前,计算机视觉领域已经利用网页抓取技术收集了数百万个主题的数据集,包括 ImageNet、Open Image、Youtube-8M、COCO 等。然而,给这些数据集贴标签仍是一个劳动密集型工作,标签错误可能会影响到对技术进步的感知,而且这种策略也很难推广至 3D 或真实世界的机器人数据上。与图像不同的是,目前网络上并没有大规模、高质量的 3D 场景,而从真实世界收集这类数据又极具挑战性。此外,人工标注员也很难从图像中提取 3D 几何特性。

一般来说,使用 Gazebo、Bullet、MuJoCo、Unity 等工具对机器人和环境进行仿真可以减轻上述限制。但是,仿真毕竟不完全是真实世界,即使一个场景是直接通过对真实环境的 3D 扫描建立起来的,扫描中的离散对象也会像固定的背景物一样,不会像真实世界的对象那样对输入做出回应。

因此,关键问题在于提供一个高质量的 3D 对象模型库,这些模型可以整合到物理和视觉建模中,为深度学习提供所需的多样性。

为了解决这个问题,谷歌的研究者提出了 Google Scanned Objects (GSO) 数据集,这是一个由超过 1000 个 3D 扫描家用物品组成的精选集,可用于 Ignition Gazebo、Bullet 模拟器和其他可以读取 SDF 模型格式的工具。


在一篇论文中,研究者介绍了该数据集的收集、管理、扩展等内容。


论文链接:https://arxiv.org/pdf/2204.11918.pdf

据不完全统计,GSO 数据集已经在计算机视觉、计算机图形学、机器人操作、机器人导航和 3D 形状处理等 10 个项目的 12 篇论文中得到应用:

该研究贡献主要有几点:

提出 Google Scanned Objects 数据集;

3D 扫描 pipeline 设计;

3D 扫描管理和发布过程;

该数据集在研究领域中的影响。


数据集的创建

GSO 数据集起源于 2011 年谷歌的云机器人计划,目的是让机器人基于普通家用物品的高保真 3D 模型,能够在自己的环境中识别和抓取物体。

然而,除了物体识别和机器人抓取之外,3D 模型还有很多用途,包括用于物理模拟的场景构建和用于终端用户应用的 3D 物体可视化。因此,谷歌研究院发起了一个项目,将 3D 体验大规模引入谷歌,以低于传统商业级产品摄影的成本收集大量家用物品的 3D 扫描图像。

这是一项端到端的工程,包括物体获取、新颖的 3D 扫描硬件、高效的 3D 扫描软件、快速 3D 渲染的质量保障、网络与移动浏览器,以及人机交互研究。

在收集数据之后,研究者构建了一个 pipeline,让这些数据能以各种格式使用。

3D 扫描 pipeline

即使限于家用物品的领域,3D 扫描也会带来独特的挑战,包括高效的物理扫描设置、目标照明、相机可靠性、扫描仪性能、配色、纹理渲染,以及处理光学上不一致的材料,比如近白色、有光泽或透明的表面。

专用的 3D 扫描硬件是劳动密集型的,性价比不高。为了进行大规模扫描,还需要一些更具可用性和可靠性的工具。

因此,研究者设计了自己的专用扫描硬件和软件(图 2),能够在 10 分钟内扫描物体并生成高分辨率模型。控制光线的物理外壳(图 2b)使用两台机器视觉相机和一台投影仪进行结构光扫描,捕捉 3D 几何图形,并使用单独的单反高分辨率相机以产品友好的光线捕捉纹理。

项目第一年结束的时候能够做到每周超过 400 次扫描,过程中,研究团队共获得了 100K 份 360 度照片旋转和 10k 份完全 3D 扫描的独特对象。

图 2。

图 3:作为校准过程的扫描。(a) 校正模式使 2D pipeline 能够精确对齐相机。(b) 计算机控制的投影仪为 3D 扫描物体创造了类似的图案。(c) 合适的模式能够以亚像素精度探测位置。(d) 提取扫描物体的完整 3D 形状。

图 4:扫描的物品需要通过质量检查。(a) 许多物品被捕获为高质量的封闭流形 mesh。(b) 有的物体很少产生无效的 mesh,但有时会出现变形。

仿真模型转换

这些原始的扫描模型使用协议缓冲元数据、非常高分辨率的可视化、不适合模拟的格式。对象的一些物理属性,比如质量,会被捕获,但诸如摩擦之类的表面属性在元数据中则没有表示。

为了让这些扫描的模型能够在仿真系统中使用,每个模型都通过一个 pipeline 进行下列步骤:

过滤无效对象。

分配对象名称。

验证对象 mesh。

计算物理属性。

构造碰撞体积。

减小模型尺寸。

创建 SDF 模型。

创建缩略图。

打包模型。


数据集属性

组成

GSO 数据集包含 1030 个扫描对象和相关的元数据,总计 13GB,根据 CCBY 4.0 License 授权。表 III.1 分解了数据集中的模型类别。

表 III.1

优势

自动化 pipeline 可以快速生成大量模型,而无需手工处理。因为这些模型是扫描的,而不是手工建模的,所以它们是真实的,而不是理想中的,这减少了将学习从模拟转移到真实世界的困难。

扫描仪的玻璃平台可以从各个方面扫描模型,包括底座,不像其他扫描仪有不透明的平台。类似地,从环境中提取的模型通常缺少像底座这样起到衔接作用的遮挡区域。

因为该扫描仪根据投影图案而不是深度照相机数据重建表面形状,所以得到的 mesh 具有高保真度。光滑的表面是平滑的,轮廓边缘是准确的 (图 5)。相比之下,RGB-D 数据得到的 mesh,可能出现斑驳和不规则,特别是在轮廓上。

图5


限制

同时,这个数据集也有一些限制:扫描仪的捕捉区域不能容纳比面包箱 (约 50 厘米) 大的对象,因此该数据集不包括在其他数据集中较大的对象,如椅子、汽车或飞机。同样,扫描分辨率是有限的,所以非常小的对象不能以合理的保真度建模。此外,生成的纹理是漫反射的:高度镜面或透明的对象不能表征出来,生成结果也不够理想。

相关文章
|
1月前
|
机器学习/深度学习 人工智能 搜索推荐
【电商搜索】现代工业级电商搜索技术-中科大-利用半监督学习改进非点击样本的转化率预测
【电商搜索】现代工业级电商搜索技术-中科大-利用半监督学习改进非点击样本的转化率预测
90 1
|
3月前
|
数据采集 机器学习/深度学习 人工智能
【2021 第五届“达观杯” 基于大规模预训练模型的风险事件标签识别】1 初赛Rank12的总结与分析
关于2021年第五届“达观杯”基于大规模预训练模型的风险事件标签识别竞赛的初赛Rank12团队的总结与分析,详细介绍了赛题分析、传统深度学习方案、预训练方案、提分技巧、加速训练方法以及团队的总结和反思。
45 0
|
6月前
|
数据采集 人工智能 自然语言处理
手机可跑,3.8B参数量超越GPT-3.5!微软发布Phi-3技术报告:秘密武器是洗干净数据
【5月更文挑战第16天】微软发布 Phi-3 技术报告,介绍了一个拥有3.8B参数的新语言模型,超越GPT-3.5,成为最大模型之一。 Phi-3 在手机上运行的特性开启了大型模型移动应用新纪元。报告强调数据清洗是关键,通过优化设计实现高效运行。实验显示 Phi-3 在多项NLP任务中表现出色,但泛化能力和数据隐私仍是挑战。该模型预示着AI领域的未来突破。[[论文链接](https://arxiv.org/pdf/2404.14219.pdf)]
81 2
|
数据可视化 大数据 数据挖掘
2022-11-28-大数据可视化“可视化国产/进口电影票房榜单”分析,特征维度大于50(一)
2022-11-28-大数据可视化“可视化国产/进口电影票房榜单”分析,特征维度大于50
129 0
|
数据可视化 大数据
2022-11-28-大数据可视化“可视化国产/进口电影票房榜单”分析,特征维度大于50(二)
2022-11-28-大数据可视化“可视化国产/进口电影票房榜单”分析,特征维度大于50
91 0
|
数据采集 机器学习/深度学习 搜索推荐
覆盖四种场景、包含正负向反馈,腾讯、西湖大学等发布推荐系统公开数据集Tenrec(2)
覆盖四种场景、包含正负向反馈,腾讯、西湖大学等发布推荐系统公开数据集Tenrec
196 0
|
机器学习/深度学习 数据采集 移动开发
覆盖四种场景、包含正负向反馈,腾讯、西湖大学等发布推荐系统公开数据集Tenrec(1)
覆盖四种场景、包含正负向反馈,腾讯、西湖大学等发布推荐系统公开数据集Tenrec
306 0
|
人工智能 编解码 计算机视觉
照片里其他游客太多?三星研究员提出LaMa模型,一键全部抠掉!
照片里其他游客太多?三星研究员提出LaMa模型,一键全部抠掉!
280 0
|
开发框架 Android开发 Kotlin
京东万象--摄像头扫描实现垃圾分类软件
京东万象--摄像头扫描实现垃圾分类软件
257 0
|
机器学习/深度学习 算法 数据挖掘
Google Earth Engine—美国西部11个州的灌溉状况进行的年度分类(即30米),1986年至今。四个等级的分类(即灌溉、旱地、非耕地、湿地)
Google Earth Engine—美国西部11个州的灌溉状况进行的年度分类(即30米),1986年至今。四个等级的分类(即灌溉、旱地、非耕地、湿地)
177 0
Google Earth Engine—美国西部11个州的灌溉状况进行的年度分类(即30米),1986年至今。四个等级的分类(即灌溉、旱地、非耕地、湿地)
下一篇
无影云桌面