三维ImageNet开源!港中深韩晓光团队助力计算机视觉进入三维大数据时代

简介: 三维ImageNet开源!港中深韩晓光团队助力计算机视觉进入三维大数据时代


机器之心编辑部

随着深度学习技术的快速发展,数据驱动的方法已成为计算机视觉领域的核心。在过去的十年里,随着 ImageNet 诞生之后,计算机视觉领域见证了 “从数据中学习” 的范式的兴盛。在 ImageNet 上进行预训练,然后迁移到下游的视觉任务,都能显著提升模型性能,并且已经成为 2D 图像领域的标准化方式。

然而,由于真实世界 3D 数据(通常以点云或者 mesh 的形式)的扫描和标注非常繁琐,现有的 3D 数据集要么是合成的,要么与 ImageNet 的规模相去甚远。因此,与 2D 视觉领域不同,在 3D 领域,大多数方法都直接在特定数据集上进行训练和评估,以解决特定的 3D 视觉任务(例如,使用合成的物体或者 ShapeNet 进行新视角合成,使用 ModelNet 和 ScanObjectNN 进行物体分类,使用 KITTI 和 ScanNet 进行场景理解)。


两个关键的问题是:(1)在 3D 视觉领域,尚无一个通用数据集,可以与 2D 领域的 ImageNet 相媲美。(2)这样一个数据集能给 3D 社区带来什么好处还不为人所知。


为了解决这些问题,港中大(深圳)的研究团队提出了 MVImgNet 和 MVPNet 数据集。MVImgNet 包含超过 21 万个视频的 650 万帧图像,涵盖了 238 个类别的真实世界物体。MVPNet 包含超过 8 万个,涵盖了 150 个类别的真实物体点云,并为每个点云提供了类别标签。目前数据集已经在项目主页公开,欢迎大家一起探索!



论文地址:https://arxiv.org/abs/2303.06042  

项目主页:https://gaplab.cuhk.edu.cn/projects/MVImgNet/

GitHub 地址:https://github.com/GAP-LAB-CUHK-SZ/MVImgNet


数据集属性


MVImgNet 包含由智能手机拍摄的 219,188 个真实物体视频。通过对每个视频进行物体分割、COLMAP SfM 重建以及稠密重建,得到了物体掩码、相机参数和点云数据等标注。表 1 展示了 MVImgNet 中数据的统计信息。


表 1. MVImgNet 数据统计


与 ImageNet 中的类别大多是植物和动物(以自然为中心)不同,MVImgNet 包含了 238 个日常生活中常见的物体类别(以人为中心),并且其中有 65 个类别与 ImageNet 重叠。图 1&2 展示了 MVImgNet 的类别目录及数据样例。


图 1. MVImgNet 类别目录


图 2. MVImgNet 中的多视角图片示例


对 MVImgNet 中的稠密重建结果,研究团队进行了进一步的数据清洗(例如移除掉噪音过大、过于稀疏的点云),得到了一个包含 150 类、87,200 个真实物体点云的大规模点云数据集 ——MVPNet。图 3 展示了 MVPNet 中丰富的真实物体点云。


图 3. MVPNet 中的真实点云示例


MVImgNet 能做什么?


下游任务一:3D 重建


研究团队探索了 MVImgNet 对 NeRF 重建以及 MVS 的帮助:通过在 MVImgNet 上训练 NeRF,提升了 generalized NeRF 的泛化能力;通过在 MVImgNet 上预训练自监督 MVS 方法,并将预训练模型迁移到 DTU 数据集上,获得了不错迁移性能。下表展示了直接在 DTU 数据集上训练的模型与用 MVImgNet 预训练模型微调的量化对比结果:

 

表 2. 直接训练 / MVImgNet 预训练模型微调的数值结果


在 MVImgNet 上预训练的 NeRF 拥有更好的泛化能力


下游任务二:视角一致的图像理解


尽管人类能够从不同视角理解一个物体,但深度学习模型并不能鲁棒地做到这一点。为此,研究团队在图像分类、自监督对比学习以及显著性物体检测等任务上做了探索实验,验证了得益于数据的多视角特性,在 MVImgNet 上预训练的模型获得了很好的视角一致性。

 

把 MVImgNet 加入训练提升了分类模型的视角一致性


在 MVImgNet 上预训练的模型,能提高模型对不同视角的鲁棒性


MVPNet 能做什么?


在 MVPNet 数据集上,研究团队探索了其对点云分类及自监督点云预训练的帮助。通过在 MVPNet 上预训练点云分类模型,在 ScanObjectNN 数据集上表现出了很好的迁移性能。而在 MVPNet 上预训练的 PointMAE(一种点云自监督学习方法)也超越了当前的 SOTA 方法。

 

在 MVPNet 上预训练的模型,展现出了很好的迁移性能


MVPNet Benchmark Challenge


在 MVPNet 的基础上,研究团队还提出了一个全新的真实物体点云分类基准测试。研究团队构建了一个包含 64000 点云的训练集以及 16000 点云的测试集。相比于 ScanObjectNN,MVPNet 的点云数量更多,分类难度更大,也更贴近于真实场景。

 

主流方法在 MVPNet Benchmark 上的数值结果


展望


我们相信 MVImgNet 将会为整个计算机视觉社区带来很多诸多可能性与挑战,期待与大家共同探索!


更多数据集与实验细节请参阅原论文。

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
3月前
|
机器学习/深度学习 算法 数据挖掘
计算机视觉五大核心研究任务全解:分类识别、检测分割、人体分析、三维视觉、视频分析
计算机视觉五大核心研究任务全解:分类识别、检测分割、人体分析、三维视觉、视频分析
225 1
|
1月前
|
机器学习/深度学习 监控 算法
开源计算机视觉库OpenCV详解
开源计算机视觉库OpenCV详解
38 3
|
7月前
|
机器学习/深度学习 算法 数据挖掘
计算机视觉五大核心研究任务全解:分类识别、检测分割、人体分析、三维视觉、视频分析
计算机视觉五大核心研究任务全解:分类识别、检测分割、人体分析、三维视觉、视频分析
305 0
|
10月前
|
机器学习/深度学习 传感器 编解码
深度学习应用篇-计算机视觉-语义分割综述[5]:FCN、SegNet、Deeplab等分割算法、常用二维三维半立体数据集汇总、前景展望等
深度学习应用篇-计算机视觉-语义分割综述[5]:FCN、SegNet、Deeplab等分割算法、常用二维三维半立体数据集汇总、前景展望等
深度学习应用篇-计算机视觉-语义分割综述[5]:FCN、SegNet、Deeplab等分割算法、常用二维三维半立体数据集汇总、前景展望等
|
机器学习/深度学习 自然语言处理 计算机视觉
送你6份最新开源代码!含NLP、ML、计算机视觉方向(附代码&论文)
自然语言处理 DuReader: a Chinese Machine Reading Comprehension Dataset from Real-world Applications@zhangjun 推荐Machine Reading Comprehension 大型中文阅读理解数据集,工作来自百度。
2901 0
|
机器学习/深度学习 TensorFlow 算法框架/工具

热门文章

最新文章