今年CVPR,我们填补了3D场景布局数据集空白,并向全世界开源!

简介: 6月14日,"Learning 3D Generative Model" Workshop CVPR 2020 召开。来自名校各界的3D视觉和图形学学者举办了一场以“3D建模”为主题的线上 workshop,阿里巴巴淘系技术部资深算法专家乐田在会上分享了3D场景数据集3D-FRONT(3D Furnished Rooms with layOuts and semaNTics) 的报告,并向全世界开源此份数据集。

计算机视觉的鼻祖之一,Workshop 重量级嘉宾 Jitendra Malik 也远程在线。


image.png


以下,是我们关于3D场景数据集3D-FRONT(3D Furnished Rooms with layOuts and semaNTics)的核心内容。


▐  3D场景数据迫在眉睫,数据集严重缺乏


想象一下未来,我们用机器人设计一个卧室,即使是放置一个衣柜,机器人也需要考虑房型、角度等许多有关美感的问题。对于这样一个创造性的问题,我们需要大量数据集来指导训练机器人的大脑。


CVPRW-PPT-V7 (1).png

Motivation-InteriorDesign

Designa

Bedroom?

Designing

Hhustration?

Position&

Compatibility?

Catcgory?

Oncntation&Size?

DecorativcCabinct

Style&Color?

orWardrobe?

Ineedmorcexperienceorguidance!!!

Wherecanlfindmanyexquisiteinteriordestgns?


3D与2D场景理解是打造未来AI世界的基础核心的研究课题,且都依赖于大量数据进行来训练相关模型。


然而,当前学界场景数据集严重缺乏,特别是具有高质量布局与室内设计的数据集。这不足以支持和推进数据驱动的高智能化3D场景的相关研究。这是当下学界和业界面临的现实问题。


幻灯片5.png

Motivation-SceneDatabase

PublicSyntheticSceneDatasets

式礼

NotAyailable

16scenes

57scenes

1513scenes

SUNCGDataset

RobotrixDataset

ScanNet

SceneNet

PrincetonUniversity

UniversityofCambridge

StanfordUniversity

Fewquantitiesofscenes

Lackhigh-qualitytexture

Low-qualityInteriorFinishMesh


▐  阿里巴巴作为电商领军,深耕场景化数字营销,创造大量布局与设计数据


阿里巴巴作为世界级的电商互联网巨头,其官方家装家居设计平台——“躺平设计家”积累了海量高质量家居设计方案。


以这些真实家居场景为基础,阿里巴巴淘系技术部结合3D人工智能技术初步打造了场景化数字营销,推出了智能设计搭配服务,并创造了大量精美场景布局与设计数据。


这套 3D-FRONT(3D Furnished Rooms with layOuts and semaNTics)包含10,000真实户型,平均每个户型包含7个场景room。其中,31,734个场景含有人工验证过的精美室内设计信息。


数据集里面涉及的家具来自于阿里巴巴已开源的模型数据集3D-FUTURE(3D FUrniture shapes with TextURE),且都饱含丰富几何与纹理细节。


幻灯片7.png

3D-FRONT-AnOverview

CIne

10.000houscsverzly7roomsconaindichou.mwi

Including:

6金1海文械

High-QualityFurnitureShapcswith

InfomativeTexture(3D-FUTURE)

InteriorFinishMeshes

Layouts

RoomLabels

3D-FUTURE:mesh,xturendendering

layout

幻灯片10.png

Statistics

Stanford

ScanNet

Structured3D

SceneNet

Dataset

3D-FRONT

Scenes

V

V

V

3DMesh

V

V

3DSemanticMesh

V

Textures

34

#ObjctClass

Furniture)

19

#SceneCategories

28

10,001

3,500

#Houses

none

none

none

#Rooms/Scenes

130

1513

21,835

57

75,788


相比于其他3D场景数据集,3D-FRONT在相关统计数字上远超同类,且在高质量硬装mesh,户型布局,以及精美室内设计上是独一无二的。


幻灯片19.png

ProjectPages

lanaedTet

韩先游

Faeyarogwpewgo

CRTEoWyFoc业o

LDWTNEowSTENyoOETtoce

3D-FRONT

3D-FUTURE

3DFRONT:htpSPIehmmWiDOMNAlBaa3cnedalset

3D-FUTURE:htps:/ianchiyuomi


此次报告内容受到热烈响应,国外几何圈内诸多知名大学(斯坦福,牛津,马普所等)均表示对数据集的兴趣,并期待使用它做相关话题的学术研究。


阿里巴巴淘系技术部 3D-FRONT 填补学界 3D 场景布局数据空白,这对于推进学术研究与工业落地紧密结合、对于3D视觉和图形学的未来发展有着重大意义。


▐  开源数据集分享

 

  • 3D-FRONT数据集主页:

https://tianchi.aliyun.com/specials/promotion/alibaba-3d-scene-dataset


  • 3D-FUTURE数据集主页:

https://tianchi.aliyun.com/specials/promotion/alibaba-3d-future


  • Learning 3D Generative Models CVPR 2020 Workshop:

https://learn3dgen.github.io/


 

image.png

阿里巴巴淘系技术部与英国伦敦大学伯贝克学院Steve Maybank教授(Fellow of the IEEE and a Member of the Academia Europaea,the Koenderink Prize in 2008)、悉尼大学陶大程教授(Fellow of the IEEE, ACM and Australian Academy of Science)等国际知名学者合作,与3月30日正式开源业界首个饱含纹理细节的大型3D家具数据集(3D-FUTURE),共同推动3D家居智能研究。并面向全球3D几何与视觉研究爱好者同步启动第一届阿里巴巴3D人工智能挑战赛暨IJCAI-PRICAI 2020 Workshop。3D几何与视觉研究是广受关注的基础研究领域,是建设未来3D智能世界必经之路。


淘系技术部在人工智能国际顶级会议IJCAI-PRICAI举办workshop及竞赛,旨在总结目前最先进的3D几何与视觉技术,启发高质量3D模型理解与重建,并且建立学术研究与工业应用的桥梁。


相关文章
|
4月前
|
数据采集 边缘计算 自然语言处理
谷歌推出创新方法:通过自然文本提示,快速训练视觉模型
【7月更文挑战第5天】谷歌研究者提出新方法,通过自然语言提示训练视觉模型,减少人工标注需求。"建模合作者"框架结合大型语言模型与视觉语言模型,以对话理解视觉概念并自动生成标注,降低训练成本,提高效率。实验显示定义概念工作量减少90%,并在多种任务上超越现有技术。尽管有限制,但此框架为资源受限环境提供了更高效模型训练方案。[论文链接](https://arxiv.org/abs/2403.02626)
32 1
|
5月前
|
机器学习/深度学习 定位技术
ICLR 2024 Spotlight:连续数值分布式表征加持,浙大UIUC让语言模型擅长表格预测
【6月更文挑战第23天】在ICLR 2024会议上,浙大和UIUC的研究团队推出TP-BERTa,一种改进的BERT模型,专为表格预测。通过将连续数值特征转为文本并利用自注意力机制,TP-BERTa能有效处理高维、异构表格数据,提高预测性能。预训练和微调策略使其在XGBoost等传统方法及FT-Transformer等深度学习模型中脱颖而出。论文链接:[anzIzGZuLi](https://openreview.net/pdf?id=anzIzGZuLi)
110 5
|
6月前
|
机器学习/深度学习 自然语言处理 图形学
CVPR 2024:文本一键转3D数字人骨骼动画,阿尔伯塔大学提出MoMask框架
【5月更文挑战第12天】CVPR 2024将展出阿尔伯塔大学的MoMask框架,该框架创新性地将文本转化为3D数字人骨骼动画,推动计算机图形学和动画制作的发展。MoMask结合NLP和计算机视觉,由文本编码器解析输入文本,动作生成器则将其转化为骨骼动画。该技术提升动画制作效率,降低门槛,但面临训练数据需求大和生成动画可能有偏差的挑战。[论文链接](https://arxiv.org/abs/2312.00063)
111 2
|
编解码 自然语言处理 算法
无需任何3D数据,直接文本生成高质量3D内容,清华朱军团队带来重大进展
无需任何3D数据,直接文本生成高质量3D内容,清华朱军团队带来重大进展
253 0
无需任何3D数据,直接文本生成高质量3D内容,清华朱军团队带来重大进展
|
机器学习/深度学习 人工智能 自然语言处理
华为诺亚开源首个亿级中文多模态数据集-悟空,填补中文NLP社区一大空白
华为诺亚开源首个亿级中文多模态数据集-悟空,填补中文NLP社区一大空白
225 0
|
人工智能 算法 数据可视化
ECCV 2022 | 字节提出业内首个通用视频转场方案AutoTransition,数据集和代码已开源
ECCV 2022 | 字节提出业内首个通用视频转场方案AutoTransition,数据集和代码已开源
191 0
|
文字识别 自然语言处理 算法
CVPR 2022 | 关注文本阅读顺序,蚂蚁集团、上海交通大学提出多模态文档理解模型XYLayoutLM
CVPR 2022 | 关注文本阅读顺序,蚂蚁集团、上海交通大学提出多模态文档理解模型XYLayoutLM
266 0
|
SQL 机器学习/深度学习 存储
四大榜单第一名、首个中文预训练表格模型开源,达摩院TableQA技术让表格说话(1)
四大榜单第一名、首个中文预训练表格模型开源,达摩院TableQA技术让表格说话
553 0
|
SQL 人工智能 达摩院
四大榜单第一名、首个中文预训练表格模型开源,达摩院TableQA技术让表格说话(2)
四大榜单第一名、首个中文预训练表格模型开源,达摩院TableQA技术让表格说话
526 0
|
自然语言处理 计算机视觉
华人团队颠覆CV!SEEM完美分割一切爆火,一键分割「瞬息全宇宙」(1)
华人团队颠覆CV!SEEM完美分割一切爆火,一键分割「瞬息全宇宙」
155 0
下一篇
无影云桌面