大淘宝技术发布首个基于神经渲染的3D建模产品Object Drawer,现已向学术界与普通用户开放

简介: 大淘宝技术发布首个基于神经渲染的3D建模产品Object Drawer,现已向学术界与普通用户开放

1.gif

12月26-28号,第十一届国际图像图形学学术会议将在海口举办。阿里巴巴资深算法专家、大淘宝技术XR  Team算法负责人赵斌强(乐田)受邀在大会发表题为“From Physical World to Digital World: 3D  Techniques in Digital Industry Transformation”主旨演讲,发布了开创性的Object Drawer产品,NeRF的推理速度提升了10000倍,训练速度提升10倍以上,同时宣布面向学术界和普通用户开放,供广大开发者及科研人员交流体验。
科技媒体「新智元」特此进行了报道,以下为报道原文——

前阵子,北京环球影城哈利·波特的魔法世界摩肩接踵,人手一套巫师袍+魔杖,咒语更是满天飞:除你武器、呼神护卫。不过,你有没有想过,其实在家里也能体验一把当「魔法师」的乐趣。

小魔杖一挥,嘴里念念有词:「Apparate」(幻影移形)!

 image.png

接着,眼睛一闭一睁,周围的景物就奇迹般地变了个样子。

 image.gif 2.gif

神奇是很神奇,但这个咒语可不好学,只有很厉害的魔法师才能掌握。

 

最近,有人想在自己家里「幻影移形」,分分钟,就像换了一个新房子。

 

听上去有些天方夜谭是吗?

 

沙发拔地而起感受一下?

 image.gif 3.gif

当然,目前要是想把家里重新设计装修一番,劳心劳力是免不了的。

 

如果想只动动手指,恐怕还得到数字世界里才能实现。

幻影移形!在数字世界中「白嫖」设计

而这个故事还得从小编前段时间给自己的小窝设计装修说起。 

虽然看起来距离日常生活有点远,但搞起家装来,是真的头疼。 

颜色、大小、风格,各种组合全凭想象力。

 不想燃烧脑细胞也可以,只需发动「钞」能力,全屋定制直接拉满。

 image.gif image.png

不过现在XR这么火,那是不是可以在里面用AR、VR啥的来搞设计? 

等等,AR、家具、设计,这不就是宜家推出的「IKEA Place」么! 

没错,早在2017年,随着苹果IOS 11的推出,宜家就利用当时最新的ARKit技术让用户可以实时地在家里看到超过2000种家具产品。 

基本上解决了在简单的环境中看一看「这个家具能不能放得下」的问题。

image.gifimage.png

然而,当环境稍稍变得复杂,或者说仅仅是同时放置两个家具,宜家就搞不明白这其中的位置逻辑了。

 当然,这个可以通过反复地手动调整解决。But,你有没有想过,或许这个产品本身就是一个「伪需求」?

 比如说你想设计一下自己新买的房子,这时候能参考的基本只有一张户型图。

 这简直太难了,不如去实地考察一下。

image.png

嗯,空无一物,不如借助AR摆放一波家具看看?

 恐怕除了要把自己的手累断了之外,想看清楚最终的效果,得「穿模」到墙里面去才行。

 那要这AR又有何用?image.png

 image.gif 不必担心,这时候就要把思路打开。

 既然家具可以建模,那家是不是也可以建个模,然后把家具的模型统统放进家的模型里去呢?

 这时候就要祭出一个神秘工具:「Object Drawer」。

 这个Object Drawer除了建模物品,还能建模房间,堪称是一站式解决方案。 

在输入户型图之后,Object Drawer会对结构、符号、文字进行识别并计算房间的尺寸,然后对整体进行向量化,最后就可以生成整个房间的3D模型啦。image.png

 image.gif 而且这波操作完全不需要自己动手,淘宝已经准备好了200万套真实的户型供你选择。 image.gif

image.png 有了自己家的模型,就可以把淘宝里那些地板、壁纸、桌子、椅子等商品的3D模型们放进去了。 

不满意随便改,动动手指就能搞定家装设计,而且最重要的是:免费。

 如果不想自己操刀,或者想看看设计师怎么说,淘宝也准备了800万套全屋设计可以参考。 image.gif

5.gif

 而对于商家来说,Object Drawer也早就已经用在商品的主图上了。 image.png 是不是看着还挺新鲜? 

正巧,在12月26-28日举办的第十一届国际图象图形学学术会议上,阿里巴巴大淘宝技术部正式发布了Object Drawer。它将NeRF的推理速度提升了10000倍,训练速度提升10倍以上。 image.png为此,阿里巴巴资深算法专家、大淘宝技术XR  Team算法负责人赵斌强(乐田)受邀在大会发表题为「From Physical World to Digital World: 3D  Techniques in Digital Industry Transformation」的主旨演讲。 image.png当然,最重要的一点是,Object Drawer会面向学术界和普通用户开放,供广大开发者及科研人员交流体验。

 被装修折磨得死去活来的小编决定趁机提前试用一波。

   首先是数据的准备

Object Drawer建模所用的视频需要采用绕物体360度的环绕方式进行拍摄,同时标注3张地面的分割mask。
image.gif视频拍摄

image.png标注地面

image.png

为了方便对地面进行标注,Object Drawer在Github上提供了相应的标注工具。

image.png

项目地址:https://github.com/3D-FRONT-FUTURE/ObjectDrawer-ToolBox

▐  接下来是视频的提交

当完成了视频、标注数据的准备后,需要登录Object Drawer网站提交视频进行建模。

点击网站右上角login进行登录,然后点击右上角的图像,在弹出的tab页面中选择Video  Upload,等待跳转到视频提交页面后填写视频名称,并上传视频、标注,同意Object  Drawer使用上传视频的服务协议,最后点击提交按钮;至此就已完成视频提交操作,需要等待一段时间,系统将会自动完成视频建模过程。33.gif
image.gif试用接口:https://objectdrawer.alibaba.com/index.html(注意仔细阅读拍摄要求哦)

 最后,就可以得到渲染好模型啦

image.gif44.gif


你可能又会问了,Object Drawer这个应用也太窄了吧。 思路要打开! 「俗话」说得好,万物皆可虚拟。 既然都是虚拟的,那不都得建个模先? 比如说你想在数字世界卖现实中的商品,结果最后就整了几个马赛克方块,真当是卖NFT呢?
image.png
然而,对于成千上万的商品,全靠人工建模不得干到猴年马月去了。 但如果连模型都没有,又何来的数字世界呢?

瞧一瞧看一看!新的SOTA出炉了

说到建模,时间得先回到2020年,三维重建领域来了一个后起之秀——NeRF神经渲染技术。 而图形学和计算机视觉核心之一是重建并渲染真实世界的人和物。 传统三维重建如Photogrammetry工具大致流程为:稀疏点云重建->稠密点云重建->网格重建->纹理贴图->材质贴图。经验表明,以Photogrammetry为基础的建模工具强依赖于拍摄环境;对弱纹理和平滑区域的表面还原较差;通常依赖人工修复模型网格与纹理并赋予材质。

image.png

NeRF提出用神经辐射场来表达场景,跳过显式三维重建,直接通过神经渲染实现场景的free view synthesis。 NeRF网络作为一个函数,输入为5D坐标包括空间中点坐标x=(x,y,z)以及相机视角方向d=(θ,φ),输出为c=(r,g,b)颜色以及密度σ,写作:image.png,物体的体素密度只和空间坐标x有关,输出颜色与空间坐标及视角方向相关。
image.png

由于NeRF技术的渲染过程完全可微,可以端到端进行训练,这使得NeRF可以准确还原场景各个视角的渲染效果。

 

从三维重建而非纯视角生成的角度来看,NeRF有几个较为明显的不足:

  1. 训练及推理速度较慢,1张1080P图推理时间超过50s,一个物体的建模时间通常需要2天以上;
  2. 渲染图片清晰度不足,且无法恢复细节纹理;
  3. 需要大量多视角图片才能实现较好的view interpolation;
  4. 隐式表达无法直接导入图形学工具,不支持显式使用,例如CAD场景搭配设计;
  5. 只能还原拍摄场景的光照,无法支持环境光照变化的场景应用。

 

这些问题制约了规模化产业应用,如下一代VR/AR,3D设计,3D浏览等。

2021年,阿里巴巴大淘宝技术部,发布了Object Drawer,将NeRF的推理速度提升了10000倍,训练速度提升10倍以上。

同时,Object Drawer添加了更多的高频纹理信息将建模还原度进一步提升,并

提出光照迁移辅助方案,使得NeRF重建的模型可以显式地应用于日常场景搭配设计,从而使得神经渲染技术达到实用标准。

推理速度和训练速度

 

要输出1920*1080分辨率的图像,NeRF的推理速度为50s/帧,而实用的要求要达30帧/s以上,差距为1500倍。

 

Object Drawer从场景表示方法、有效像素、有效体素等多个角度进行冗余计算的优化,在1920*1080分辨率下,推理速度可以达到240FPS(V100 GPU)以上,相比NeRF实现了10000倍的推理速度提升。

 

Object Drawer在手机上也可达到30FPS,实现了实时的高清交互。

image.png

与此同时,模型的训练时间也压缩至4小时,模型package平均小于20M。

视角外插

 神经渲染技术在应用时,视角外插是不可忽视的问题。 由于拍摄的图片无法覆盖所有视角,当输出视角发生变化或是拍摄视角有一定差异时,需要神经渲染有很好的泛化能力,支持新视角图片的生成。 Object Drawer利用随机视角增强与平均视角embedding技术,改进了视角外插效果。
image.gif333.gif

NeRF (左)与Object Drawer (右)在Novel View Extrapolation下的表现

 

实验表明,随着视角差异的增大,NeRF等模型的PSNR都出现了大幅的下降,而Object Drawer的PSNR基本保持不变。

三维模型表示

 

三维模型,需要能够支持各种三维应用,包括三维布局、渲染出图、三维互动等等。NeRF只能支持渲染功能,使得其应用受到很大的限制。

 

Object Drawer给物体的隐式表达配对一个粗糙的显式网格模型。显式网格模型可直接提取于NeRF或其他高效网格重建算法。如图, 一方面,三维粗模可直接导入图形学工具,用于三维场景设计等现实应用。

 

另一方面,神经渲染可以生成物体在任意视角下的高清渲染图。当然,这种物理和神经渲染结合的思路暂时不支持重建物体的物理仿真变化,如网格编辑变形等。

image.gifimage.png

光照迁移

 

为了渲染出反射,阴影等物理现象作用于三维粗模的光照效果,Object Drawer提出了光照迁移技术, 可以在神经渲染生成的物体视角图上呈现出逼真光照效果。

 

image.png

建模场景图、建模结果图和三维场景光照迁移结果图

 

在实验数据的结果表明,该技术能够适应各种复杂光源条件,完成对细节阴影效果的迁移,视觉效果之惊艳,在3D-FRONT测试数据集平均PSNR达到30.17。

 

纹理细节还原

 

对于商品三维模型来说,纹理细节的还原度非常重要。

 

目前的NeRF系列研究虽然可以以较高的精度还原物体的外观,但是无法恢复纹理细节,如布料线条。

 

Object Drawer优化了模型表达能力,在大幅度加速模型训练的同时,第一次做到了高清精细纹理的还原,具体的效果如下图所示。

 image.png

image.gif

一键自动重建

 

如此强大的技术,使用起来会不会门槛很高呢?

 

完全不会!

 

比方说,用户想将一把椅子进行三维建模。

 

那么,不需要依赖其他的特定设备,只需要用手机环绕目标商品拍摄一段视频。

 

1111.gif

 

然后,直接交给Object Drawer就可以一键自动重建,所生成的三维建模效果就已经可以达到很高的精度。

 

112.gif


完成模型重建后,如果要应用模型,Object Drawer会自动将PBR场景光照迁移到模型的神经渲染中,完成重建模型与场景的合成。

 

image.png

 

于是,一把3D「小黄椅」就这样诞生了,造型、纹理完美复刻。

 

但是,明明有3ds Max这类的建模工具,又为何需要用神经网络?

 

image.png

 

这个就引出了问题的核心:建模成本和自由度。

 

如果想用这些专业工具建模,首先就需要学习一波。知乎答友「丝路教育」表示,只需4个月专业学习,就能掌握核心技能。

 

等不及怎么办,那就「淘宝」一个吧。然而,普通质量的模型大概200-500一个,期间还需要进行反复地沟通和修改。

 

苹果虽然也有一款Object Capture,但是同样需要后期手动对模型进行修正。

 

直出的效果怎么说呢,自己玩儿一玩儿还是可以的,但如果想作为商品去展示,恐怕迎来的就是「月销0」了。毕竟对于商品来说「真实」才是最重要的。

image.gifimage.png

 

左手是时间,右手是金钱,简直左右为难,哪个都付不起啊。

 

这时候是不是想起Object Drawer了?

 

无需专业知识、无需专业工具,拿着手机拍一圈,分分钟实现模型的量产。

 

那么,现在我们有了高质量的模型,是不是就能搞定数字世界了呢?

不谈便携性,就是耍流氓

不如先回答这样一个问题,「数字世界」是什么? 或者,换一个说法,电话是什么? 第一反应通常都是手机对吧,随时随地都可以用。 但是如果我告诉你,只有固定放着的那个叫电话,手里那个不是,你肯定想这人怕不是有什么大病。 image.png

现在回到最开始的问题上,我跟你说,只有戴着一个头盔,两手拿着控制器,坐在电脑或者游戏机前面,体验的才是「数字世界」,你觉得如何? 这不应该是走到哪儿都能体验的么? 比如去逛街,每件商品的价格都能直接显示在你的AR眼镜上,如果能实现的话,简直就是社恐的福音。 image.png此前,苹果的CEO库克就曾表示:「AR是虚拟世界与现实世界的叠加。这种方式不会分散你对物理世界的注意力,而是加强彼此之间的关系和合作。」 「增强现实技术可以增强我们的对话,增强学习,并真正放大技术对人们的价值,而不是把现实世界封闭起来。」 image.png实际上,作为数字世界的一环,AR技术不仅可以直接在手机上体验,而且AR眼镜的通信和计算也都可以通过手机。

 而作为电商界的老大哥,淘宝尤为看好AR这个领域。

 除了图文、视频、直播等基本的线上购物方式,淘宝这几年还推出了AR购,可以体验口红试色、墨镜试戴、试鞋等AR导购功能。随着数字世界的到来,也意味着设备和交互将会不断革新。 

这对电商场来说,将会是一次历史性的重构。

1231.gif

为此,大淘宝技术成立了全新的XR Team,也就是Object Drawer的研发团队。 

企业搞技术,最终都离不开商业化。而XR Team也是从最有价值的应用场景入手,比如卖地板和壁纸、大型家具等等。

 毕竟对于用户来说,通常都希望能够体验或者感受一下自己要买的产品,至少不满意退货也是可以的。但刚才提到的这些,恐怕就不那么容易了,可以说是买家最想见到实物,但却最难见到实物的产品了。image.png

image.gif 不过,随着Object Drawer的普及,会有越来越多的商品有自己的模型,基于3D的商品库也逐渐地开始成形。 之后,大淘宝技术XR Team将会去突破Object Drawer的限制,去打造一系列的工具,从自动装修到服装的试穿,几乎涵盖整个购物的流程。 最后,就是让这些软件和工具实现跨平台运行,不管是AR眼镜还是手机都能够使用。 而大淘宝技术XR Team构想的终极目标就是让用户在虚、实之间无缝地互动。

项目地址:https://github.com/3D-FRONT-FUTURE/ObjectDrawer-ToolBox

试用接口:(注意仔细阅读拍摄要求哦)https://objectdrawer.alibaba.com/index.html

参考资料

[1].  Tewari, Ayush, Justus Thies, Ben Mildenhall, Pratul Srinivasan, Edgar  Tretschk, Yifan Wang, Christoph Lassner et al. "Advances in neural  rendering." arXiv preprint arXiv:2111.05849 (2021).

[2].  Fu, Huan, Bowen Cai, Lin Gao, Ling-Xiao Zhang, Jiaming Wang, Cao Li,  Qixun Zeng et al. "3d-front: 3d furnished rooms with layouts and  semantics." In Proceedings of the IEEE/CVF International Conference on  Computer Vision, pp. 10933-10942. 2021.

[3].  Fu, Huan, Rongfei Jia, Lin Gao, Mingming Gong, Binqiang Zhao, Steve  Maybank, and Dacheng Tao. "3d-future: 3d furniture shape with texture."  International Journal of Computer Vision 129, no. 12 (2021): 3313-3337.

[4].  Mildenhall, Ben, Pratul P. Srinivasan, Matthew Tancik, Jonathan T.  Barron, Ravi Ramamoorthi, and Ren Ng. "Nerf: Representing scenes as  neural radiance fields for view synthesis." In European conference on  computer vision, pp. 405-421. Springer, Cham, 2020.

[5].  Barron, Jonathan T., Ben Mildenhall, Matthew Tancik, Peter Hedman,  Ricardo Martin-Brualla, and Pratul P. Srinivasan. "Mip-NeRF: A  Multiscale Representation for Anti-Aliasing Neural Radiance Fields."  arXiv preprint arXiv:2103.13415 (2021).

[6].  Yu, Alex, Ruilong Li, Matthew Tancik, Hao Li, Ren Ng, and Angjoo  Kanazawa. "Plenoctrees for real-time rendering of neural radiance  fields." arXiv preprint arXiv:2103.14024 (2021).

[7].  Garbin, Stephan J., Marek Kowalski, Matthew Johnson, Jamie Shotton, and  Julien Valentin. "Fastnerf: High-fidelity neural rendering at 200fps."  arXiv preprint arXiv:2103.10380 (2021).

相关文章
|
5月前
|
JavaScript 前端开发 开发者
Vue.js 响应式变革来袭!结合热点技术,探索从 Object.defineProperty 到 Proxy 的奇妙之旅,触动你的心
【8月更文挑战第30天】在 Vue.js 中,响应式系统自动追踪并更新数据变化,极大提升了开发体验。早期通过 `Object.defineProperty` 实现,但存在对新旧属性处理及数组操作的局限。Vue 3.0 引入了 `Proxy`,克服了上述限制,提供了更强大的功能和更好的性能。实践中,可根据项目需求选择合适的技术方案,并优化数据操作,利用懒加载等方式提升性能。
51 0
|
6月前
|
关系型数据库 分布式数据库 数据库
PolarDB产品使用问题之如何将冷存到OSS(Object Storage Service)的数据恢复
PolarDB产品使用合集涵盖了从创建与管理、数据管理、性能优化与诊断、安全与合规到生态与集成、运维与支持等全方位的功能和服务,旨在帮助企业轻松构建高可用、高性能且易于管理的数据库环境,满足不同业务场景的需求。用户可以通过阿里云控制台、API、SDK等方式便捷地使用这些功能,实现数据库的高效运维与持续优化。
|
8月前
|
存储 监控 开发工具
对象存储OSS产品常见问题之python sdk中的append_object方法支持追加上传xls文件如何解决
对象存储OSS是基于互联网的数据存储服务模式,让用户可以安全、可靠地存储大量非结构化数据,如图片、音频、视频、文档等任意类型文件,并通过简单的基于HTTP/HTTPS协议的RESTful API接口进行访问和管理。本帖梳理了用户在实际使用中可能遇到的各种常见问题,涵盖了基础操作、性能优化、安全设置、费用管理、数据备份与恢复、跨区域同步、API接口调用等多个方面。
236 9
|
编解码 自动驾驶 测试技术
【论文速递】ECCV2022 - PETR: Position Embedding Transformation for Multi-View 3D Object Detection
【论文速递】ECCV2022 - PETR: Position Embedding Transformation for Multi-View 3D Object Detection
385 0
【论文速递】ECCV2022 - PETR: Position Embedding Transformation for Multi-View 3D Object Detection
|
存储 机器学习/深度学习 编解码
淘系技术发布业界首个基于神经渲染的3D建模产品Object Drawer,推理速度均提升10000倍
淘系技术发布业界首个基于神经渲染的3D建模产品Object Drawer,推理速度均提升10000倍
|
20天前
|
JSON Java Apache
Java基础-常用API-Object类
继承是面向对象编程的重要特性,允许从已有类派生新类。Java采用单继承机制,默认所有类继承自Object类。Object类提供了多个常用方法,如`clone()`用于复制对象,`equals()`判断对象是否相等,`hashCode()`计算哈希码,`toString()`返回对象的字符串表示,`wait()`、`notify()`和`notifyAll()`用于线程同步,`finalize()`在对象被垃圾回收时调用。掌握这些方法有助于更好地理解和使用Java中的对象行为。
|
2月前
|
存储 Java 程序员
Java基础的灵魂——Object类方法详解(社招面试不踩坑)
本文介绍了Java中`Object`类的几个重要方法,包括`toString`、`equals`、`hashCode`、`finalize`、`clone`、`getClass`、`notify`和`wait`。这些方法是面试中的常考点,掌握它们有助于理解Java对象的行为和实现多线程编程。作者通过具体示例和应用场景,详细解析了每个方法的作用和重写技巧,帮助读者更好地应对面试和技术开发。
144 4
|
3月前
|
Java
Java Object 类详解
在 Java 中,`Object` 类是所有类的根类,每个 Java 类都直接或间接继承自 `Object`。作为所有类的超类,`Object` 定义了若干基本方法,如 `equals`、`hashCode`、`toString` 等,这些方法在所有对象中均可使用。通过重写这些方法,可以实现基于内容的比较、生成有意义的字符串表示以及确保哈希码的一致性。此外,`Object` 还提供了 `clone`、`getClass`、`notify`、`notifyAll` 和 `wait` 等方法,支持对象克隆、反射机制及线程同步。理解和重写这些方法有助于提升 Java 代码的可读性和可维护性。
136 20
|
5月前
|
Java
【Java基础面试二十】、介绍一下Object类中的方法
这篇文章介绍了Java中Object类的常用方法,包括`getClass()`、`equals()`、`hashCode()`、`toString()`、`wait()`、`notify()`、`notifyAll()`和`clone()`,并提到了不推荐使用的`finalize()`方法。
【Java基础面试二十】、介绍一下Object类中的方法
|
4月前
|
Python
类与面向对象编程(Object-Oriented Programming, OOP)
类与面向对象编程(Object-Oriented Programming, OOP)
29 0