在China VR 2021大会上,阿里巴巴淘系技术发布了业界首个基于神经渲染的自研商品三维建模产品Object Drawer。目前,Object Drawer已经提供给部分天猫、淘宝商家使用,将在12月对外开放试用接口。届时欢迎大家体验。
在1920*1080分辨率下,Object Drawer的推理速度可以达到200FPS,在手机上可达到30FPS,实现了实时高清可交互的三维模型。与此同时,模型的训练时间仅仅需要4小时,模型大小仅仅需要20M,同时,对于任意视角查看,商品三维模型都达到实拍照片的展示效果,实现了三维建模一直追求的自动高精度还原。Object Drawer不需要依赖特定设备,只需要手机环绕目标商品进行视频拍摄,就可以完成自动重建,所生成的三维建模效果达到高精模型还原度。
Object Drawer技术指标如下图:
背景介绍
随着VR/AR应用的发展,商品三维建模需求持续增加,商品建模需求可能达到现在的100倍以上。目前的商品三维建模依赖于手工建模,建模需要几小时到几天时间,费用为数百到数千元,即使是花费巨大的时间和金钱,商品还原度依然存在许多问题。传统的自动三维建模技术,需要对目标商品的形状、纹理、材质进行还原。为了提升建模成功率,建模产品对于建模环境、拍摄设备提出了许多要求。即使是这样的前提下,自动建模的三维模型还原度依然存在严重问题,弱纹理物体比如鞋、瓷壶等无法很好的重建,需要人工修复。同时,高精度材质还原,也需要人工进行大量的工作。传统建模失败案例与Object Drawer建模对比如下图:
近几年,神经渲染技术正在飞速发展,其旨在利用神经网络来model场景和物体并可控制以及交互的渲染出photo-realistic的图像和视频。其中,NeRF及其衍生技术利用神经隐式表达来存储场景的物理几盒以及材质纹理信息,端到端的对于渲染效果进行优化,在novel view合成上取得了重大突破,也给三维重建带来了新的使点。但NeRF相关技术在实际应用中存在许多问题,部分主要问题包括:第一,推理速度、训练速度慢,1帧高清图推理时间超过50s,一个物体的建模时间长达2天以上。第二,细致纹理无法还原。第三,视角鲁棒性不好,部分视角渲染效果不理想。第三,隐式表达无法直接导入图形学工具,不支持显式使用,例如CAD场景搭配设计;同时由于只能还原拍摄场景的光照也使得NeRF模型无法支持环境光照变化的场景应用。以下为Object Drawer针对上述问题的一些解决情况。
推理速度和训练速度
神经渲染的推理速度是近期的研究热点,原始NeRF利用volume rendering得到像素颜色值,渲染单像素通常需要forward一个MLP网络上百次。部分突破性工作,例如FastNeRF和PlenOctree,通过优化网络结构,探索几何先验,预存部分信息,在保证渲染质量的同时显著将1080p渲染速度提升到了100FPS左右,同时模型存储要求压缩到了400M左右。Object Drawer深入分析了神经推理过程中的冗余计算,提出了新的模型表示,相比NeRF实现了10000倍的推理速度提升,模型大小也控制在20M以内。