速度提升24倍,30分钟完成室内大场景逆渲染,如视研究成果入选CVPR 2023(2)

简介: 速度提升24倍,30分钟完成室内大场景逆渲染,如视研究成果入选CVPR 2023

消融实验

为了展示其光照表示和材质优化策略的有效性,如视针对 TBL、混合光照表示、第一阶段的反照率初始化、第二阶段用于粗糙度估计的 VHL 采样和语义传播、第三阶段基于分割的微调进行了消融实验

首先将 TBL 与以往方法中广泛使用的 SH 光照和 SG 光照方法进行了比较,结果如下图 7 所示,如视 TBL 在低频和高频特征方面都表现出了高保真度。


其次验证混合光照表示的有效性,将混合光照表示与原始 TBL 进行比较,结果如下图 8 所示。如果没有混合光照表示,反照率会导致噪声并且收敛变慢。预计算辐照度的引入可以使用高分辨率输入来恢复精细的材质,并大大加速优化过程。同时与 NIrF 相比,IrT 产生了更精细和无伪影的反照率。


最后对三阶段式策略的有效性进行了验证,结果如下表 3 和图 9 所示。基线粗糙度未能收敛且仅高光区域得到更新。第一阶段如果没有反照率初始化,则高光区域反照过亮并导致不正确的粗糙度。第二阶段基于 VHL 的采样和基于语义的传播,对于恢复未观察到镜面反射高光区域的合理粗糙度至关重要。第三阶段基于分割的微调产生了精细的反照率,使得最终的粗糙度更平滑,并阻止了不同材质之间粗糙度的错误传播。


如视全新逆渲染技术,强在哪里?

其实,如视在其 CVPR 2022 论文《PhyIR: Physics-based Inverse Rendering for Panoramic Indoor Images》中通过提出神经网络训练方法,在单张图像的逆渲染任务上取得了 SOTA 结果。现在全新逆渲染框架不仅做到了多视角、整屋全空间全场景,而且解决了以往逆渲染方法的多个关键缺陷。

首先以往基于合成数据训练的方法在真实场景中表现不佳。如视全新深度逆渲染框架首次引入了「层级式场景先验」,通过多阶段的材质优化并结合全球最大三维空间数据库如视数字空间中的居住空间数据,对空间内的光照、反射率和粗糙度等物理属性实现了分层级的精准预测。

预测结果最终输出为物理合理、全局一致的多类型材质贴图,将如视设备真实拍摄的室内场景数据无缝转化为数字化渲染资产,适配 Unity、Blender 等目前所有主流渲染引擎,由此实现场景资产自动生成和基于物理的 MR 应用,如材质编辑、新视图合成、重打光、虚拟物体插入等。这种通用性很强的数字资产有利于支持后续更多不同的应用和产品。

材质编辑。

重打光。

其次以往基于优化的可微渲染方法计算成本极高,效率极低。近年来,为了更好地解决逆渲染问题,同时减少对训练数据的依赖,可微渲染方法被提出,即通过「微分求导」方式使正向渲染可微分,进而将梯度反向传播至渲染参数,最终优化得到基于物理的待求解参数。这类方法包括球谐(spherical-harmonic, SH)光照 [1] 和三维球形高斯(Volumetric Spherical Gaussian, VSG)光照。

但是大规模室内场景存在遮挡、阴影等大量复杂的光学效应,在可微渲染中建模全局光照会带来高昂的计算成本。如视本次提出的 TBL 在高效准确地表示室内场景全局光照的同时,只需要大约 20MB 内存,而基于密集网格的 VSG 光照 [2] 大约需要 1GB 内存,基于稀疏网格的 SH 光照方法 Plenoxels [3] 大约需要 750MB 内存,数据内存容量实现了数十倍缩减

不仅如此,如视新方法可以在 30 分钟内完成整个室内场景的逆渲染,而传统方法 [4] 可能需要 12 个小时左右,整整提升了 24 倍。计算速度的大幅提升意味着成本的降低,性价比优势更加显著,从而离大规模实际应用更近了一步。

最后以往的类 NeRF 神经逆渲染方法(如 PS-NeRF [5]、 NeRFactor [6] 等)主要面向以物体为中心的小规模场景,建模大规模室内场景似乎无能为力。基于如视精准数字空间模型以及高效准确的混合光照表示,全新逆渲染框架通过引入语义分割和房间分割先验解决了这一问题。

对于此次的全新深度逆渲染框架,如视首席科学家潘慈辉表示,「真正意义上实现了对真实世界更深层的数字化,解决了以往逆渲染方法难以在真实场景下恢复物理合理的材质和光照以及多视角一致性的问题,为三维重建和 MR 的落地应用带来了更大想象空间。」

把握逆渲染技术优势在数字空间中创新 VR + 产业融合

一直以来,如视在三维重建领域拥有很多技术积累,投入大量精力打磨并致力于相关算法的落地。同时对前沿技术的研发支持力度很大,非常看重行业上领先技术的攻克。这些成为包括此次全新逆渲染技术在内如视三维实景模型重建和 MR 研究获得国际学术界认可的重要基础,并帮助如视算法能力在理论研究、技术应用等层面步入国际领先水平。

这些算法及技术优势将实现对真实世界的更深层数字化,并借此进一步加速实现数字空间的建设。目前,如视数字空间通过自研的采集设备,在不同国家、不同应用场景中的累计采集量已经超过 2700 万套、覆盖面积达到 22.74 亿平方米。如视数字空间又将助力其 VR + 产业融合发展方向,为商业零售、工业设施、文博会展、公共事务、家居家装、房产交易等行业带来数字化应用升级的全新发展机遇,如 VR 看房、VR 博物馆等。

如视打造的AI营销助手。

对于 VR + 产业融合,如视的最大优势在于不断良性进化的数字化重建算法和海量真实数据的积累,使其同时拥有了较高的技术壁垒和较大的数据壁垒。这些算法和数据在某种程度上还能相互循环起来,不断地扩大优势。同时数据和算法的壁垒使如视更加容易地切入各个行业的痛点问题,带来一些技术解决方案,创新行业发展新模式。

逆渲染技术成果连续两年入选 CVPR,主要脱胎于如视想要在 MR 方向上有所作为并在产业上实现一些落地。未来,如视希望打通实景 VR 与纯虚拟仿真之间的 Gap,真正做到虚实融合,并构建更多行业应用。

参考资料:[1] Hao Zhou, etal. Glosh: Globallocal spherical harmonics for intrinsic image decomposition[2] Zian Wang, etal. Learning indoor inverse rendering with 3d spatially-varying lighting[3] Sara Fridovich-Keil, etal. Plenoxels: Radiance fields without neural networks[4] Merlin Nimier-David, etal.  Material and lighting reconstruction for complex indoor scenes with texture-space differentiable rendering [5] Wenqi Yang, etal. Ps-nerf: Neural inverse rendering for multi-view photometric stereo[6] Xiuming Zhang, etal. NeRFactor: Neural Factorization of Shape and Reflectance Under an Unknown Illumination

相关文章
|
移动开发 前端开发 算法
Selenium和Appnium、Airtest的底层原理
Selenium和Appnium、Airtest的底层原理
1370 0
|
11月前
|
监控 负载均衡 网络协议
OSPF在小型网络中的应用:简化配置与高效管理
OSPF在小型网络中的应用:简化配置与高效管理
386 1
|
12月前
|
网络协议 应用服务中间件 网络安全
阿里云轻量应用服务器的使用限制
阿里云轻量应用服务器的使用限制
|
消息中间件 测试技术 开发工具
消息队列 MQ操作报错合集之收到"WARN RocketmqClient - consumeMessage Orderly return"警告,是什么原因
在使用消息队列MQ时,可能会遇到各种报错情况。以下是一些常见的错误场景、可能的原因以及解决建议的汇总:1.连接错误、2.消息发送失败、3.消息消费报错、4.消息重试与死信处理、5.资源与权限问题、6.配置错误、7.系统资源限制、8.版本兼容性问题。
292 0
|
Java
深入探索Java IO流:InputStream/OutputStream与Reader/Writer的奥秘!
【6月更文挑战第26天】Java IO流用于输入输出操作,包括字节流(InputStream/OutputStream)和字符流(Reader/Writer)。InputStream和OutputStream处理字节数据,是所有字节流的基类,可被继承以自定义读写行为。
229 0
|
域名解析 弹性计算 安全
阿里云域名注册到备案再到解析详细流程
本文主要讲解域名的注册,备案和解析流程,帮小白轻松搞定域名全流程
|
Java Android开发
Android module 打包成aar或jar
Android module 打包成aar或jar
698 0
|
人工智能 弹性计算 并行计算
带你读《弹性计算技术指导及场景应用》——1. 技术改变AI发展:CUDA Graph优化的底层原理分析
带你读《弹性计算技术指导及场景应用》——1. 技术改变AI发展:CUDA Graph优化的底层原理分析
379 2
|
机器学习/深度学习 自然语言处理 算法
Python遗传算法GA对长短期记忆LSTM深度学习模型超参数调优分析司机数据|附数据代码
Python遗传算法GA对长短期记忆LSTM深度学习模型超参数调优分析司机数据|附数据代码
|
传感器 机器学习/深度学习 Ubuntu
【论文解读】F-PointNet 使用RGB图像和Depth点云深度 数据的3D目标检测
​F-PointNet 提出了直接处理点云数据的方案,但这种方式面临着挑战,比如:如何有效地在三维空间中定位目标的可能位置,即如何产生 3D 候选框,假如全局搜索将会耗费大量算力与时间。 F-PointNet是在进行点云处理之前,先使用图像信息得到一些先验搜索范围,这样既能提高效率,又能增加准确率。 论文地址:Frustum PointNets for 3D Object Detection from RGB-D Data  开源代码:https://github.com/charlesq34/frustum-pointnets
1534 0