中国女博士的「水淹食堂」大法:单目视频完美重建3D场景,画面毫无违和感

简介:

云栖号资讯:【点击查看更多行业资讯
在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来!


一位程序员小哥,正在Facebook食堂愉快地准备喝咖啡。

突然,就被水淹了。

1

而另一位正好好坐着玩手机的同学,则猝不及防地遭遇了屋顶漏雪事件。

2

3

不过几秒钟的时间,不仅头发上覆上了一层雪,脚面都被积雪埋住了。

遭遇“灵异事件”的还有一只无辜的小猫咪。

它本乖乖坐在小桌板上专心卖萌,房间却突然暗了下来,还有奇怪的小光球开始绕着它转圈圈!

4

当事猫表示:当时我心里害怕极了。

5

看着受害猫惊(dan)慌(ding)的表情,兼此事件一时引得物议沸腾:

6

我们决定:走进科学。

7

而当我们剥开事实的真相,发现,这一切事件的“始作俑者”竟是——

来自华盛顿大学和Facebook的最新单目深度估计算法,已中SIGGRAPH 2020,将于下周在GitHub上开源。

单目视频深度估计

算法的核心思路,是结合单图像深度估计网络和传统的结构-运动重建法,使网络学会为指定视频生成几何一致的深度。

该方法整体设计架构如下。

8

输入单目视频,对一对相机位置不同的帧进行采样,然后,用预先训练好的单图像深度估计模型估计深度,得到初始深度图。

对这对图像,使用光流法前后向一致性检查建立对应关系。

接着,利用这些对应关系和相机位置提取三维几何约束。

将三维几何约束分解为两个损失:

  • 空间损失
  • 视差损失

通过标准反向传播,用这两个损失对深度估计网络的权重进行微调,以最小化多帧几何不一致性误差。

9

如此,只需要对视频中任意帧进行配对采样,就可以将这一过程扩展到整个视频,对单目视频中的所有像素进行几何一致的深度重建。

在研究人员的实验中,对于一个244帧的视频,用4个英伟达Tesla M40 GPU训练下来需要40分钟。

超过此前SOTA,各个数据集上表现稳定

在评估深度重构方法方面,已经有了很多数据集。

但论文作者认为,这些数据集或多或少存在一些问题——要么是合成的,要么是针对自动驾驶等特定领域的,要么是针对单幅图像或静态场景的视频的,并不能完美地评估他们方法有效性。

于是他们用手持摄像机做了一个自定义3D数据集,来进行评估。数据集由静态和物体运动量很小的动态场景组成,视频的分辨率为1920x1440像素,长度从119帧到359帧不等。

对比的对象是此前最先进的深度估计模型:传统的多视角立体视觉系统COLMAP、单图像深度估计模型Mannequin Challenge和MiDaS-v2、基于视频的深度估计模型WSVD(两帧)和 NeuralRGBD(多帧)。

评估的指标一共有三个,覆盖模型的“测光误差”(Es)、“(不)稳定性”(Ed)、“漂移程度”(Ep),都是反向指标,数值越小,证明模型效果更好。

从下图中可以看出,无论是静态场景还是动态场景,论文中提出的深度估计算法,在各个指标上都是最优。

10

从直观的结果中也能够看出效果的差异:

11

12

不仅精度和几何一致性更高,视觉效果也更加稳定。

此外,为了评估的完整性与公平性,他们还在三个公开数据集上,与这些模型进行了定量比较,分别是:TUM数据集、ScanNet数据集和KITTI 2015数据集。

下表展示的是ScanNet数据集上结果,论文中提出的方法虽然不是最优,但与最优算法的差距并不算大。

13

来自中国女学霸,本科毕业于上海交大

这一研究成果来自华盛顿大学、Facebook等研究机构,一共有5名学者参与。

一作名为罗璇,是华盛顿大学在读博士,2015年毕业于上海交大ACM班,是戴文渊等大神的直系学妹。

14

本科毕业之后,先后拿到加州伯克利大学、华盛顿大学等高校Offer,为了追求“虚拟视觉”而选择了华盛顿大学,这也是她从高中就开始关注的领域。

去华盛顿大学读博之后,她先后在迪士尼、谷歌等知名企业实习,当前的这一研究成果,是她在Facebook实习期间的研究成果。

第二作者是Jia-Bin Huang,弗吉尼亚理工学院助理教授,本科毕业于台湾国立交通大学。论文的其他三位作者, 都来自Facebook,分别是Richard Szeliski、Kevin Matzen、Johannes Kopf。

关于这一研究,他们在结论部分提到了不足之处——比较依赖此前的研究成果,比如用COLMAP估计单目视频中摄像机的姿态,依赖FlowNet2建立几何约束等等。

这些方法的不足,也直接影响到了罗璇等人的研究。

另一个值得改进的地方在于,它不支持在线处理,训练244帧的视频需要约40分钟,如果想要实际的生活中,还需要进一步优化。

但从广大网友的山呼海啸般的反响中,也能够看到算法一旦实现,用户是肯定有的~

你期待吗?

【云栖号在线课堂】每天都有产品技术专家分享!
课程地址:https://yqh.aliyun.com/live

立即加入社群,与专家面对面,及时了解课程最新动态!
【云栖号在线课堂 社群】https://c.tb.cn/F3.Z8gvnK

原文发布时间:2020-05-03
本文作者:鱼羊 乾明
本文来自:“量子位公众号”,了解相关信息可以关注“公众号 QbitAI”

相关文章
|
索引 Python
星际争霸之小霸王之小蜜蜂(七)--消失的子弹
星际争霸之小霸王之小蜜蜂(七)--消失的子弹
|
3月前
|
人工智能 算法
你试过一秒钟出现在世界各地的感觉吗?使用一键人像抠图换背景,让你拥有任意门
准备人像与背景图,访问ModelScope一键抠图换背景工具。上传人像至位置1,背景至位置2。点击按钮稍候,AI快速生成新图,将人像无缝融合至新背景中。体验高效便捷,算法智能精准,边缘处理细腻无痕,支持多样背景选择,输出质量高,适合多种应用场景。
通关《完蛋!我被LLM包围了! 》1~8关
欢迎来的“完蛋!我被LLM包围了”小游戏,《完蛋!我被LLM包围了!》是一款智力挑战游戏。该项目利用LLM, 基于ModelScope社区内现有的LLM对话Gradio应用程序代码,结合知乎文章《如何用“不可能”完成任务》中的预设问题,自动生成了对应的游戏代码,创造了一个独特的游戏体验。 在这个游戏中,玩家需要巧妙构造问题,挑战LLM给出满足特定条件的回答。(卡在第九关了一直过不去QAQ)
两句话,ChatGPT帮我写一个打飞机的游戏
两句话,ChatGPT帮我写一个打飞机的游戏
|
Python
字符串离奇消失之谜
字符串离奇消失之谜
91 0
|
算法 vr&ar 图形学
游戏 3D 场景还原真实度堪比动漫大片?
随着游戏市场存量竞争加剧,精品化趋势加速,玩家更愿意为优质产品买单。在这种格局变动下,尾部企业逐渐出清,精品化、出海化、VR 化成为游戏行业主旋律,研发能力和打造精品的能力成为游戏企业立足的根本,而 3D 优化技术则是打造精品游戏的关键环节。本次微软游戏出海开发者大会的游戏开发系列内容里将以《斗罗大陆: 魂师对决》和《光环》两款游戏为例,介绍大型主机游戏和精品手游都是如何基于微软 Simplygon 实现低成本高质量 3D 优化的。
375 0
游戏 3D 场景还原真实度堪比动漫大片?
|
网络协议 算法 机器人
Halcon标定系列(3):我个人总结的“眼在手外“和“眼在手上”的心得笔记
Halcon标定系列(3):我个人总结的“眼在手外“和“眼在手上”的心得笔记
2894 0
Halcon标定系列(3):我个人总结的“眼在手外“和“眼在手上”的心得笔记
|
机器学习/深度学习 数据采集 算法
谷歌Up主自制秃头生成器张东升躺枪,而这款生发GAN让你发际线前进一公里!
最近,国产悬疑剧《隐秘的角落》火爆全网,张东升的秃头形象深入人心,B站up主利用StyleGAN自制了一款秃头生成器,只需几行代码就能完成你的秃头梦想,但是如果你想摆脱中年秃顶的危机,GAN也可以做到!
195 0
谷歌Up主自制秃头生成器张东升躺枪,而这款生发GAN让你发际线前进一公里!
|
人工智能 算法 vr&ar
「缸中之脑」成真?动态电极绕过眼睛直接刺激大脑,在盲人脑海画出字母
最新研究绕过眼睛,通过动态电极刺激大脑,直接让天生的盲人脑海中出现字母!「智子倒计时」、「缸中之脑」、「黑客帝国」,让人分不清虚拟还是现实的直接意识输入,或许真的离我们不远了。
256 0
「缸中之脑」成真?动态电极绕过眼睛直接刺激大脑,在盲人脑海画出字母
|
机器学习/深度学习 人工智能 vr&ar
几分钟让小孩的人物涂鸦「动起来」,Meta AI创建了一个奇妙的火柴人世界
几分钟让小孩的人物涂鸦「动起来」,Meta AI创建了一个奇妙的火柴人世界
606 0
几分钟让小孩的人物涂鸦「动起来」,Meta AI创建了一个奇妙的火柴人世界
下一篇
无影云桌面