把你手机里的照片秒变3D!Facebook训练了一个CNN端到端系统

简介: Facebook研究人员,开发出一个卷积神经网络端到端系统,已经能实现几秒钟内,将任何设备上拍摄的2D图像转换成3D图像。

微信图片_20220109125100.jpg


现在人人都用手持设备(例如手机、平板)等拍照,并通过简单的修图应用对图片编辑处理。人们通过不同的修图工具,能轻松创造出不同风格的图片。

 

训练卷积神经网络,依托计算机视觉、图形学和机器学习


最近Facebook研究人员,通过Facebook AI开发的移动优化技术,训练卷积神经网络,在数百万的3D图像中,学习其附带的图像深度,可将任何设备拍摄的照片自动转换为3D图像。


       微信图片_20220109125104.gif      


系统根据输入的2D图像,自动进行深度估计,实现2D到3D的实时转换,仅需花费几秒钟即可完成处理。


该框架还结合了纹理修补,对输入的2D图像进行几何捕捉,以使得它能在转换为3D图像时更加生动逼真。每一个步骤都是自动的,直接在用户的移动设备中对2D图像进行各种各样的模型优化,没有设备内存和数据传输能力的限制。


输入图片:


      微信图片_20220109125107.png      

 

处理过程:


      微信图片_20220109125109.png  

输出图片:


      微信图片_20220109125111.png      

 

这项技术对设备没有要求,几乎可处理任何照片,此前Facebook 3D转换还需要照片是由双镜头摄像头拍摄完成。

 

实时转换,无需摄影技巧


Facebook团队将在SIGGRAPH 2020(计算机图形学和互动技术大会 2020)上展示。SIGGRAPH 2020将在今年8月17日线上举行,届时来自各个领域的专业人士,将展示他们从不同角度对计算机图形学和互动技术的研究。作为该领域最重要的行业会议之一,许多前瞻性想法和研究都会在会议中得到展示和讨论。

 

2018年底,Facebook为其「照片功能」引入了2D转3D的功能。但那时还需要Facebook用户用配有双镜头相机的手机拍照才能实现。

 

现在,Facebook团队为其增加了一种算法,可以自动为输入的2D图像深度估计,改良后的技术能直接应用于任何移动设备,不限于Facebook App,且无需是双镜头摄像头拍摄的图片。

 

「过去的一个世纪里,摄影经历了几次技术「升级」,提高了人们的沉浸感。起初所有的照片都是黑白和颗粒状的,后来出现了彩色照片,然后数码照片带给我们更高质量和高分辨率的图像」。


Facebook科学家,也是这项技术的主要研究者Johannes Kopf说,「现在有了3D图像,让照片更具生命力和真实感」。


        微信图片_20220109125113.gif      

 

3D图像为人们提供了「身临其境的图像体验」,依托于计算机视觉、图形学和机器学习的通力合作以及技术进步。


现在,Facebook研究小组正在研究机器学习方法,这种方法能够对移动设备拍摄的视频进行有效深度估计,未来将适用于视频的2D转换3D。


参考链接:


https://techxplore.com/news/2020-06-photos-d-mobile-device.html

相关文章
|
5月前
|
并行计算 计算机视觉 流计算
照片生成眨眼张嘴的视频软件,制作眨眼睛张嘴图软件,手机制作人脸眨眼张嘴
这是一套基于Python的人脸动画生成系统,功能完整且模块化设计。项目利用dlib与face-alignment库实现精准人脸关键点检测,结合Delaunay三角剖分技术完成图像变形
|
5月前
|
Java
照片一键生成眨眼视频app,手机照片一键生成眨眼动图,通过JAR代码实现效果
这是一个自动生成眨眼GIF动画的Java程序,包含主程序处理、图像变形和GIF生成三个模块。输入照片路径,自动识别人脸眼睛位置,生成闭眼、半闭眼等多帧图像,并合成为眨眼动效GIF文件。
|
5月前
|
算法 前端开发 计算机视觉
在线照片眨眼生成器,一键生成眨眼照片, 手机制作人脸眨眼张嘴
本系统基于Flask、OpenCV和dlib实现,包含后端服务、前端界面和动画算法三大模块。支持上传照片实时检测人脸关键点,利用薄板样条变换生成自然眨眼动画效果
|
5月前
|
算法 Python
让照片眨眼张嘴的软件免费,照片摇头眨眼张嘴动图,手机制作人脸眨眼张嘴
本项目提供手机端从代码到开发的完整实现路径,包含人脸关键点检测与动画生成。结合先进算法如First Order Motion Model可进一步优化效果,相关开源项目可在GitHub获取。
|
8月前
|
存储 机器学习/深度学习 人工智能
TaoAvatar:手机拍出电影级虚拟人!阿里3D高斯黑科技让动捕设备下岗
阿里巴巴最新推出的TaoAvatar技术,通过3D高斯溅射实现照片级虚拟人实时渲染,支持多信号驱动与90FPS流畅运行,将彻底改变电商直播与远程会议体验。
566 8
TaoAvatar:手机拍出电影级虚拟人!阿里3D高斯黑科技让动捕设备下岗
|
9月前
|
数据采集 人工智能 编解码
算法系统协同优化,vivo与港中文推出BlueLM-V-3B,手机秒变多模态AI专家
BlueLM-V-3B是由vivo与香港中文大学共同研发的多模态大型语言模型,专为移动设备优化。它通过算法和系统协同优化,实现了高效部署和快速生成速度(24.4 token/s),并在OpenCompass基准测试中取得优异成绩(66.1分)。模型小巧,语言部分含27亿参数,视觉编码器含4000万参数,适合移动设备使用。尽管如此,低端设备可能仍面临资源压力,实际应用效果需进一步验证。论文链接:https://arxiv.org/abs/2411.10640。
338 9
|
移动开发 Android开发 数据安全/隐私保护
移动应用与系统的技术演进:从开发到操作系统的全景解析随着智能手机和平板电脑的普及,移动应用(App)已成为人们日常生活中不可或缺的一部分。无论是社交、娱乐、购物还是办公,移动应用都扮演着重要的角色。而支撑这些应用运行的,正是功能强大且复杂的移动操作系统。本文将深入探讨移动应用的开发过程及其背后的操作系统机制,揭示这一领域的技术演进。
本文旨在提供关于移动应用与系统技术的全面概述,涵盖移动应用的开发生命周期、主要移动操作系统的特点以及它们之间的竞争关系。我们将探讨如何高效地开发移动应用,并分析iOS和Android两大主流操作系统的技术优势与局限。同时,本文还将讨论跨平台解决方案的兴起及其对移动开发领域的影响。通过这篇技术性文章,读者将获得对移动应用开发及操作系统深层理解的钥匙。
470 12
|
机器学习/深度学习
CNN网络编译和训练
【8月更文挑战第10天】CNN网络编译和训练。
214 20
|
机器学习/深度学习 数据采集 数据可视化
深度学习实践:构建并训练卷积神经网络(CNN)对CIFAR-10数据集进行分类
本文详细介绍如何使用PyTorch构建并训练卷积神经网络(CNN)对CIFAR-10数据集进行图像分类。从数据预处理、模型定义到训练过程及结果可视化,文章全面展示了深度学习项目的全流程。通过实际操作,读者可以深入了解CNN在图像分类任务中的应用,并掌握PyTorch的基本使用方法。希望本文为您的深度学习项目提供有价值的参考与启示。
|
PHP
驾校在线考试系统源码 手机+PC+平板自适应
Thinkphp在线考题源码 驾校在线考试系统 手机+PC+平板 自适应,机动车驾驶培训学校驾校类网站源码带手机端 运行环境:php+mysql
578 11
驾校在线考试系统源码 手机+PC+平板自适应

热门文章

最新文章