3D深度学习火了!NVIDIA NeurIPS论文:训练AI迅速将2D图像转换成3D模型

简介: 3D深度学习火了!NVIDIA NeurIPS论文:训练AI迅速将2D图像转换成3D模型

NVIDIA的研究团队开发出一个人工智能系统,它可以在不需要任何3D训练数据的情况下,预测2D图像的3D特征。该项研究成果会在NIPS(Neural Information Processing Systems)年会上公布;今年的NIPS年会有超过13000名与会者,是今年最大的人工智能研究会议。


这项工作由加拿大向量学院(Vector Institute)、多伦多大学(University of Toronto)、Nvidia Research、阿尔托大学(Aalto University)共同完成,相关研究的细节呈现在论文《Learning to Predict 3D Objects with an Interpolation-based Differentiable Renderer》中。


image.png

论文链接:https://nv-tlabs.github.io/DIB-R/files/diff_shader.pdf


Nvidia的人工智能总监和论文合著者Sanja Fidler说:“公司下一步可能会尝试将可微渲染框架(Differentiable Rendering Framework,DIB-R)扩展到更复杂的任务,比如为多个对象或整个场景渲染三维模型;这样的工作可以应用于游戏、AR/VR、机器人或目标跟踪系统中。”


Fidler还说:“关于三维深度学习目前很多公司已经做了一些工作,如Facebook AI Research与DeepMind也能将二维转化成三维AI,但DIB-R是第一个可以通过二维图像预测几个关键的三维特征(如对象的形状、三维几何、颜色和纹理)的神经或者深度学习架构之一。因此尽管之前有很多研究,但没有一个能真正同时预测所有这些关键属性的研究;它们不是专注于预测几何形状就是专注于预测颜色,而不是同时预测形状、颜色、纹理和光线;而我们的这项研究是真正完成了——不是完全完成,但却是对一个场景中的对象更加完整的理解。


image.png


NeurIPS的一项相关工作是试图根据人们的声音来预测他们的“声之形”。


Fidler说:“我认为这是一个非常有趣的领域,我们没有在这篇特别的论文中解决这个问题;但就深度学习而言,这是另一个有趣的输入,当提供给神经结构后就可以得到非常好的三维信息;如今,我认为这绝对是有效的。


DIB-R是在Nvidia今年发布Kaolin(Kaolin是Nvidia的三维深度学习库,拥有一系列的模型来帮助开发人员开始使用神经网络进行三维处理)之后发布的,Nvidia会在NeurIPS上公布五篇论文:《Learning to Predict 3D Objects with an Interpolation-based Differentiable Renderer》、《Joint-task Self-supervised Learning for Temporal Correspondence》、《Dancing to Music》、《Few-shot Video-to-Video Synthesis》、《Exact Gaussian Processes on a Million Data Points》。


参考资料:

https://venturebeat.com/2019/12/09/nvidia-trains-ai-to-transform-2d-images-into-3d-models/


相关文章
|
4月前
|
云安全 人工智能 自然语言处理
阿里云x硅基流动:AI安全护栏助力构建可信模型生态
阿里云AI安全护栏:大模型的“智能过滤系统”。
2081 120
|
4月前
|
人工智能 搜索推荐 程序员
当AI学会“跨界思考”:多模态模型如何重塑人工智能
当AI学会“跨界思考”:多模态模型如何重塑人工智能
487 120
|
4月前
|
人工智能 缓存 自然语言处理
Java与多模态AI:构建支持文本、图像和音频的智能应用
随着大模型从单一文本处理向多模态能力演进,现代AI应用需要同时处理文本、图像、音频等多种信息形式。本文深入探讨如何在Java生态中构建支持多模态AI能力的智能应用。我们将完整展示集成视觉模型、语音模型和语言模型的实践方案,涵盖从文件预处理、多模态推理到结果融合的全流程,为Java开发者打开通往下一代多模态AI应用的大门。
461 41
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
864 13
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
|
4月前
|
机器学习/深度学习 人工智能 JSON
PHP从0到1实现 AI 智能体系统并且训练知识库资料
本文详解如何用PHP从0到1构建AI智能体,涵盖提示词设计、记忆管理、知识库集成与反馈优化四大核心训练维度,结合实战案例与系统架构,助你打造懂业务、会进化的专属AI助手。
493 6
|
4月前
|
消息中间件 人工智能 安全
云原生进化论:加速构建 AI 应用
本文将和大家分享过去一年在支持企业构建 AI 应用过程的一些实践和思考。
1110 54
|
4月前
|
人工智能 运维 Kubernetes
Serverless 应用引擎 SAE:为传统应用托底,为 AI 创新加速
在容器技术持续演进与 AI 全面爆发的当下,企业既要稳健托管传统业务,又要高效落地 AI 创新,如何在复杂的基础设施与频繁的版本变化中保持敏捷、稳定与低成本,成了所有技术团队的共同挑战。阿里云 Serverless 应用引擎(SAE)正是为应对这一时代挑战而生的破局者,SAE 以“免运维、强稳定、极致降本”为核心,通过一站式的应用级托管能力,同时支撑传统应用与 AI 应用,让企业把更多精力投入到业务创新。
607 30