3D深度学习火了!NVIDIA NeurIPS论文:训练AI迅速将2D图像转换成3D模型

简介: 3D深度学习火了!NVIDIA NeurIPS论文:训练AI迅速将2D图像转换成3D模型

NVIDIA的研究团队开发出一个人工智能系统,它可以在不需要任何3D训练数据的情况下,预测2D图像的3D特征。该项研究成果会在NIPS(Neural Information Processing Systems)年会上公布;今年的NIPS年会有超过13000名与会者,是今年最大的人工智能研究会议。


这项工作由加拿大向量学院(Vector Institute)、多伦多大学(University of Toronto)、Nvidia Research、阿尔托大学(Aalto University)共同完成,相关研究的细节呈现在论文《Learning to Predict 3D Objects with an Interpolation-based Differentiable Renderer》中。


image.png

论文链接:https://nv-tlabs.github.io/DIB-R/files/diff_shader.pdf


Nvidia的人工智能总监和论文合著者Sanja Fidler说:“公司下一步可能会尝试将可微渲染框架(Differentiable Rendering Framework,DIB-R)扩展到更复杂的任务,比如为多个对象或整个场景渲染三维模型;这样的工作可以应用于游戏、AR/VR、机器人或目标跟踪系统中。”


Fidler还说:“关于三维深度学习目前很多公司已经做了一些工作,如Facebook AI Research与DeepMind也能将二维转化成三维AI,但DIB-R是第一个可以通过二维图像预测几个关键的三维特征(如对象的形状、三维几何、颜色和纹理)的神经或者深度学习架构之一。因此尽管之前有很多研究,但没有一个能真正同时预测所有这些关键属性的研究;它们不是专注于预测几何形状就是专注于预测颜色,而不是同时预测形状、颜色、纹理和光线;而我们的这项研究是真正完成了——不是完全完成,但却是对一个场景中的对象更加完整的理解。


image.png


NeurIPS的一项相关工作是试图根据人们的声音来预测他们的“声之形”。


Fidler说:“我认为这是一个非常有趣的领域,我们没有在这篇特别的论文中解决这个问题;但就深度学习而言,这是另一个有趣的输入,当提供给神经结构后就可以得到非常好的三维信息;如今,我认为这绝对是有效的。


DIB-R是在Nvidia今年发布Kaolin(Kaolin是Nvidia的三维深度学习库,拥有一系列的模型来帮助开发人员开始使用神经网络进行三维处理)之后发布的,Nvidia会在NeurIPS上公布五篇论文:《Learning to Predict 3D Objects with an Interpolation-based Differentiable Renderer》、《Joint-task Self-supervised Learning for Temporal Correspondence》、《Dancing to Music》、《Few-shot Video-to-Video Synthesis》、《Exact Gaussian Processes on a Million Data Points》。


参考资料:

https://venturebeat.com/2019/12/09/nvidia-trains-ai-to-transform-2d-images-into-3d-models/


相关文章
|
2月前
|
人工智能 自然语言处理 Serverless
阿里云函数计算 x NVIDIA 加速企业 AI 应用落地
阿里云函数计算与 NVIDIA TensorRT/TensorRT-LLM 展开合作,通过结合阿里云的无缝计算体验和 NVIDIA 的高性能推理库,开发者能够以更低的成本、更高的效率完成复杂的 AI 任务,加速技术落地和应用创新。
152 13
|
2月前
|
JSON 人工智能 数据格式
AI计算机视觉笔记二十六:YOLOV8自训练关键点检测
本文档详细记录了使用YOLOv8训练关键点检测模型的过程。首先通过清华源安装YOLOv8,并验证安装。接着通过示例权重文件与测试图片`bus.jpg`演示预测流程。为准备训练数据,文档介绍了如何使用`labelme`标注工具进行关键点标注,并提供了一个Python脚本`labelme2yolo.py`将标注结果从JSON格式转换为YOLO所需的TXT格式。随后,通过Jupyter Notebook可视化标注结果确保准确性。最后,文档展示了如何组织数据集目录结构,并提供了训练与测试代码示例,包括配置文件`smoke.yaml`及训练脚本`train.py`,帮助读者完成自定义模型的训练与评估。
|
1月前
|
Python 机器学习/深度学习 人工智能
手把手教你从零开始构建并训练你的第一个强化学习智能体:深入浅出Agent项目实战,带你体验编程与AI结合的乐趣
【10月更文挑战第1天】本文通过构建一个简单的强化学习环境,演示了如何创建和训练智能体以完成特定任务。我们使用Python、OpenAI Gym和PyTorch搭建了一个基础的智能体,使其学会在CartPole-v1环境中保持杆子不倒。文中详细介绍了环境设置、神经网络构建及训练过程。此实战案例有助于理解智能体的工作原理及基本训练方法,为更复杂应用奠定基础。首先需安装必要库: ```bash pip install gym torch ``` 接着定义环境并与之交互,实现智能体的训练。通过多个回合的试错学习,智能体逐步优化其策略。这一过程虽从基础做起,但为后续研究提供了良好起点。
125 4
手把手教你从零开始构建并训练你的第一个强化学习智能体:深入浅出Agent项目实战,带你体验编程与AI结合的乐趣
|
1月前
|
机器学习/深度学习 人工智能 算法
使用 NVIDIA TAO Toolkit 5.0 体验最新的视觉 AI 模型开发工作流程
NVIDIA TAO Toolkit 5.0 提供低代码框架,支持从新手到专家级别的用户快速开发视觉AI模型。新版本引入了开源架构、基于Transformer的预训练模型、AI辅助数据标注等功能,显著提升了模型开发效率和精度。TAO Toolkit 5.0 还支持多平台部署,包括GPU、CPU、MCU等,简化了模型训练和优化流程,适用于广泛的AI应用场景。
54 0
使用 NVIDIA TAO Toolkit 5.0 体验最新的视觉 AI 模型开发工作流程
|
2月前
|
人工智能 开发工具 计算机视觉
AI计算机视觉笔记三十:yolov8_obb旋转框训练
本文介绍了如何使用AUTODL环境搭建YOLOv8-obb的训练流程。首先创建虚拟环境并激活,然后通过指定清华源安装ultralytics库。接着下载YOLOv8源码,并使用指定命令开始训练,过程中可能会下载yolov8n.pt文件。训练完成后,可使用相应命令进行预测测试。
|
2月前
|
人工智能 测试技术 PyTorch
AI计算机视觉笔记二十四:YOLOP 训练+测试+模型评估
本文介绍了通过正点原子的ATK-3568了解并实现YOLOP(You Only Look Once for Panoptic Driving Perception)的过程,包括训练、测试、转换为ONNX格式及在ONNX Runtime上的部署。YOLOP由华中科技大学团队于2021年发布,可在Jetson TX2上达到23FPS,实现了目标检测、可行驶区域分割和车道线检测的多任务学习。文章详细记录了环境搭建、训练数据准备、模型转换和测试等步骤,并解决了ONNX转换过程中的问题。
|
2月前
|
机器学习/深度学习 人工智能 测试技术
AI计算机视觉笔记二十五:ResNet50训练部署教程
该项目旨在训练ResNet50模型并将其部署到RK3568开发板上。首先介绍了ResNet50网络,该网络由何恺明等人于2015年提出,解决了传统卷积神经网络中的退化问题。项目使用车辆分类数据集进行训练,并提供了数据集下载链接。环境搭建部分详细描述了虚拟环境的创建和所需库的安装。训练过程中,通过`train.py`脚本进行了15轮训练,并可视化了训练和测试结果。最后,项目提供了将模型转换为ONNX和PT格式的方法,以便在RK3568上部署。
|
2月前
|
机器学习/深度学习 人工智能 计算机视觉
AI计算机视觉笔记二十三:PP-Humanseg训练及onnxruntime部署
本文介绍了如何训练并使用PaddleSeg的人像分割模型PP-HumanSeg,将其导出为ONNX格式,并使用onnxruntime进行部署。首先在AutoDL服务器上搭建环境并安装所需库,接着下载数据与模型,完成模型训练、评估和预测。最后,通过paddle2onnx工具将模型转换为ONNX格式,并编写预测脚本验证转换后的模型效果。此过程适用于希望在不同平台上部署人像分割应用的开发者。
|
7天前
|
机器学习/深度学习 人工智能 算法
深度学习在图像识别中的应用与挑战
本文探讨了深度学习技术在图像识别领域的应用,重点分析了卷积神经网络(CNN)的工作原理及其在处理图像数据方面的优势。通过案例研究,展示了深度学习如何提高图像识别的准确性和效率。同时,文章也讨论了当前面临的主要挑战,包括数据不足、过拟合问题以及计算资源的需求,并提出了相应的解决策略。
|
3天前
|
机器学习/深度学习 人工智能 自然语言处理
深度学习中的卷积神经网络(CNN)及其在图像识别中的应用
本文旨在通过深入浅出的方式,为读者揭示卷积神经网络(CNN)的神秘面纱,并展示其在图像识别领域的实际应用。我们将从CNN的基本概念出发,逐步深入到网络结构、工作原理以及训练过程,最后通过一个实际的代码示例,带领读者体验CNN的强大功能。无论你是深度学习的初学者,还是希望进一步了解CNN的专业人士,这篇文章都将为你提供有价值的信息和启发。

热门文章

最新文章

下一篇
无影云桌面