社区供稿 | 3D物生成,帮你轻松造万物

简介: 最近魔搭上线了一项新能力——用手机环拍物体1min视频即可生成3D模型

导读

 

最近魔搭上线了一项新能力——用手机环拍物体1min视频即可生成3D模型,该过程完全自动化且一小时左右即可构建完成!它不仅解救了传统行业手工建模的设计师们,也让芸芸众生的我们变身上古女娲,想在数字世界里生成什么,拿起手机即可生成,让我们来看看下面的效果:

https://live.csdn.net/v/324733

通过手机环拍构建出来的物体模型及贴图很完整自然,该服务当前已魔搭创空间上线并开放免费使用,操作简单,快来跟着小编一起试试吧!

 

使用指引

 

1、注册并登陆魔搭平台

进入ModelScope官网:https://modelscope.cn/home,点击右上角“登陆/注册”,进入注册页面,并填写注册所需信息完成注册。建议用手机号注册,速度最快。

 

2、访问3D物生成的创空间页面

账号登陆后进入创空间页面 https://modelscope.cn/studios/Damo_XR_Lab/3D_AIGC/summary

 

3、(简易体验版)选择页面下方的示例输入,即可在快速生成模型结果

 

 

4、(充分体验版)制作你元宇宙世界里的万物

仅需三步即可完成:

 

 

4.1 根据拍摄指引拍摄物体视频

https://live.csdn.net/v/324735

 

4.2 选择并上传您的视频

点击上图步骤中“选择视频”按钮,选择拍摄完成的视频进行上传。

温馨提示:由于视频文件较大,上传需一些时间,建议上传完成前保持页面,上传完成后再关闭。

 

 

4.3 等待构建完成即可查看您的3D模型结果

上传完成后再视频框中即可出现您的原视频结果,可输入您的邮箱地址,我们将会在构建完成后进行邮件通知。

 

 

除了视频构建3D物体模型以外,未来我们还会上线图片生成以及文本生成,让用户可以尽情发挥想象力去创造未来3D世界!

 

5、(充分体验版)无限制构建你的3D物模型

如果你想保存所有扫描后的3D物体模型,可下载app进行充分体验更高精度的建模:

 

 

技术探秘

 

XR实验室长期探索3D内容生成,在此分享我们结合大模型的能力推进3D物生成的技术链路及思考,未来相应的生成模型都会通过ModelScope平台开放。

 

1、3D物生成框架:

用户输入一段视频、图片或者文本,可以生成相应的3D内容。

具体来说,我们可提供的能力大致分为:

 

  • 视频转3D:通过输入一段拍摄物体的几十秒视频,AI在一个小时内生成具有纹理的3D模型
  • 图像转3D:通过输入单张或者几张2D图像,AI自动将其转换为3D模型
  • 文本转3D:通过文本输入,AI自动生成3D模型
  • AI 3D纹理:给定几何模型和文本提示,AI自动为模型进行纹理贴图

 

首先来分享下视频转3D的技术实现链路:

 

 

整个方案主要包含五大模块,分别是:检测和分割、神经重建、纹理贴图、模型简化、纹理烘焙。

 

下面重点介绍检测和分割、隐式神经重建两大模块。

 

  • 检测和分割

目标是在视频帧中将物体从背景中分割出来,便于后续的处理。我们采用了基于图像分割大模型Segment Anything Model(SAM)[1]的视频跟踪方案。该方案要求在第一帧上能将物体自动分割出来,为此我们采用基于显著性目标检测的模块,它能够自动地检测出物体大致的Mask。借助SAM模型提供的:根据输入的提示比如鼠标选点、画框来获取分割区域的能力,我们将检测得到的Mask转换成选点,再经过SAM模型处理就得到物体精细的Mask。

 

  • 神经重建

为了能够根据输入的多视角图片以及相应的相机位姿,重建出物体的几何,我们采用了神经隐式表面重建的方案。

 

神经重建的方案比如NeuS[2]、VolSDF[3],通过结合基于可微分的体渲染技术和符号距离场,可以高保真地恢复出物体几何,但是耗时比较长,通常一个物体的几何重建长达十小时。为了提高重建的效率和精度,我们采用自研的HIVE[4]方案,参考Instant-NGP[5],Plenoxels[6]等加速新视角合成的NeRF[7]方案,设计层次结构的体素方案来加速收敛和提升精度, 目前几何重建的时间最快能压缩到二十分钟。

 

除了视频生成方向,我们也在研发图像/文本转3D、AI 3D纹理技术。

 

  • 图像/文本转3D的技术

目前大致有两类生成的方案,第一类是采用优化迭代的方案,得益于多模态领域和文生图模型的发展,通过文本或者图片的输入,可以直接输出高质量的3D模型,但是耗时较长。另外一类方案,采用3D数据来训练3D Diffusion模型,只需要单次前向预测,可以快速得到结果,但是效果受限于3D数据量。我们正在针对两类方案做一些优化改进,一是设计更加合理的3D表征结构,可以输出高质量的模型,二是利用2D图像的Depth、Normal等信息,提供更多的约束。

 

  • AI 3D纹理的技术

给定几何,根据文本提示词,可以自动给模型贴上纹理。我们目前正在基于Stable Diffusion的能力,生成多视角更加一致的图片,同时加入融合优化的策略,进一步提升质量。

提示词:"a white audi Q5 car, plain background"

结果:

 

 

 

引用

 

[1] SAM: Kirillov A, Mintun E, Ravi N, et al. Segment anything

[2] NeuS: Wang P, Liu L, Liu Y, et al. Neus: Learning neural implicit surfaces by volume rendering for multi-view reconstruction

[3] VolSDF: Yariv L, Gu J, Kasten Y, et al. Volume rendering of neural implicit surfaces

[4] HIVE: Gu X, Yuan W, et al. Hierarchical volume encoding for neural implicit surface reconstruction

[5] Instant-NGP: Müller T, Evans A, Schied C, et al. Instant neural graphics primitives with a multiresolution hash encoding

[6] Plenoxels: Fridovich-Keil S, Yu A, Tancik M, et al. Plenoxels: Radiance fields without neural networks

[7] NeRF: Mildenhall B, Srinivasan P P, Tancik M, et al. Nerf: Representing scenes as neural radiance fields for view synthesis

 

试用3D物生成服务

https://modelscope.cn/studios/Damo_XR_Lab/3D_AIGC/summary

相关文章
|
4天前
|
人工智能 弹性计算 机器人
阿里云无影云电脑已上线Clawdbot(Moltbot)专属镜像,1键部署Moltbot AI 助手教程
阿里云无影云电脑已上线Moltbot(原Clawdbot)专属镜像,镜像预装VS Code、TMUX、钉钉、WPS等常用组件,支持钉钉、QQ等软件唤醒,无需复杂环境配置,3步即可部署完成。这款AI智能助理能操作文件、处理工作、联动多工具,同时打通网关与云电脑,帮助用户快速创建个人Agent。目前更多相关技能正在持续解锁,企业微信等接入能力也在加速适配中。
425 0
|
算法 数据处理
点云地面点滤波(Progressive Morphological Filter)算法介绍(PCL库)
点云地面点滤波(Progressive Morphological Filter)算法介绍(PCL库)
1990 0
点云地面点滤波(Progressive Morphological Filter)算法介绍(PCL库)
|
新零售 供应链
阿里云电子签:助企业打通业务数字化“最后1公里”
阿里云电子签:助企业打通业务数字化“最后1公里”
2066 3
阿里云电子签:助企业打通业务数字化“最后1公里”
|
弹性计算 缓存 监控
基于“日志审计应用”的 DNS 日志洞察实践
DNS 解析日志是一种记录 DNS 请求和响应的基础信息,监控 DNS 服务可以帮助用户识别网络活动并保持系统安全。日志审计服务支持采集 DNS 内网解析日志、公网权威解析日志、GTM 日志。理解 DNS 日志的字段含义,洞察 DNS 日志背后所代表的网络信息,既可以帮助发现和诊断 DNS 解析相关的问题,还可以检测和识别潜在的安全威胁。
8951 111
|
API 索引
HarmonyOs开发:导航tabs组件封装与使用
主页的底部导航以及页面顶部的切换导航,无论哪个系统,哪个App,都是最常见的功能之一,虽然说在鸿蒙中有现成的组件tabs可以很快速的实现,但是在使用的时候,依然有几个潜在的问题存在,第一,当导航较少时,tabs是默认居中模式,目前无法进行居左,在有这样功能的时候,难以满足需求;第二,导航右侧需要展示按钮的时候,tabs也是无法满足的;除此之外,还有很多人都非常关心的问题,底部的指示器可以跟随页面的滑动而滑动;面对着种种问题的存在,系统的tabs改进之路仍然很艰巨。
407 5
HarmonyOs开发:导航tabs组件封装与使用
|
传感器 机器学习/深度学习 编解码
一文尽览 | 基于点云、多模态的3D目标检测算法综述!(Point/Voxel/Point-Voxel)(下)
目前3D目标检测领域方案主要包括基于单目、双目、激光雷达点云、多模态数据融合等方式,本文主要介绍基于激光雷达雷达点云、多模态数据的相关算法,下面展开讨论下~
一文尽览 | 基于点云、多模态的3D目标检测算法综述!(Point/Voxel/Point-Voxel)(下)
|
存储 应用服务中间件 Shell
PbootCMS上传文件大小限制
PbootCMS上传文件大小限制
|
弹性计算 人工智能 自然语言处理
魔搭社区与函数计算:高效部署开源大模型的文本生成服务体验
在数字化时代,人工智能技术迅速发展,开源大模型成为重要成果。魔搭社区(ModelScope)作为开源大模型的聚集地,结合阿里云函数计算,提供了一种高效、便捷的部署方式。通过按需付费和弹性伸缩,开发者可以快速部署和使用大模型,享受云计算的便利。本文介绍了魔搭社区与函数计算的结合使用体验,包括环境准备、部署应用、体验使用和资源清理等步骤,并提出了改进建议。
|
小程序 开发者
微信小程序备案流程
备案入口、备案类型、备案材料准备、备案信息填写、个人备案、非个人备案
4632 0
微信小程序备案流程
|
移动开发 JavaScript HTML5
分享24个网页游戏源代码,总有一个是你想要的
分享24个网页游戏源代码,总有一个是你想要的
1340 0