两句话,让AI生成VR场景!还是3D、HDR全景图的那种

简介: 两句话,让AI生成VR场景!还是3D、HDR全景图的那种

最近,ChatGPT可以说是火得不要不要的。
11月30日,OpenAI发布聊天机器人ChatGPT,并免费向公众开放进行测试以来,在国内已经被玩出了花。

image.png

和机器人对话,就是让机器人去执行某个指令,比如说输入关键字让AI生成相应的画面。
这好像也不是什么稀奇的事了,OpenAI在4月不是还更新了DALL-E的新版本吗?

OpenAI,how old are you?(怎么老是你?)
要是文摘菌说生成的是3D画面,还是HDR全景图那种,或者是基于VR的图像内容呢?
最近,新加坡南洋理工大学的研究团队就提出了这么一个AI,只要用户用文字输入一个描述得很清晰的场景,系统就能生成逼真的3D场景。
先来看看效果如何,比如输入“白天湖上的棕色木码头被绿树环绕”时,系统就给出了这样的答案这光线和细节效果接拉满。

image.png

无需训练,即可生成3D的HDRIs


高质量的HDRI(高动态范围图像),也就是HDR全景图,是目前创建逼真的360度3D场景的热门方法。

考虑到捕捉HDRIs的难度,虽然现在有不少可利用AI生成3D场景的技术,但基本都需要进行一连串的参数设定,或是通过大量数据进行深度学习。
于是,研究人员提出了一个零拍摄文本驱动框架,即Text2Light,以生成4K+分辨率的HDRIs,并且整个过程不需要相应的训练数据
生成HDRIs的过程可以分为两步。
第一步,基于双代码本的离散表示法将输入文本翻译成LDR全景图。输入文本首先被预训练的CLIP模型映射到文本嵌入;其次,一个文本条件的全局采样器学习根据输入文本从全局编码簿中采样整体语义;然后,一个结构感知的局部采样器合成局部补丁,并进行合成。
第二步,根据结构化的潜伏编码作为连续表示,对第一阶段的LDR结果进行升级。研究人员提出的超级分辨率反色调映射运算器(SR-iTMO)能够同时提高全景图的空间分辨率和动态范围。

image.png

如此一来,在无需进行训练之下就能生成具有4K分辨率的HDRIs,这也是迄今为止最先进的图像生成模型,清除了从LDR到HDR转换的不稳定性,并创建了一对全景图和文本供学习。
不过,目前此项技术仍处于早期研究阶段,仅能产生低解析度的360度环景图像内容,但研究团队计划在未来,对现阶段技术所产生环景图像进行升级,同时加入HDR影像强化效果,让生成的3D图像或VR场景的观看度更加流畅和有吸引力。

用文本驱动生成HDRI


接下来,我们就来看看一些操作过程。
先下载好checkpoints,注意团队分别发布了室外(local sampler outdoor)和室内(local sampler indoor)场景的模型。从一个句子生成HDR全景图:

python text2light.py -rg logs/global_sampler_clip -rl logs/local_sampler_outdoor --outdir ./generated_panorama --text "YOUR SCENE DESCRIPTION" --clip clip_emb.npy --sritmo ./logs/sritmo.pth --sr_factor 4


从系列文本描述中生成HDR全景图:

# assume your texts is stored in alt.txtpython text2light.py -rg logs/global_sampler_clip -rl logs/local_sampler_outdoor --outdir ./generated_panorama --text ./alt.txt --clip clip_emb.npy --sritmo ./logs/sritmo.pth --sr_factor 4


生成低分辨率(512x1024)LDR全景图:

# assume your texts is stored in alt.txtpython text2light.py -rg logs/global_sampler_clip -rl logs/local_sampler_outdoor --outdir ./generated_panorama --text ./alt.txt --clip clip_emb.npy


以此生成的HDR全景图可以直接在任何现代图形使用。以在三维计算机图形软件Blender进行对旧金山景观进行渲染为例,当输入landscape photography of mountain ranges under purple and pink skies后,我们会得到这样的图像:

image.png

为了便于批处理,例如使用多个hdri进行渲染,在命令行中也可以提供渲染3D的脚本。解包,检查检查Blender的使用情况:

# assume your downloaded version is 3.1.2tar -xzvf blender-3.1.2-linux-x64.tar.xzcd blender-3.1.2-linux-x64./blender --help


添加别名:

# PATH_TO_DOWNLOADED_BLENDER indicates the parent directory where you save the downloaded blenderalias blender="/PATH_TO_DOWNLOADED_BLENDER/blender-3.1.2-linux-x64/blender"


然后回到Text2Light代码库,为不同的呈现设置运行以下命令:

blender --background --python rendering_shader_ball.py -- ./rendered_balls 100 1000 PATH_TO_HDRI


就能得到这样的结果:

image.png

image.png


相关文章
|
1天前
|
存储 人工智能 编解码
Pippo:Meta放出AI大招!单张照片秒转3D人像多视角视频,AI自动补全身体细节
Pippo 是 Meta 推出的图像到视频生成模型,能够从单张照片生成 1K 分辨率的多视角高清人像视频,支持全身、面部或头部的生成。
40 9
|
25天前
|
机器学习/深度学习 人工智能 vr&ar
Roop-Unleashed:开源 AI 换脸神器!支持批量、VR、直播实时换脸
Roop-Unleashed 是一款基于 Roop 的开源 AI 换脸工具,支持批量处理、VR 换脸和直播换脸,提供简单易用的图形界面,适用于多种场景。
172 5
Roop-Unleashed:开源 AI 换脸神器!支持批量、VR、直播实时换脸
|
11天前
|
人工智能 IDE 程序员
与1.0 相比,通义灵码 2.0 AI 程序员有哪些功能、亮点、优势、场景?
通义灵码2.0相比1.0新增了工程级编码任务、单元测试生成和图片多模态问答等功能,支持多文件代码修改、批量生成单元测试及根据图片内容生成代码建议。亮点包括支持主流IDE、垂直智能体覆盖更多场景、企业级检索增强和灵活对话交互体验。技术优势涵盖多模态上下文感知、快速推理、企业数据个性化及一流代码生成效果。典型应用场景有新功能开发、跨语言编程、单元测试自动生成和错误排查修复。
218 7
|
30天前
|
存储 人工智能 NoSQL
Tablestore深度解析:面向AI场景的结构化数据存储最佳实践
《Tablestore深度解析:面向AI场景的结构化数据存储最佳实践》由阿里云专家团队分享,涵盖Tablestore十年发展历程、AI时代多模态数据存储需求、VCU模式优化、向量检索发布及客户最佳实践等内容。Tablestore支持大规模在线数据存储,提供高性价比、高性能和高可用性,特别针对AI场景进行优化,满足结构化与非结构化数据的统一存储和高效检索需求。通过多元化索引和Serverless弹性VCU模式,助力企业实现低成本、灵活扩展的数据管理方案。
65 12
|
30天前
|
存储 人工智能 边缘计算
AI时代下, 边缘云上的技术演进与场景创新
本文介绍了AI时代下边缘云的技术演进与场景创新。主要内容分为三部分:一是边缘云算力形态的多元化演进,强调阿里云边缘节点服务(ENS)在全球600多个节点的部署,提供低时延、本地化和小型化的价值;二是边缘AI推理的创新发展与实践,涵盖低时延、资源广分布、本地化及弹性需求等优势;三是云游戏在边缘承载的技术演进,探讨云游戏对边缘计算的依赖及其技术方案,如多开技术、云存储和网络架构优化,以提升用户体验并降低成本。文章展示了边缘云在未来智能化、实时化解决方案中的重要性。
108 3
|
1月前
|
人工智能 缓存 安全
每一个大模型应用都需要一个 AI 网关|场景和能力
本次分享的主题是每一个大模型应用都需要一个 AI 网关|场景和能力。由 API 网关产品经理张裕(子丑)进行分享。主要分为三个部分: 1. 企业应用 AI 场景面临的挑战 2. AI 网关的产品方案 3. AI 网关的场景演示
110 1
|
1月前
|
存储 文件存储 对象存储
AI 场景下,函数计算 GPU 实例模型存储最佳实践
当前,函数计算 FC 已被广泛应用在各种 AI 场景下,函数计算支持通过使用容器镜像部署 AI 推理应用,并且提供多种选项来访问训练好的模型。为了帮助开发者高效地在函数计算上部署 AI 推理应用,并快速解决不同场景下的模型存储选型问题,本文将对函数计算的 GPU 模型存储的优缺点及适用场景进行对比分析,以期为您的模型存储决策提供帮助。
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
转载:【AI系统】AI的领域、场景与行业应用
本文概述了AI的历史、现状及发展趋势,探讨了AI在计算机视觉、自然语言处理、语音识别等领域的应用,以及在金融、医疗、教育、互联网等行业中的实践案例。随着技术进步,AI模型正从单一走向多样化,从小规模到大规模分布式训练,企业级AI系统设计面临更多挑战,同时也带来了新的研究与工程实践机遇。文中强调了AI基础设施的重要性,并鼓励读者深入了解AI系统的设计原则与研究方法,共同推动AI技术的发展。
转载:【AI系统】AI的领域、场景与行业应用
|
2月前
|
机器学习/深度学习 人工智能 算法
X-AnyLabeling:开源的 AI 图像标注工具,支持多种标注样式,适于目标检测、图像分割等不同场景
X-AnyLabeling是一款集成了多种深度学习算法的图像标注工具,支持图像和视频的多样化标注样式,适用于多种AI训练场景。本文将详细介绍X-AnyLabeling的功能、技术原理以及如何运行该工具。
264 2
X-AnyLabeling:开源的 AI 图像标注工具,支持多种标注样式,适于目标检测、图像分割等不同场景
|
2月前
|
机器学习/深度学习 人工智能 JSON
【实战干货】AI大模型工程应用于车联网场景的实战总结
本文介绍了图像生成技术在AIGC领域的发展历程、关键技术和当前趋势,以及这些技术如何应用于新能源汽车行业的车联网服务中。
573 37

热门文章

最新文章