两句话,让AI生成VR场景!还是3D、HDR全景图的那种

简介: 两句话,让AI生成VR场景!还是3D、HDR全景图的那种

最近,ChatGPT可以说是火得不要不要的。
11月30日,OpenAI发布聊天机器人ChatGPT,并免费向公众开放进行测试以来,在国内已经被玩出了花。

image.png

和机器人对话,就是让机器人去执行某个指令,比如说输入关键字让AI生成相应的画面。
这好像也不是什么稀奇的事了,OpenAI在4月不是还更新了DALL-E的新版本吗?

OpenAI,how old are you?(怎么老是你?)
要是文摘菌说生成的是3D画面,还是HDR全景图那种,或者是基于VR的图像内容呢?
最近,新加坡南洋理工大学的研究团队就提出了这么一个AI,只要用户用文字输入一个描述得很清晰的场景,系统就能生成逼真的3D场景。
先来看看效果如何,比如输入“白天湖上的棕色木码头被绿树环绕”时,系统就给出了这样的答案这光线和细节效果接拉满。

image.png

无需训练,即可生成3D的HDRIs


高质量的HDRI(高动态范围图像),也就是HDR全景图,是目前创建逼真的360度3D场景的热门方法。

考虑到捕捉HDRIs的难度,虽然现在有不少可利用AI生成3D场景的技术,但基本都需要进行一连串的参数设定,或是通过大量数据进行深度学习。
于是,研究人员提出了一个零拍摄文本驱动框架,即Text2Light,以生成4K+分辨率的HDRIs,并且整个过程不需要相应的训练数据
生成HDRIs的过程可以分为两步。
第一步,基于双代码本的离散表示法将输入文本翻译成LDR全景图。输入文本首先被预训练的CLIP模型映射到文本嵌入;其次,一个文本条件的全局采样器学习根据输入文本从全局编码簿中采样整体语义;然后,一个结构感知的局部采样器合成局部补丁,并进行合成。
第二步,根据结构化的潜伏编码作为连续表示,对第一阶段的LDR结果进行升级。研究人员提出的超级分辨率反色调映射运算器(SR-iTMO)能够同时提高全景图的空间分辨率和动态范围。

image.png

如此一来,在无需进行训练之下就能生成具有4K分辨率的HDRIs,这也是迄今为止最先进的图像生成模型,清除了从LDR到HDR转换的不稳定性,并创建了一对全景图和文本供学习。
不过,目前此项技术仍处于早期研究阶段,仅能产生低解析度的360度环景图像内容,但研究团队计划在未来,对现阶段技术所产生环景图像进行升级,同时加入HDR影像强化效果,让生成的3D图像或VR场景的观看度更加流畅和有吸引力。

用文本驱动生成HDRI


接下来,我们就来看看一些操作过程。
先下载好checkpoints,注意团队分别发布了室外(local sampler outdoor)和室内(local sampler indoor)场景的模型。从一个句子生成HDR全景图:

python text2light.py -rg logs/global_sampler_clip -rl logs/local_sampler_outdoor --outdir ./generated_panorama --text "YOUR SCENE DESCRIPTION" --clip clip_emb.npy --sritmo ./logs/sritmo.pth --sr_factor 4


从系列文本描述中生成HDR全景图:

# assume your texts is stored in alt.txtpython text2light.py -rg logs/global_sampler_clip -rl logs/local_sampler_outdoor --outdir ./generated_panorama --text ./alt.txt --clip clip_emb.npy --sritmo ./logs/sritmo.pth --sr_factor 4


生成低分辨率(512x1024)LDR全景图:

# assume your texts is stored in alt.txtpython text2light.py -rg logs/global_sampler_clip -rl logs/local_sampler_outdoor --outdir ./generated_panorama --text ./alt.txt --clip clip_emb.npy


以此生成的HDR全景图可以直接在任何现代图形使用。以在三维计算机图形软件Blender进行对旧金山景观进行渲染为例,当输入landscape photography of mountain ranges under purple and pink skies后,我们会得到这样的图像:

image.png

为了便于批处理,例如使用多个hdri进行渲染,在命令行中也可以提供渲染3D的脚本。解包,检查检查Blender的使用情况:

# assume your downloaded version is 3.1.2tar -xzvf blender-3.1.2-linux-x64.tar.xzcd blender-3.1.2-linux-x64./blender --help


添加别名:

# PATH_TO_DOWNLOADED_BLENDER indicates the parent directory where you save the downloaded blenderalias blender="/PATH_TO_DOWNLOADED_BLENDER/blender-3.1.2-linux-x64/blender"


然后回到Text2Light代码库,为不同的呈现设置运行以下命令:

blender --background --python rendering_shader_ball.py -- ./rendered_balls 100 1000 PATH_TO_HDRI


就能得到这样的结果:

image.png

image.png


目录
打赏
0
0
0
0
1041
分享
相关文章
当无人机遇上Agentic AI:新的应用场景及挑战
本文简介了Agentic AI与AI Agents的不同、Agentic无人机的概念、应用场景、以及所面临的挑战
109 5
当无人机遇上Agentic AI:新的应用场景及挑战
AI 场景深度优化!K8s 集群 OSSFS 2.0 存储卷全面升级,高效访问 OSS 数据
阿里云对象存储OSS是一款海量、安全、低成本、高可靠的云存储服务,是用户在云上存储的高性价比选择…
比亚迪座舱接入通义大模型,未来将联合打造更多AI智能座舱场景
比亚迪与阿里云深度合作,将通义大模型应用于智能座舱和营销服务。通过通义万相,腾势推出“AI壁纸”功能;借助通义星尘,实现“心理伴聊”等情感陪伴场景。阿里云Mobile-Agent智能体落地比亚迪座舱,支持复杂语音操作,如查询淘宝物流、订火车票等。该方案基于全视觉解决技术,具有强泛化能力,未来双方将持续拓展更多AI应用。
模型手动绑骨3天,AI花3分钟搞定!UniRig:清华开源通用骨骼自动绑定框架,助力3D动画制作
UniRig是清华大学与VAST联合研发的自动骨骼绑定框架,基于自回归模型与交叉注意力机制,支持多样化3D模型的骨骼生成与蒙皮权重预测,其创新的骨骼树标记化技术显著提升动画制作效率。
447 27
模型手动绑骨3天,AI花3分钟搞定!UniRig:清华开源通用骨骼自动绑定框架,助力3D动画制作
Stable Virtual Camera:2D秒变3D电影!Stability AI黑科技解锁无限运镜,自定义轨迹一键生成
Stable Virtual Camera 是 Stability AI 推出的 AI 模型,能够将 2D 图像转换为具有真实深度和透视感的 3D 视频,支持自定义相机轨迹和多种动态路径,生成高质量且时间平滑的视频。
190 0
Stable Virtual Camera:2D秒变3D电影!Stability AI黑科技解锁无限运镜,自定义轨迹一键生成
AI 推理场景的痛点和解决方案
一个典型的推理场景面临的问题可以概括为限流、负载均衡、异步化、数据管理、索引增强 5 个场景。通过云数据库 Tair 丰富的数据结构可以支撑这些场景,解决相关问题,本文我们会针对每个场景逐一说明。
767 148
AI 推理场景的痛点和解决方案
创新场景丨下一个iPhone 时刻,AI+AR 加速虚实融合世界的到来
仅仅以大模型通用能力帮助 AR 眼镜实现了多个场景下的交互还不够,关键在于大模型没有针对 AR 眼镜的需求做深度的定制和匹配。
Quick BI V5.5上线:AI赋能全场景提效,分析决策 “快、准、稳”!
Quick BI 5.5版本应运而生,围绕"AI赋能+全场景提效",助力企业加速释放数据价值。此次升级,不仅让复杂分析"开箱即用",更通过智能工具与场景化能力,助力企业实现从数据洞察到决策落地的全流程闭环。
Quick BI V5.5上线:AI赋能全场景提效,分析决策 “快、准、稳”!
AI 场景深度优化!K8s 集群 OSSFS 2.0 存储卷全面升级,高效访问 OSS 数据
OSSFS 2.0通过轻量化协议设计、协程化技术及FUSE3低级API重构,实现大文件顺序读写与小文件高并发加载的显著提升,在实际测试中表现出高达数十倍的吞吐量增长。适用于机器学习训练、推理等对高带宽低延迟要求严苛的场景,同时支持静态和动态挂载方式,方便用户在ACK集群中部署使用。
279 34
穿越AI周期,卫浴新场景的九牧答卷
两年前,阿里巴巴CEO张勇提出“所有行业都值得基于AI重做一遍”的观点。如今,AI正重构多个行业,如AIPC提升生产力、电商优化供需匹配、搜索跃升语义理解等。九牧在第29届上海厨卫展前夕发布AI BATH场景品牌,通过全链路AI解决方案,重新定义卫浴空间。文章探讨了智能化进程中“伪智能”问题,分析九牧如何以DeepSeek大模型、健康守护功能及跌倒报警系统等,实现主动式服务,推动场景智能从单品向互联互通转变。最后指出,随着政策支持与技术进步,“场景革命”已来临,九牧或成行业分水岭,引领新增长曲线。
72 14

热门文章

最新文章

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等

登录插画

登录以查看您的控制台资源

管理云资源
状态一览
快捷访问