两句话,让AI生成VR场景!还是3D、HDR全景图的那种

简介: 两句话,让AI生成VR场景!还是3D、HDR全景图的那种

最近,ChatGPT可以说是火得不要不要的。
11月30日,OpenAI发布聊天机器人ChatGPT,并免费向公众开放进行测试以来,在国内已经被玩出了花。

image.png

和机器人对话,就是让机器人去执行某个指令,比如说输入关键字让AI生成相应的画面。
这好像也不是什么稀奇的事了,OpenAI在4月不是还更新了DALL-E的新版本吗?

OpenAI,how old are you?(怎么老是你?)
要是文摘菌说生成的是3D画面,还是HDR全景图那种,或者是基于VR的图像内容呢?
最近,新加坡南洋理工大学的研究团队就提出了这么一个AI,只要用户用文字输入一个描述得很清晰的场景,系统就能生成逼真的3D场景。
先来看看效果如何,比如输入“白天湖上的棕色木码头被绿树环绕”时,系统就给出了这样的答案这光线和细节效果接拉满。

image.png

无需训练,即可生成3D的HDRIs


高质量的HDRI(高动态范围图像),也就是HDR全景图,是目前创建逼真的360度3D场景的热门方法。

考虑到捕捉HDRIs的难度,虽然现在有不少可利用AI生成3D场景的技术,但基本都需要进行一连串的参数设定,或是通过大量数据进行深度学习。
于是,研究人员提出了一个零拍摄文本驱动框架,即Text2Light,以生成4K+分辨率的HDRIs,并且整个过程不需要相应的训练数据
生成HDRIs的过程可以分为两步。
第一步,基于双代码本的离散表示法将输入文本翻译成LDR全景图。输入文本首先被预训练的CLIP模型映射到文本嵌入;其次,一个文本条件的全局采样器学习根据输入文本从全局编码簿中采样整体语义;然后,一个结构感知的局部采样器合成局部补丁,并进行合成。
第二步,根据结构化的潜伏编码作为连续表示,对第一阶段的LDR结果进行升级。研究人员提出的超级分辨率反色调映射运算器(SR-iTMO)能够同时提高全景图的空间分辨率和动态范围。

image.png

如此一来,在无需进行训练之下就能生成具有4K分辨率的HDRIs,这也是迄今为止最先进的图像生成模型,清除了从LDR到HDR转换的不稳定性,并创建了一对全景图和文本供学习。
不过,目前此项技术仍处于早期研究阶段,仅能产生低解析度的360度环景图像内容,但研究团队计划在未来,对现阶段技术所产生环景图像进行升级,同时加入HDR影像强化效果,让生成的3D图像或VR场景的观看度更加流畅和有吸引力。

用文本驱动生成HDRI


接下来,我们就来看看一些操作过程。
先下载好checkpoints,注意团队分别发布了室外(local sampler outdoor)和室内(local sampler indoor)场景的模型。从一个句子生成HDR全景图:

python text2light.py -rg logs/global_sampler_clip -rl logs/local_sampler_outdoor --outdir ./generated_panorama --text "YOUR SCENE DESCRIPTION" --clip clip_emb.npy --sritmo ./logs/sritmo.pth --sr_factor 4


从系列文本描述中生成HDR全景图:

# assume your texts is stored in alt.txtpython text2light.py -rg logs/global_sampler_clip -rl logs/local_sampler_outdoor --outdir ./generated_panorama --text ./alt.txt --clip clip_emb.npy --sritmo ./logs/sritmo.pth --sr_factor 4


生成低分辨率(512x1024)LDR全景图:

# assume your texts is stored in alt.txtpython text2light.py -rg logs/global_sampler_clip -rl logs/local_sampler_outdoor --outdir ./generated_panorama --text ./alt.txt --clip clip_emb.npy


以此生成的HDR全景图可以直接在任何现代图形使用。以在三维计算机图形软件Blender进行对旧金山景观进行渲染为例,当输入landscape photography of mountain ranges under purple and pink skies后,我们会得到这样的图像:

image.png

为了便于批处理,例如使用多个hdri进行渲染,在命令行中也可以提供渲染3D的脚本。解包,检查检查Blender的使用情况:

# assume your downloaded version is 3.1.2tar -xzvf blender-3.1.2-linux-x64.tar.xzcd blender-3.1.2-linux-x64./blender --help


添加别名:

# PATH_TO_DOWNLOADED_BLENDER indicates the parent directory where you save the downloaded blenderalias blender="/PATH_TO_DOWNLOADED_BLENDER/blender-3.1.2-linux-x64/blender"


然后回到Text2Light代码库,为不同的呈现设置运行以下命令:

blender --background --python rendering_shader_ball.py -- ./rendered_balls 100 1000 PATH_TO_HDRI


就能得到这样的结果:

image.png

image.png


相关文章
|
1月前
|
存储 数据采集 人工智能
数据湖面向AI场景的进化
对象存储OSS作为云上数据湖,被广泛应用在商业智能、数据决策、广告推荐等大数据分析的场景上。随着AI workload的不断增长,OSS数据湖也在随着workload的变化不断演进。
150 6
|
2月前
|
人工智能 Prometheus Cloud Native
新场景、新能力,AI-native 时代的可观测革新
借助 AI-native 可观测解决方案,阿里云为用户提供开箱即用的覆盖大模型应用、大模型到基础设施的全链路实时观测、告警与诊断能力,帮助企业在复杂的数字化转型过程中更有效地确保资源的高效利用与业务的持续成功。
187 15
|
2月前
|
机器学习/深度学习 人工智能 运维
|
2月前
|
人工智能 算法 大数据
懂场景者得AI,瓴羊发布年度产品智能化战略
9月20日,瓴羊智能科技(以下简称瓴羊)在2024云栖大会上举办了“Data × AI:企业服务智能化,价值增长新动能”专场论坛。阿里巴巴集团副总裁、瓴羊智能科技CEO 朋新宇在会上发布年度产品智能化战略:“(算法 + 算力 + 数据) x 场景 ”,强调企业必须重视场景,只有通过解构场景、重构业务,才能真正拥抱AI,带来突破性增长。
|
1月前
|
人工智能 NoSQL 机器人
MongoDB Atlas与YoMio.AI近乎完美适配:推理更快速、查询更灵活、场景更丰富
随着MongoDB的新发布和革新,YoMio.AI的“闪电式发展”值得期待。
|
3月前
|
人工智能 文字识别 算法
打造全场景、跨领域、多模态的AI工作流 | 开源图像标注工具 X-AnyLabeling v2.4.0 正式发布!
X-AnyLabeling是一款强大的辅助标注工具,集成了AI推理引擎和丰富功能,为图像数据工程师提供一站式解决方案。它支持图像和视频文件的自动标注,提供了包括矩形框、多边形在内的七种标注样式,适应多样化的训练场景需求。X-AnyLabeling内置了多种SOTA级AI模型,如YOLO、SAM系列等,并支持GPU加速和多种数据集格式的导入导出,确保高效的数据处理。此外,它还具备良好的跨平台兼容性,可在多种操作系统上运行,并提供详尽的帮助文档和社区支持,帮助用户轻松上手并解决使用过程中遇到的问题。
309 2
打造全场景、跨领域、多模态的AI工作流 | 开源图像标注工具 X-AnyLabeling v2.4.0 正式发布!
|
3月前
|
存储 人工智能 数据处理
面向AI场景的数据处理和数据检索
本文分享了AI场景下面临的数据处理与检索挑战及解决方案。AI内容生产涉及数据准备、模型训练、推理及应用四大环节,其中数据准备环节面临数据来源复杂、格式多样及数据量激增的挑战,模型训练环节需解决推理准确性问题,AI应用环节则需克服接口兼容性难题。 为应对这些挑战,阿里云存储OSS与智能媒体管理IMM提供百余种数据处理能力,并升级数据索引功能支持向量检索,助力构建多模态检索应用。此外,还介绍了Serverless数据处理方案,可日均处理百亿级别文件,通过OSS数据索引能力,客户能快速构建RAG检索增强,同时实现多模态检索的搭建,显著提升AI应用的效能和用户体验。
343 16
|
2月前
|
人工智能 算法 测试技术
AI战略丨大模型重塑长安新汽车新场景
长安科技内部一边基于大模型进行技术研发,一边也在不断反思:大模型究竟还能带来什么?长安科技最初是希望将尽可能多的控制能力接入到大模型中,如今,其对大模型的能力有了新的理解。
|
2月前
|
人工智能 Cloud Native 调度
阿里云容器服务在AI智算场景的创新与实践
2024年云栖大会,我们总结过往支持AI智算基础底座的实践经验、发现与思考,给出《容器服务在AI智算场景的创新与实践》的演讲。不仅希望将所做所想与客户和社区分享,也期待引出更多云原生AI领域的交流和共建。
下一篇
无影云桌面