Imagen Video
Google AI的Imagen Video:它能使用扩散模型生成高清视频,基于Imagen静态图像生成器。演示:http://imagen.research.google/video/
论文链接:https://arxiv.org/abs/2210.02303
Phenaki
来自谷歌AI的Phenaki: 从开放领域的文本描述中生成可变长度的视频。演示:https://phenaki.video
论文链接:https://arxiv.org/abs/2210.02399
五、文本-3D建模
从设计创新产品到在电影和游戏中创造奇妙的视觉效果,3D建模正成为文本-X生成模型的下一片蓝海。
令人惊喜的是,2022年出现了许多卓有前途的3D生成模型。在此,Fan列举了3个模型。
DreamFusion
首先登场的,是Google AI研究团队与UC Berkeley联合开发的DreamFusion。
论文链接:https://arxiv.org/pdf/2209.14988.pdf该模型使用二维文本到图像的扩散模型来执行文本到三维的合成。基于NeRF算法,DreamFusion可以通过给定文本生成3D模型。
该模型可以从任何角度查看,在任意照明下可以重新点亮,还可以合成到任何三维环境当中。
Magic3D
第二项成果,是英伟达AI团队的两个项目,名为GET3D和Magic3D。
GET3D论文链接:https://nv-tlabs.github.io/GET3D/assets/paper.pdf
Magic3D论文链接:https://arxiv.org/pdf/2211.10440.pdfGET3D仅使用二维图像进行训练,可生成具有高保真纹理和复杂几何细节的三维图形。该模型允许用户立即将其形体导入3D渲染器和游戏引擎,以便进行后续编辑。Magic3D与DreamFusion类似,使用文本到图像模型生成2D图像,然后优化为体积NeRF(神经辐射场)数据,将低分辨率生成的粗略模型优化为高分辨率的精细模型。根据英伟达AI团队,由此产生的Magic3D方法,可以比DreamFusion更快地生成3D目标。