二、 多模态可变的扩散模型
接下来,讲一讲维度可变的扩散模型,这是目前效果最好的一种生成模型范式。
传统的生成器架构,使用原始的扩散模型。比如一个小图像会通过阶段性的学习超分模块,成为一个大图。当训练数据量非常大时,多阶段的超分学习方没有纠错能力,经常会出错。
因此达摩院在文本生成图像模型方面,进行创新,达摩院提出维度可变的扩散模型生成器,采取端到端学习的方式,不仅高效,而且有非常强的纠错能力。
接下来,举几个例子。上图中戴着毛绒绒帽子的树懒和彩色小鸟,是算法生成的虚假图片,并不是来自某个设计师。
上图中的人物极具真实感,很像照相机拍摄的效果。但这些都是是算法直接出图的效果。
除此之外,如上图所示,该模型还可以自动生成二次元的动漫风格。
上图中带有3D效果的动画场景,比如房子、街道、风景、人物等等,均是模型自动生成的。
与此同时,用户还可以基于模型,进行创意应用,比如创意广告的图片生成。如上图所示,系统可以将一个茶壶,放到一茶园、落日、瀑布等场景,非常自然地融入。
与此同时,达摩院对文本生成视频进行探索,相比文本生成图像,它的效果暂时没有那么真实。
文本生成视频的算法架构,是基于文生图预训练模型的视频生成架构。因此视频生成效果直接取决于,文本生成图像的基础能力。
目前,上述的文本生成模型均在ModelScope社区开源,大家可以登陆网址:https://decoder.modelscope.cn,或者通过手机扫描上方的二维码进行体验。