一、通义万相:视觉生成大模型
视觉生成主要是覆盖像图像、视频或者是3D这种视觉内容的一个生成。主要是从22年四月份和AI的大地簇的发布为代表可能得到了很大的发展,包括图像的生成和视频的生成,大家可能都在很多的场景用起来或者玩起来。但是从严格来讲或者从技术发展的成熟度或者发展进度来讲,视觉生成这个领域其实它的模型的成熟度是远远不及LM的,大家可以看到像以千问为代表的大源模型已经发展的已经走了很成熟的一条道路,已经得到一个蓬勃的发展。
在视觉生成领域,很多的是图像生成。视频生成可能在半年多以前还更多是一个玩具,但是像openAI的发布以来可能也逐渐的走向一个成熟。但是从像刚才说的他整个的发展的成熟度还是远远不及LM的,所以可以从以下几个方面看一下。第一个是模型或者是算法,现在的主流的这种图像生成的模型还有很多是采用了Unit网络结构,Unit网络结构基于视觉的CN框架。CN或者Unit本身有自己的优势,可以更多的利用UnitedBers一些先验,可能更容易学在一些很小的数据集上。但是Unit本身可能也有自己的限制,比如说它的模型的灵活性或者它的拓展性是比较差的,可能远远不及Transform。
从数据的角度或者从任务的角度,不管是视觉的这种理解模型或者视觉的生成模型有很多的领域专有的小模型,这种小模型它对应的数据量也是比较小的,小的这种数据量也就决定了它很难去走向从量变到质变的这样一个提升。从算力上来讲,之前的生成可能主要以图像的生成训练为主。比如sb的1.4 1.5,那么他用了多少卡来训呢?可能就是256张的A100,256张A100这样的算力对于LM来说相比而言是一个比较小的算力,但是过去半年的时间,视觉生成领域得到了一个很快的发展或者很陡峭的一个曲线的发展,这个陡峭的曲线来自于哪里呢?一个是比如说在算法或者是模型的网络结构上,从unit的逐渐的升级为DfileTransform的结构。
Transformer结构跟LM的Transformer结构本质上其实是同样的一个框架,但是可能会做一些针对于视觉生成方面一些适配,但它本质上还是Transformer这样一个原生的结构,它本身的模型的这种拓展性,模型的上限已经得到了一个很大的验证。从数据这个角度,相当于像图像的数据、视频的数据、甚至音频的数据,经过这种VAE,这种编码器这种incode、decode结构可以转变成统一的表示。这种多模态的数据的统一也就奠定了任务的统一,任务的统一就决定了我们可以做任务的泛化,也就决定了我们模型的上限可以做的更高。另外从算力的角度来讲,逐渐从图像生成模型的训练的这种算力需求和投入,逐渐升级为视频生成为主的这种算力需求,而这种算力的需求和投入是有十倍以上,而且不止十倍以上算力的提升,这种各个方面的结合也就奠定了视觉生成领域的规模化,也就是视觉领域的Load的诞生,而视觉生成的这种spin law,这种规模化也就能够帮助我们去训练或者得到一个更通用、更强大的视觉上的大模型。
通义万相其实作为一个视觉大模型,它的能力主要分为两个层面。第一是基础能力,另外是场景化的能力。基础能力主要包括现在涵盖的图像生成和视频生生成。图像生成大家可能知道的就是一个文生图,以及由文生图拓展而来通过lora做定制化生成。这种IP的定制化,这种style风格的定制化,还有像图像编辑,比如说大家可能熟悉像Inpeding、outpeding去做instructing editing很多的能力的一些拓展,去提升文生图的可控性。视频生成最最基础的是文生视频,文生视频的话就输入一个promp,通过一个简单的词可以生成一段几秒视频,但是文生视频更多场景下也是去做这种创意的生成或者素材的生成,它很难可以做到真正的应用落地。真正做应用落地就是更多的是动漫视频像图生视频,或者做subline consistent角色一致性的生成去做视频的编辑。
在第二层的是一个场景化的能力,场景化的能力,比如说像PPT的配图啊,或者是短片的制作,是基于我们这种基础的能力去做一些适配,这个适配有时候可能也并不需要做模型的训练,有的时候可能做一些prompt miry也就可以做的很好,比如说在PPT配图里面,通过这个print,就是通过一些指令一些风格词就可以做的很好。但是有的情况下可能还是需要去做这个模型,去做一些adapt或者做一些调整才能更好的去应用到这个场景化的能力里面去。目前可能万相这些任务还是有一些没有统一用一个模型,我们未来可能还是希望用模型来把各种能力能够完全的覆盖掉。
二、通义万相2.0全新发布
1.通义万相2.0:文生图升级
我们完成了通义万相从1.0到2.0的全新的发布。2.0主要包括两个方面,第一就是文生图的升级,图像生成的升级。第二就是我们全新发布了视频生成,包括文生视频、图像生成视频。首先简单给大家介绍一下万相2.0文生图的升级。文生图的第一个升级的地方就是在模型的框架,我们从之前unit的网络结构升级成了DIT的网络结构,DIT就是Diffusion Transformer,像刚才介绍的Transformer本身针对模型的框架具有更强的拓展性和灵活性,同时我们也验证了在图像生成、视觉生成这个领域它也具有spinlaw,就是随着模型size的提升,它本身的生存性能的提升也得到了一个很大的一个提升,并且没有上限。另外他本身这个网络结构支持可变分辨率、多分辨率的生成这种灵活性也是非常强的,同时我们支持中英多语这种多语言的支持。
第二也结合利用了通义千问,通义千问对于复杂的prompt解析的能力,还提供复杂提示词可控的生成能力。另外就是我们构建了一个通义万相高质量的美学标准,依托这个美学标准视觉的图像、视频数据的搜集、过滤、高质量的打标来全面的提升画面的表现力和质感。另外基于文生图这样一个基础DIT的框架,我们把这个框架统一的进行了一个更大的可控生成能力的升级,利用一个模型一个框架除了文生图可以做更多的定制化的生成、图像的生成、图像的编辑可控生成能力。
这边展示一下万相1.0和2.0的对比。每一列是两组,左边的话就是1.0生成的效果,右边是我们最新2.0生成的效果。不管是在像语义的理解,比如下面这个天坛这种ip的表现,第一个图是红色的毛线团所覆盖杂志的封面模特的一个图。对于语义的这种理解和画面整个的表现力以及超现实的、各种风格的掌控能力得到了很大的提升。这边就展示不同的方面的一些case,比如人物的写真,涵盖不同人种不同年龄不同性别。右边是对于中国元素的一些呈现。展示一些虚拟摄影,包括一些超现实的展现,古风人物的一些生成。包括创意设计,支持各种不同的多种风格的生成。
2.通义万相2.0:文生视频发布
详细介绍一下通义万相发布文生视频相关的技术。第一视频它本身信息的冗余是比较大的,所以我们做的第一个事情就是投入很大的精力做了一个视频的 VAE。视频的VAE是做什么的?就是把一个视频在时间和空间上进行压缩,压缩一个相对紧缩的laten的空间,这样降低视频的视频冗余。但是降低冗余的同时又使得模型能够高质量的对视频进行重构,视频的VAE是做这样一个事情。第二是在DIT的框架下进行了一个云原生结合分布式的训练策略支持了原生的多分辨率、可变分辨率、可变时长的视频联合训练。而且在推理阶段也可以支持任意的设置分辨率和时长。另外对于时间和空间上进行了一个时间空间联合的注意力的建模,能够支持模型进行强大的运动生成和概念的组合能力。另外还搭建了相对完整的一套比较成熟的数据的这种搜集、数据的过滤、数据打标的这种流程,这种pipeline,这种支持多样化的艺术风格,视频的特效生成。
(1)高压缩比、高质量视频VAE
首先介绍一下视频VAE。视频VAE它本身像是对视频进行一个压缩。我们如果对视频进行一个原生的生成,是因为它本身在RGB的空间,即便加上他pagesize就是这种画的技术,它的脱轨序列长度也是非常长的,这对于原生的训练其实是不可接受的。这个序列长度可能会达到上百万,上千万。所以说我们需要VAE的技术,把视频原生的信息进行压缩,压缩到一个隐空间,进行时间和空间上的降维。但是在降维的过程中,或者在编码的过程中,我们可能还需要做到一个保持能够从这个隐空间能够将视频原始的信息尽可能的进行恢复和重构。这里展示的比如第一行就是原始的视频,第二行就是我们在压缩后的紧凑的隐空间进行重构出来的视频。即便在打斗这种剧烈的场景下也可以得到很好的重构。
(2)原生1080P 20s长视频生成
在DIT这个框架下,因为加上像 valing各种的技术可以支持模型在各种不同的分辨率、不同的时长进行一个联合的训练。在推理阶段也可以支持像原生1080P 和20s长视频的生成。原生的意思20s是模型一次性的生成推理的结果,而不是生成多代拼接的结果。而且从技术上,可以支持更大分辨率、更长时长,所以技术上已经没有什么难度。
(3)大幅度运动生成和多概念组合
展示大幅运动视频生成的case。比如运镜、人、动物的运动,人的骑行和交通工具的运动,都可以得到一个很好的呈现。除了这种写实的,我们可以进行一些超现实的、进行一个多概念组合的生成能力。比如企鹅邮差、古风的人骑车、还有人在梵高的画里进行滑板的动作。
(4)多样化艺术风格和特效
另外除了写实也支持多种多样化的艺术风格,像中国画古风的、游戏的、二次元的视频的生成。左上角展示的是猫变人的变化视频,视频通过prompt去写可以展现变化的动态的交互过程,右边展示的更多是视频特效。
(5)视频Lora:风格定制化能力
在文生视频的基础上,也尝试了Lora的能力,在一些attention像qqv这样的层进行一个微调,也可以实现视频风格化lora的定制化生成的能力。左边相当于视频用的很少,几十条甚至几百条的视频就可以得到一个比较稳定的风格化定制的能力。左边是一个cg后图,右边是一个美漫,我们可以在同时兼顾这个风格,同时也不损失基础模型的通用的概念生成的泛化能力。
(6)图生视频:让静态图片创意灵动起来
在文生视频基础上,在基础模型又加了一个图生视频的能力,就是同时支持输入一个静态的图片,同时指定一个prompt,一个文本,让静态的图片可以动起来。
三、下一步进化:探索视觉泛化和规模化,打造通用视觉生成大模型
通义万相的文生图、文生视频各种各样的能力,下一步想做的一个事情是什么呢?我们还是想继续探索视觉领域的规模化,也就是视觉领域的spin law,这个在LM领域已经做的比较成熟了,但是视觉领域是刚刚起步这样的一个阶段,通义万相其实涉及到的这样一条道路,去充分利用规模化,打造一个更加通用云原生的大模型。下面展示的case是我们内部在做的一个事情,应用通义万相这样一个基础的模型,用一个模型来涵盖图像领域的各种不同的任务,除了像前面介绍的文生图,去做像文字编辑、去做扩图、去做组合生成、去做组合试衣各种不同的能力。
这里面展示的所有的case都是在一个模型框架下所构造出来的,而不是多个分散的子模型。当然这些更多的还是一个图像生成的能力,我们希望把更多的能力,未来会拓展到图像、视频,甚至去做配乐各种能力的集合做统一。当然我们可能也想解释一下,就是说我们不是为了做统一而做统一,为什么要做统一呢,其实任务的统一也就带来了我们可以利用更多的数据来归到这一个模型里,而更多任务更多数据的提升也奠定了这个模型能进一步的规模化的基础。介绍的各种文生图、文生视频的能力,在通义的APP和通义万相的主站上已经上线,大家可以进行一个免费的体验,在不久也会把各种能力包括文生图的能力其实已经上到百炼的平台,文生视频的能力也会逐渐上线到百炼的平台,欢迎进行试用。