1 月 10 到 11 日,机器之心「AI 科技年会」在线举行。本次活动中,基于对 2022 年人工智能研究、技术和应用的观察,机器之心邀请业内知名专家、高管及本年度深度合作企业,共同总结了过去一年人工智能的重要经历与成果,讨论了未来 AI 的发展方向。
在大会第二天「AIGC 技术应用论坛」上,百度文心一格总架构师肖欣延博士作了主题为《跨模态内容生成与技术与应用》的演讲。以下为演讲全文,本文进行了不改变原意的整理。
我叫肖欣延,现在主要在百度负责内容生成及 AIGC 技术,也是「文心一格」的总架构师。今天我报告的题目是《跨模态内容生成技术与应用》。
,时长29:32
今年大家都很关注人工智能领域的一个方向 —— 内容生成。从图像生成角度来看,下图左边是 2020 年图像生的水平,是很有代表性的一个拍卖画作。到了 2022 年,技术已经相比之前强了很多。我们任意说一句话就能生成一张非常精致的图,不管是非常复杂的山水图,还是很精致很细腻的人物画像,都能做得很好了。我们可以感受到整个内容生成方向的进展是非常迅速的。
其实除了图像生成,语言生成的进展也很快。直观来讲,以前更多的是在比较短的文本上生成得比较好。但到了今年,长文本的内容,比如故事生成、长文案生成,还有多轮聊天,文本生成都能做得很好。它能兼顾到前后的连贯性,甚至有时能保证逻辑上的一致性。
更综合的就是视频创作。视频创作是让机器能够自动创作出一个完整的视频。视频会涉及到文案、画面和歌曲等很多元素。这是百度最近在万象大会上发布的,由 AI 度晓晓作词作曲演唱的 MV《启航星》,里面所有的画面都是用百度的文心一格画出来的。能够看到 AI 能根据歌词的变化,每个变化切换一个场景。
整体上,前面讲到的这些都是智能内容生产,也就是今年大家常说的 AIGC。所谓 AIGC 就是用人工智能来进行内容生产,它的特点是有非常强大的内容生产力,大幅提升内容生产的质量和效率,将来也会极大地丰富大家的数字生活。
这里给了一个简单的对比图,整个内容生产从专业的 PGC 到用户生产的 UGC,现在已经进入了 AIGC 的时代。相信 在 AIGC 的时代,整个内容生产的方式,还有内容消费的模式都会有极大的改变。
百度在 AIGC 的技术上有比较多的布局。不管从底层的文心大模型,包括语言、视觉、跨模态大模型,还是在生成能力上面,包括语言生成、图像生成,语音合成和数字人等,各方面都有涉及。
今天要介绍的是其中的一部分 —— 跨模态内容生成。核心来讲,我们希望用文本的描述来生成视觉的内容。比如说一句话能生成一个图像,或者我们写一篇文章,能把文章自动转成视频。报告主要分成两大块,一块是文生图,我会介绍 百度的 AI 作画产品文心一格;另外一块是文章转视频。最后,我会进行讨论和展望。
首先是文生图的部分。整体来讲,文生图在 2018 年或更早就有很多研究,我们能看到从 2020 年之后该方向进展很多。从应用角度来讲,很大的一个变化还是在 2022 年扩散模型的图像生成出现,使得整个跨模态生成有了一种跨越式的发展。
我们可以看到,2022 年的图像生成质量相比之前有非常大幅的提升,不管是从构图,还是细节刻画上。这种扩展生成模型如图所示,其实是依照原有图像,逐步增加高斯噪声,将图像转化为高斯分布。这样的处理序列是一张清晰的图片,逐渐变成噪声的过程,这是一个前向过程。而模型要学习的是把噪声去除掉,逐渐的恢复出原始照片。
一旦我们的模型有这样能力,也就是从噪声里面去逐步地去噪,生成更好的图片,它其实上就具备了这种生成图像的能力了。
这是一个简单的描述,扩展生成从应用的角度来讲有这样几个优势:首先,模型的记忆能力是非常强的。我们可以通过提高数据的规模持续地优化。在 2020 年到 2021 年的时候,像 DALL-E 这些模型的数据量的训练规模大概在千万到亿级别这样的量级。到了今年,像 Stable Diffusion 这样的模型的训练规模已经达到了 10 亿的量级。
这么大的数据之下,它对原来图片的记忆能力也挺好的,不会说因为有很多图片,有些东西就没记住。因为记忆能力很强,它的模仿能力就有一定的保证。另外现在它的建模是像素粒度的建模,所以更适合视觉的建模。它能够生成大像素的图片,甚至有一些技术能够无限地扩大整个图片的像素,这样就能够生成一些实用的高清图片。
从技术上来看,Stable Diffusion 确实打开了一个天花板,把效果的上限提升了很多。但在实际的应用当中,并不是直接使用这样一个模型,就能满足应用要求的。好的模型不是简单就等于好的体验。在实际应用当中,从创作过程来讲有三个步骤是需要去解决的。
第一个是创作的需求理解。在跨模态生成里面,我们都是需要输入语言去跟模型交互的,用户到底怎样简单地输入就能拿到一个他希望的图,这就需要一定的需求理解。第二个,图像的生成,也是跨模态生成的核心的部分,在这一部分里用户的需求也很多,有艺术的、写实的,创作的模型该如何去满足。最后是创作需求的满足。很多时候生成一张结果,可能只是部分满意,怎样进行一定的调整满足用户的需求,也是需要通过模型优化去解决的。
面对这些问题,百度研发了一套基于知识与大模型的文生图系统。整体来看,当输入文字描述之后,会先通过知识图谱做需求的理解,进行一定的文本联想扩展。生成文本之后再真正进行跨模态生成,这里面我们有很多跨模态生成模型上面的创新优化。生成完图之后,又会有基于图到图的扩散生成,来支持用户做图像的编辑。最后,因为系统应用到产品上生成图像结果后,用户会有一些反馈,我们也要利用用户的反馈去指导整个学习的模型优化过程,形成一个根据用户需求去进行反馈的闭环。
首先要做文本理解,也就是我们常说的 Prompt 学习,这里面其实主要是要做一些理解,并根据知识进行扩充。
比如用户可能想画一个大楼,一开始可能没有想得很明白需要什么,会输入一个很简单的「大楼」单词。而真正的生成画作,可能有很多方面要去考虑。这个时候,模型就会进行一定的文本理解。根据分析理解的结果,算法主动地帮输入加上一些风格,比如到底是写实风格还是艺术风格,它的色调是怎么样的。当然理解跟扩充从算法上也可以做端到端的生成。不管是哪种方式生成了扩展之后, 所有构建出来的 Prompt 都会进行排序,最后分别生成图片供用户去选择。
Prompt 学习是非常重要的,这里给一些例子,我们能看到加不加这些 Prompt 的扩展,效果影响还很大的。比如我们的在文心一格上面输入「微笑女孩」,可能生成的是左边这张图,但是模型会帮他加很多扩展。比如会把这种数字绘画、逆光、电影照明,包括超精细这样一些修饰词都加入进来。
加入之后,我们能看到图片生成会更加有艺术感,质量也会更高。类似的,像天空,大海等景色的图片,都可以通过一些 Prompt 扩展能够使效果有显著的提升。
当然,最核心的部分还是文生图。文本已经确定下来了,输入到系统里面,效果一定要足够的好。为此,百度提出了 ERNIE-ViLG 2. 0,这是一个知识增强的混合降噪专家模型。
从图文相关性上面来看,在跨模态生成里面,语言跟视觉之间的对应关系要做得很好,才能保证用户说什么就生成什么。技术上主要通过对语言、视觉还有跨模态做一些知识增强,更好的实现跨模态知识之间的映射,从而实现图文相关性的提升。
另外我们也提出了一个混合专家扩散模型,扩散模型就像前面说的,是有从有噪声的图像逐步生成一个清晰的画面。这个过程在不同的阶段,对扩散生成的要求是不一样的,所以我们设计了混合专家模型,自动地根据不同阶段选择合适的网络,生成最优的结果。这样整体上模型的建模能力也会更强,生成图片会更加的细腻,构图也更加的清晰。
从实验上也能很直观地看到效果的提升。我们在 MS-COCO 数据集上面做了自动评估,可以看到 ERNIE-ViLG 2.0 在 FID 自动评估上面是当前业界最好的效果。从人工的评估的角度,不管从图像的质量还是图文的对齐,ERNIE 的效果都会更好。
这边给了几个例子,能看到 ERNIE 能生成很精细的图,同时也会生成一些很有创意的图,比如孙悟空穿西装、熊猫在撸串。