AIGC时代已来,跨模态内容生成技术发展得怎么样了(1)

简介: AIGC时代已来,跨模态内容生成技术发展得怎么样了


1 月 10 到 11 日,机器之心「AI 科技年会」在线举行。本次活动中,基于对 2022 年人工智能研究、技术和应用的观察,机器之心邀请业内知名专家、高管及本年度深度合作企业,共同总结了过去一年人工智能的重要经历与成果,讨论了未来 AI 的发展方向。

在大会第二天「AIGC 技术应用论坛」上,百度文心一格总架构师肖欣延博士作了主题为《跨模态内容生成与技术与应用》的演讲。以下为演讲全文,本文进行了不改变原意的整理。


我叫肖欣延,现在主要在百度负责内容生成及 AIGC 技术,也是「文心一格」的总架构师。今天我报告的题目是《跨模态内容生成技术与应用》。


,时长29:32

今年大家都很关注人工智能领域的一个方向 —— 内容生成。从图像生成角度来看,下图左边是 2020 年图像生的水平,是很有代表性的一个拍卖画作。到了 2022 年,技术已经相比之前强了很多。我们任意说一句话就能生成一张非常精致的图,不管是非常复杂的山水图,还是很精致很细腻的人物画像,都能做得很好了。我们可以感受到整个内容生成方向的进展是非常迅速的。


其实除了图像生成,语言生成的进展也很快。直观来讲,以前更多的是在比较短的文本上生成得比较好。但到了今年,长文本的内容,比如故事生成、长文案生成,还有多轮聊天,文本生成都能做得很好。它能兼顾到前后的连贯性,甚至有时能保证逻辑上的一致性。

更综合的就是视频创作。视频创作是让机器能够自动创作出一个完整的视频。视频会涉及到文案、画面和歌曲等很多元素。这是百度最近在万象大会上发布的,由 AI 度晓晓作词作曲演唱的 MV《启航星》,里面所有的画面都是用百度的文心一格画出来的。能够看到 AI 能根据歌词的变化,每个变化切换一个场景。


整体上,前面讲到的这些都是智能内容生产,也就是今年大家常说的 AIGC。所谓 AIGC 就是用人工智能来进行内容生产,它的特点是有非常强大的内容生产力,大幅提升内容生产的质量和效率,将来也会极大地丰富大家的数字生活。

这里给了一个简单的对比图,整个内容生产从专业的 PGC 到用户生产的 UGC,现在已经进入了 AIGC 的时代。相信 在 AIGC 的时代,整个内容生产的方式,还有内容消费的模式都会有极大的改变。


百度在 AIGC 的技术上有比较多的布局。不管从底层的文心大模型,包括语言、视觉、跨模态大模型,还是在生成能力上面,包括语言生成、图像生成,语音合成和数字人等,各方面都有涉及。

今天要介绍的是其中的一部分 —— 跨模态内容生成。核心来讲,我们希望用文本的描述来生成视觉的内容。比如说一句话能生成一个图像,或者我们写一篇文章,能把文章自动转成视频。报告主要分成两大块,一块是文生图,我会介绍 百度的 AI 作画产品文心一格;另外一块是文章转视频。最后,我会进行讨论和展望。

首先是文生图的部分。整体来讲,文生图在 2018 年或更早就有很多研究,我们能看到从 2020 年之后该方向进展很多。从应用角度来讲,很大的一个变化还是在 2022 年扩散模型的图像生成出现,使得整个跨模态生成有了一种跨越式的发展。


我们可以看到,2022 年的图像生成质量相比之前有非常大幅的提升,不管是从构图,还是细节刻画上。这种扩展生成模型如图所示,其实是依照原有图像,逐步增加高斯噪声,将图像转化为高斯分布。这样的处理序列是一张清晰的图片,逐渐变成噪声的过程,这是一个前向过程。而模型要学习的是把噪声去除掉,逐渐的恢复出原始照片。

一旦我们的模型有这样能力,也就是从噪声里面去逐步地去噪,生成更好的图片,它其实上就具备了这种生成图像的能力了。


这是一个简单的描述,扩展生成从应用的角度来讲有这样几个优势:首先,模型的记忆能力是非常强的。我们可以通过提高数据的规模持续地优化。在 2020 年到 2021 年的时候,像 DALL-E 这些模型的数据量的训练规模大概在千万到亿级别这样的量级。到了今年,像 Stable Diffusion 这样的模型的训练规模已经达到了 10 亿的量级。


这么大的数据之下,它对原来图片的记忆能力也挺好的,不会说因为有很多图片,有些东西就没记住。因为记忆能力很强,它的模仿能力就有一定的保证。另外现在它的建模是像素粒度的建模,所以更适合视觉的建模。它能够生成大像素的图片,甚至有一些技术能够无限地扩大整个图片的像素,这样就能够生成一些实用的高清图片。

从技术上来看,Stable Diffusion 确实打开了一个天花板,把效果的上限提升了很多。但在实际的应用当中,并不是直接使用这样一个模型,就能满足应用要求的。好的模型不是简单就等于好的体验。在实际应用当中,从创作过程来讲有三个步骤是需要去解决的。


第一个是创作的需求理解。在跨模态生成里面,我们都是需要输入语言去跟模型交互的,用户到底怎样简单地输入就能拿到一个他希望的图,这就需要一定的需求理解。第二个,图像的生成,也是跨模态生成的核心的部分,在这一部分里用户的需求也很多,有艺术的、写实的,创作的模型该如何去满足。最后是创作需求的满足。很多时候生成一张结果,可能只是部分满意,怎样进行一定的调整满足用户的需求,也是需要通过模型优化去解决的。


面对这些问题,百度研发了一套基于知识与大模型的文生图系统。整体来看,当输入文字描述之后,会先通过知识图谱做需求的理解,进行一定的文本联想扩展。生成文本之后再真正进行跨模态生成,这里面我们有很多跨模态生成模型上面的创新优化。生成完图之后,又会有基于图到图的扩散生成,来支持用户做图像的编辑。最后,因为系统应用到产品上生成图像结果后,用户会有一些反馈,我们也要利用用户的反馈去指导整个学习的模型优化过程,形成一个根据用户需求去进行反馈的闭环。

首先要做文本理解,也就是我们常说的 Prompt 学习,这里面其实主要是要做一些理解,并根据知识进行扩充。


比如用户可能想画一个大楼,一开始可能没有想得很明白需要什么,会输入一个很简单的「大楼」单词。而真正的生成画作,可能有很多方面要去考虑。这个时候,模型就会进行一定的文本理解。根据分析理解的结果,算法主动地帮输入加上一些风格,比如到底是写实风格还是艺术风格,它的色调是怎么样的。当然理解跟扩充从算法上也可以做端到端的生成。不管是哪种方式生成了扩展之后, 所有构建出来的 Prompt 都会进行排序,最后分别生成图片供用户去选择。

Prompt 学习是非常重要的,这里给一些例子,我们能看到加不加这些 Prompt 的扩展,效果影响还很大的。比如我们的在文心一格上面输入「微笑女孩」,可能生成的是左边这张图,但是模型会帮他加很多扩展。比如会把这种数字绘画、逆光、电影照明,包括超精细这样一些修饰词都加入进来。


加入之后,我们能看到图片生成会更加有艺术感,质量也会更高。类似的,像天空,大海等景色的图片,都可以通过一些 Prompt 扩展能够使效果有显著的提升。

当然,最核心的部分还是文生图。文本已经确定下来了,输入到系统里面,效果一定要足够的好。为此,百度提出了 ERNIE-ViLG 2. 0,这是一个知识增强的混合降噪专家模型。

从图文相关性上面来看,在跨模态生成里面,语言跟视觉之间的对应关系要做得很好,才能保证用户说什么就生成什么。技术上主要通过对语言、视觉还有跨模态做一些知识增强,更好的实现跨模态知识之间的映射,从而实现图文相关性的提升。


另外我们也提出了一个混合专家扩散模型,扩散模型就像前面说的,是有从有噪声的图像逐步生成一个清晰的画面。这个过程在不同的阶段,对扩散生成的要求是不一样的,所以我们设计了混合专家模型,自动地根据不同阶段选择合适的网络,生成最优的结果。这样整体上模型的建模能力也会更强,生成图片会更加的细腻,构图也更加的清晰。

从实验上也能很直观地看到效果的提升。我们在 MS-COCO 数据集上面做了自动评估,可以看到 ERNIE-ViLG 2.0 在 FID 自动评估上面是当前业界最好的效果。从人工的评估的角度,不管从图像的质量还是图文的对齐,ERNIE 的效果都会更好。

这边给了几个例子,能看到 ERNIE 能生成很精细的图,同时也会生成一些很有创意的图,比如孙悟空穿西装、熊猫在撸串。



相关文章
|
5月前
|
存储 自然语言处理 API
通义万相AIGC技术Web服务体验评测
随着人工智能技术的不断进步,图像生成技术已成为创意产业的一大助力。通义万相AIGC技术,作为阿里云推出的一项先进技术,旨在通过文本到图像、涂鸦转换、人像风格重塑及人物写真创建等功能,加速艺术家和设计师的创作流程。本文将详细评测这一技术的实际应用体验。
204 4
|
1月前
|
人工智能 自然语言处理 数据可视化
什么是AIGC?如何使用AIGC技术辅助办公?
2分钟了解AIGC技术及其如何提高日常办公效率!
83 4
什么是AIGC?如何使用AIGC技术辅助办公?
|
2月前
|
人工智能 自然语言处理 数据挖掘
Claude 3.5:一场AI技术的惊艳飞跃 | AIGC
在这个科技日新月异的时代,人工智能(AI)的进步令人惊叹。博主体验了Claude 3.5 Sonnet的最新功能,对其卓越的性能、强大的内容创作与理解能力、创新的Artifacts功能、视觉理解与文本转录能力、革命性的“computeruse”功能、广泛的应用场景与兼容性以及成本效益和易用性深感震撼。这篇介绍将带你一窥其技术前沿的魅力。【10月更文挑战第12天】
88 1
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
探索AIGC的底层技术:人工智能通用计算架构
探索AIGC的底层技术:人工智能通用计算架构
210 3
|
2月前
|
人工智能 自然语言处理 搜索推荐
超越边界:探索2023年AIGC技术盛宴,预测前沿科技的奇迹 🚀
本文探讨了互联网内容生产从PGC、UGC到AIGC的演变,特别关注了AIGC(人工智能生成内容)的发展及其对未来内容生产的深远影响。文章详细介绍了AIGC的定义、技术进展(如生成算法、多模态技术、AI芯片等),并展示了AIGC在多个领域的广泛应用,如代码生成、智能编程、个性化服务等。未来,AIGC将在各行各业创造巨大价值,推动社会进入更加智能化的时代。同时,文章也探讨了AIGC对开发者的影响,以及其可能无法完全取代人类的原因,强调开发者可以利用AIGC提升工作效率。
52 0
|
4月前
|
机器学习/深度学习 数据采集 人工智能
作为AIGC技术的一种应用-bard
8月更文挑战第22天
72 15
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
|
4月前
|
人工智能
AIGC图生视频技术下的巴黎奥运高光时刻
图生视频,Powered By「 阿里云视频云 」
147 4
|
5月前
|
机器学习/深度学习 自然语言处理 算法
AIGC技术的核心算法与发展趋势
【7月更文第27天】随着人工智能技术的迅速发展,AIGC技术已经逐渐成为内容创造领域的一个重要组成部分。这些技术不仅能够帮助人们提高工作效率,还能创造出以往难以想象的新颖内容。本文将重点介绍几种核心算法,并通过一个简单的代码示例来展示如何使用这些算法。
140 7
|
5月前
|
存储 人工智能 搜索推荐