AIGC时代已来,跨模态内容生成技术发展得怎么样了(2)

简介: AIGC时代已来,跨模态内容生成技术发展得怎么样了

可以看到,现在 AI 的创意能力是很强的,至少它能从过去的数据当中学习到组合关系。并且从我们的观感上会认为它有一定的创造力,虽然它还是在模仿,但会感觉它的组合能力很强,会展现一定的创造能力。

在模型上我们还有更进一步的创新。像前面介绍的模型,它其实本质上需要一个文本的输入作为条件去进行扩散生成。这种模式其实就是咱们常见 Stable Diffusion 模型。它通常能生成的图就是比较具象的图,比如画人物,画一些具体的物体,它能画得很好。其实还有另外一类叫做 Disco Diffusion 的模型,它是通过跨模态来引导的,通常能生成意向的图,它比较重视整体的构图,整个构图会比较复杂。


我们的想法也比较直观:能不能把两种引导都融合在一起去支持扩散生成?让扩散生成既依赖于条件的输入,也依赖于整个跨模态匹配的在线的指导,这样就能同时做好两种场景,不管是画人物,还是做很复杂的构图生成。为此,我们提出了文本与跨模态联合引导的统一图像生成 UPainting。

对 UPainting 这样的模型,我们研发出来之后也做了一些评估。能看到它在图像的各方面能力上都做得更好。

这里展示了图片,不管是画一些具体的如熊猫,还是画一些具体的物体,甚至比较复杂的大场景构图,而且中间包含细节的图,现在我们都是画得比较好的。


最后一块是图像编辑。我们画了一个图之后,有时可能不是自己最满意的,希望再进行一次修改。所以我们研发了基于文本驱动的图到图的生成。简单来讲,扩散生成除了依赖于编辑文本的描述,也会依赖于图片的输入。并且我们有个注意力机制来保证扩散过程当中能够更关注用户输入的编辑指令。


具体来讲,图像编辑主要有以下几种功能。首先是元素修改,比如我们已经画了一只猫,但突然想给猫再加一点装饰,给它戴上个眼镜,戴上金链子,就可以通过这样的功能去生成。另外也可以做风格转换,比如像前面输入大楼,已经生成一个真实景观的风格了,但是我们希望把它改成一种比较科幻的,也可以做修改。最后是基于模型已经生成的一张图做二次生成,让模型重新生成一下,它会生成一个比较相近的同款图。这些都是图像编辑。

这些功能都已经集成在文心一格产品上,能够实现一语成画,别具一格的图像生成。这里给了一些我们产品上能生成的图像的例子,能看到不管是复杂的构图,还是细节刻画都是能做得很好的。


比如最左边的这两张图是偏复杂构图的,讲究整个场景意境及整体构图。中间这三张是偏具象的,更关键的是能够把单独物体的精细度画出来。最右边就有点综合了,既要兼顾整体的构图,也要兼顾细节上的精细度。

所以从整体创作的角度来看,各种不同的图像生成能力我们都做得不错。除了通过产品让用户去体验 AI 作画的能力,一格也在很多重要场合进行应用。如一格跟人民日报合作,根据二十大的部分关键词去生成 AI 眼中的未来的中国。


除此之外,文心一格上也在做一些新的探索与合作,寻找到底 AI 绘画的边界会在哪。比如我们跟时尚杂志 《COSMO》 合作,一起画了二十四节气的专题,并且发布了首个 AI 生成的杂志封面。另外我们也跟朵云轩合作,在全球完成了山水画风格的 AI 作画,并实现了全球首次 AI 山水画拍卖。这幅画作是非常复杂的,我们根据陆小曼的初稿生成了一幅新的山水画,受到了很多专家的肯定,最后也成功地拍卖了。以上的第一个部分都是文生图,主要是基于语言来进行 AI 绘画。第二块是关于视频创作的,我们能够根据一篇文章来生成一个视频。这个功能非常简单,如图所示,用户输入图文信息,可能是一篇文章,一个搜索 query,甚至可能是一个 PPT,系统就能生成一个视频。


视频的生产其实是比较复杂的,它需要生成其中的文本、视觉,还有语音,有些时候还需要把数字人做出来。还会有视频脚本,规定了整个场景怎么划分,转场建议等。这里面要涉及到模型计算特别多。为了解决这样的问题,并不能用一个简单的模块完成,而是需要一个系统。


整体来讲,我们研发的 TTV 系统逻辑上是模仿人的创作过程的。首先要做文案的理解和组织。还要有一个素材库,这个素材库里有些是从网上获取的真实素材,也有可能是通过 AI 生成的素材。素材都有了之后,再去做所谓的编排,把素材跟文案做对齐,保证最后生成出来的字幕音频和展示的视觉画面是对齐的。

这里面的思路有几种。一种是全部使用生成的素材,也就是原生生成,一种是在已经给定素材之后,进行所谓的素材采编。接下来我就先说一下采编方面的技术。介绍完之后,再说一下纯原生的技术。

首先在视频采编中,给定一篇文章,类似于文生图里面要做 Prompt 构造一样,我们要主动地去构造一个 query,它能够帮助我们去检索相关的素材。整体上简化可以用标签的技术去做,但是更理想的是通过结构化的分析,生成组合的 有完整语义的 query 来保证效果。


构建完 Query 后,我们要做素材的扩充,主要是通过匹配的模型,用一个多域多属性的统一匹配,确保有一个非常好的效果。

当素材已经都选回来之后,要把它们放到合适的字幕位置上面。这里主要通过一些语义相关性的计算,计算字幕和素材的语义相关性,计算完之后,素材被放在合适的位置,保证了整个视频的流畅度。


我们也做了一些原生的视频生成。最早一开始展示的《启航星》的视频,是通过文生图的技术来做的。给到一篇文章之后,我们通过文生图的技术生成一些关键帧,再把这关键帧结合起来,生成一个视频。

更进一步,我们还可以做端到端的文生视频,不止真人图像,还可以把动态效果都做出来。这里是百度自研的 VideoDream 模型。整体上来讲,它跟文生图是比较像的,但相比之下它除了生成一张图像,还会生成多帧,形成动态的效果。这里是一些展示的效果。


这些技术已经在百家号的一些场景上落地,能够助力创作者进行高效创作。它的生产效率会相比人工会至少有一个量级的提升,同时从用户的体验指标上和人工基本持平。

同时,我们也在融合一些新的技术,包括数字人,完成数字人 TTV。我们还针对专门的场景,研发专题 TTV,比如大会报道,我们有一些线上直播流数据原始高清数据,可以使用这些专项数据来优化视频质量,支持一些行业级应用。

文生图、文章转视频都是基于语言来生成视觉内容的技术。最后我们进行一些讨论跟展望。从应用的角度来看,AIGC 当下正在发生,它已经在大幅地提升内容创作的质量和效率。我们至少从文生图上观察到它提升了几个量级的效率。以前专业的画师,在一些复杂的画作上,可能需要积累好几年才能构建的素材,现在通过 AI 作画能短时间大量生成。

对于普通用户来讲,它也会成为普惠的人类助手,让每个人将来都可以拥有很强的创作力。


最后是跨模态生成的一些现存的问题。首先是易用性问题。在应用中,用户需要输入文本描述。但事实上,输入文本描述是很复杂的。比如左侧的例子,需要这里密密麻麻的文字才能生成一个图片。再比如右边文心一格的例子上,通用需要这么一大串文字,不管是主体、内容、风格各方面都需要描述才能生成足够好。所以易用性是要进一步提升的。


另一个是可控性。现在模型虽然能生成很精致的图片,但是对于用户指定的数量、位置关系等,并不一定能准确生成。同时有些时候用户输入风格描述之后,因为风格模型会过度拟合到特定场景上面,导致图像结果不符合预期。比如这里,丰收的麦田上用加入了动漫风设定,就容易会出现人物,可见模型的可控性也是需要提升的。

最后总结一下,AIGC 时代已经到来了,百度研发了文生图的技术,发布了 AI 作画的创意产品文心一格。在文章转视频上,目前已经综合各种 AI 能力实现工业化的、可落地的文章自动转视频能力。

展望未来, AIGC 的技术会不断地提升,打造出更强大的用户体验,它的应用场景也会越来越拓宽。最终 AIGC 会无处不在。相信这个过程里面也会产生一些新的职业,如 AI 绘画师、 AI 自媒体,带来更多的就业机会,对社会产生正面的影响。

相关文章
|
6月前
|
人工智能 自然语言处理
AIGC核心技术——多模态预训练大模型
【1月更文挑战第14天】AIGC核心技术——多模态预训练大模型
467 4
AIGC核心技术——多模态预训练大模型
|
4月前
|
机器学习/深度学习 人工智能 大数据
AIGC使用问题之多模态大模型如何升级AIGC的内容创作能力
AIGC使用问题之多模态大模型如何升级AIGC的内容创作能力
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
AIGC多模态学习
7月更文挑战第11天
|
机器学习/深度学习 人工智能 自然语言处理
AIGC时代已来,跨模态内容生成技术发展得怎么样了(2)
AIGC时代已来,跨模态内容生成技术发展得怎么样了
288 0
|
人工智能 自然语言处理 算法
AIGC时代已来,跨模态内容生成技术发展得怎么样了(1)
AIGC时代已来,跨模态内容生成技术发展得怎么样了
279 0
|
人工智能 自然语言处理 算法
AIGC时代已来,跨模态内容生成技术发展得怎么样了(1)
AIGC时代已来,跨模态内容生成技术发展得怎么样了
141 0
|
机器学习/深度学习 数据可视化 数据挖掘
CVPR 2023|哈工大南洋理工提出全球首个「多模态DeepFake检测定位」模型:让AIGC伪造无处可藏
CVPR 2023|哈工大南洋理工提出全球首个「多模态DeepFake检测定位」模型:让AIGC伪造无处可藏
254 0
|
8天前
|
人工智能 自然语言处理 数据可视化
什么是AIGC?如何使用AIGC技术辅助办公?
2分钟了解AIGC技术及其如何提高日常办公效率!
42 4
什么是AIGC?如何使用AIGC技术辅助办公?
|
4月前
|
存储 自然语言处理 API
通义万相AIGC技术Web服务体验评测
随着人工智能技术的不断进步,图像生成技术已成为创意产业的一大助力。通义万相AIGC技术,作为阿里云推出的一项先进技术,旨在通过文本到图像、涂鸦转换、人像风格重塑及人物写真创建等功能,加速艺术家和设计师的创作流程。本文将详细评测这一技术的实际应用体验。
189 4
|
26天前
|
人工智能 自然语言处理 数据挖掘
Claude 3.5:一场AI技术的惊艳飞跃 | AIGC
在这个科技日新月异的时代,人工智能(AI)的进步令人惊叹。博主体验了Claude 3.5 Sonnet的最新功能,对其卓越的性能、强大的内容创作与理解能力、创新的Artifacts功能、视觉理解与文本转录能力、革命性的“computeruse”功能、广泛的应用场景与兼容性以及成本效益和易用性深感震撼。这篇介绍将带你一窥其技术前沿的魅力。【10月更文挑战第12天】
57 1