人像卡通画训练营:课时1;跨越N次元 一键变身AI漫画人
跨越N次元 一键变身AI漫画人
内容介绍
一、课程介绍
二、技术原理
三、实战教学
一、课程介绍
今天将为大家带来关于训练营的第五模块,AI人像漫画。我们将从两大方面进行讲解,第一方面是技术原理,第二部分是实战教学,技术原理方面我们会从几个小的模块进行讲解,包括图像生成和编辑技术的发展与应用、AI任务的定义和效果展示,以及相关技术的解析。最后,我们将深入介绍今天的主要内容,即Contents方法模型,它将成为后续教学的基础。然后我主要关注的是模型的推理训练以及空间应用的构建。
二、技术原理
现在,让我们首先介绍图像生成类编辑技术的发展和应用。图像生成技术实际上可以追溯到2000多年前,自那时以来,已经进行了大量研究。
这项技术的任务是使计算机能够生成大规模的新数据。因为我们日常使用的图像通常是有限的,而且有些需要专业设备采集,采集成本也相对较高。因此,我们希望计算机能够自动生成新的图像数据。然而,如果这些生成的图像内容是随机的,我们就无法控制生成的结果。
因此,更多的研究集中在实现内容可控的图像生成上。内容可控意味着我们可以通过控制生成内容的布局、位置、风格等因素来实现。例如,通过输入草图或者特定的图像,我们可以控制生成结果的布局和主题,还可以从图像中提取纹理等信息。
此外,关于风格的控制,我们也可以探讨一些内容。就整体而言,对于图像内容的控制,我们可以分为不同的层面,包括布局位置以及各种纹理和风格的控制,然后再进行生成。
现在,一个大家可能非常熟悉的主题是AI-GC,即AI-GC图像生成与编辑。在这个领域,实际上涉及到视觉模型的高级任务,其核心任务是让计算机按照人类构思的内容自动化生成图像数据。
为什么AI-GC如此热门呢?实际上,从2000多年前到现在,这个领域经历了巨大的发展和进步,它具有强大的通用性,能够生成高质量的图像,并且在许多下游编辑任务中都有广泛的应用,总体来说,它的发展趋势是变得越来越强大和通用。
此外,从可控性的角度来看,AI-GC正在朝着多模态和更加灵活的方向发展。以前,大多数方法都基于语义布局进行输入,但现在我们可以用文字来描述所需的内容,然后进行生成。
接下来,让我们讨论一下图像生成模型的发展现状。
从历史的角度来看,图像生成模型可以分为两大类:传统的基于规则的合成模型和深度图像生成模型。
传统的合成模型通常不涉及深度学习方法,而是通过非参数化的采样和融合方式来扩展原始图像。其核心思想很简单,即将现有的图像和纹理视为元素材料,然后通过采样原始块、拼接和优化接缝的方式来生成新的图像效果。尽管这些方法在一些情况下表现出色,但它们也存在一些缺陷,特别是在处理复杂的结构和纹理时,容易出现问题,而且依赖于在线迭代优化过程,时间效率较低。
后来,在2016年和2017年左右,深度生成模型开始崭露头角。虽然不是最早的尝试,但它们在图像生成领域得到了广泛应用。这些模型实际上采用深度学习技术,具有更高的图像质量,并且在处理各种复杂结构和纹理时更具优势,然而,它们也需要大量的训练和计算资源。
逐渐地,深度学习方法逐渐崭露头角,大致可以追溯到大约2017年左右。当时,研究界开始采用深度神经网络来进行图像生成,这一过程具有以下大致的历史发展轨迹:最初,我们基于卷积神经网络(CNN)这一框架进行建模,随后,对抗生成网络(GAN)等新型方法开始受到广泛关注,如今则以自回归模型为代表,这些模型已经成为当前研究中的热门方向,采用了大规模的模型集合策略。
针对应用场景,这类模型在实际应用中具有广泛的适用性。它们可以用于各种现实场景,例如:
内容创作:这些模型可以根据给定的语义涂鸦生成对应的真实图像,为内容创作者提供创作灵感。
图像修复:用于修复图像中的损坏或缺失部分,自动填充图像中的缺失区域。
批图处理:允许用户选择要批量处理的区域,然后自动填充图像中的相应部分。
照片美化编辑:用于编辑照片的外观,包括更改照片的风格,增强图像的美观度。
人像编辑:用于编辑人物照片,例如更改人物的年龄、发型和其他面部属性。
智能描绘:这也包括在Photoshop中的插件,可用于编辑人物照片的各种属性,如年龄和发型。
总的来说,这些模型在图像处理和编辑领域有广泛的应用,为用户提供了强大的图像处理工具。
三、实战教学
今天,我们的重点是探讨AI项目中的漫画生成应用,实际上,这个应用是照片美化和人脸编辑领域的一个交叉应用。基本上,它旨在通过对指定的人像照片进行戏剧性的样式转换,以获得卡通形象、手绘风格或虚拟外貌等一系列独特的效果。
在传统的艺术创作过程中,通常需要耗费大量时间和成本,需要逐步手工绘制图像。
而在这种AI项目中,我们可以轻松地将一张图像转换为多种不同的风格效果,而且通常可以实时完成,这是一个基于图像的应用定义。
对于视频而言,实际上可以拆分成一系列图像帧,因此在视频领域,我们同样可以追求类似的任务,即将视频转化为动画化的效果,但这需要对帧逐一进行处理。
接下来,我们将重点讨论与AI人像相关的技术。
由于这些技术的本质是基于图像生成模型的,所以随着图像生成模型的不断发展,这些技术也在不断演进。从最初的神经风格迁移开始,到后来的条件生成对抗网络(GANs),以及最近的预训练模型(如GANILLA),它们都用于处理漫画生成任务,这个领域涵盖了许多复杂的问题,我们将在接下来的内容中详细展开。
下面我们会一次介绍一下跟这个任务相关的一些技术模型,实际上就是在2016年或者2017年左右,块这主要是基于这样来做,然后对于它的本身的原理,我们用cn网络去捕获内容,不会要求像的内容表征和风格表征,然后他的原理是我们金融表征的,然后再去给我们的一个输出图像做一个约束,这其实是一个比较经验的结构,就是比如说我们输入一张图像,我们都通过一个学转网络都得到图像,那么我们怎么样保证?因为它这块输入的就是你的内容图像,然后我们的目标就是我们输入这张图像,然后我们给他一张图,比如说第二个和第三第四列这个右下角的这个风格图,有一张内容图,然后我们希望生成一张内容图,然后风格又是风格图种风格的一个艺术效果。
然后我们直接来谈论这个网络的任务目标,首先,我们有一个输入内容图像,通过一个转换网络,它会生成一个输出结果。现在问题是,如何确保输出的结果既具有输入内容图像的内容,又具有我们想要的风格?在这方面,我们可以使用一些网络来进行特征提取。因为某些特定层可以更好地表示内容特征,而其他层则更适合表示风格特征。这个想法实际上源自目标检测领域的工作。因此,我们将生成的结果传入VGG网络,然后分离内容、风格和结构。
我们将内容特征与输入内容图像的内容特征保持一致,同时也将风格特征与风格图像的风格特征保持一致,以达到我们的目标。然而,这种方法的缺点是难以生成非常夸张的效果,因为它主要是全局操作,对于所有特征都进行了处理。
它都凭等对待的,然后很难产生对细节的精确控制,比如局部化妆效果。然后在2017年左右,随着GAN广泛应用于图像生成任务,AI项目漫画也开始基于GAN模型。
GAN(生成对抗网络)是一种包括生成器和判别器的对抗性网络。生成器负责将噪声生成图像,而判别器则试图区分生成的图像和真实图像。这是一个博弈过程,生成器努力生成逼真的图像,而判别器努力识别生成的图像是否为真实样本。
在这类方法中,我们不仅仅使用噪声来生成图像,还可以将图像编码到一个潜在空间中,然后引入一些结构信息,例如图像条件,以实现从一个领域到另一个领域的转换。这意味着我们可以实现一些有趣的转换,如将白天图像转换为夜晚图像,或者将边缘图像转换为真实图像。这个方法使用一个图像作为输入,将目标领域的图像作为输出,学习两个领域之间的映射过程。
这类方法确实降低了对成对数据的需求。以前,我们需要大量的成对数据,其中一个域的数据与另一个域的数据一一对应,以进行训练。然而,后来出现了一种方法,它不再需要成对数据。相反,我们只需提供两个域各自的数据,这些数据之间可以通过循环一致性原理进行训练。
这种方法的核心思想是,首先将域A中的图像转化为域B中的图像,然后再将域B中的图像转回域A,同时保持图像的一致性。这样,我们就能够实现从一个域到另一个域的转换,而无需大量的成对数据。
在卡通风格转换任务中,我们可以有一堆真实照片和一堆卡通风格图像,然后学习这两个域之间的映射关系,从而实现相应的转换。这种方法的好处是它可以更灵活地进行图像风格的转换,而无需成对数据的大量标注。
这种类型的方法在不同的应用领域中都有广泛的应用,包括风格转换、照片美化、图像合成等。它们的基本结构大致相似,包括训练阶段和模型结构。
在训练阶段,需要大量的现实数据和相应的卡通数据。模型的目标是学习将现实域的图像转换为卡通域的图像的映射关系。
模型的结构通常包括编码器(Encoder)和解码器(Decoder)。在编码阶段,现实域的图像被编码成内容特征。然后,通过解码器,这些内容特征被解码成卡通域的图像。这确保了内容在转换过程中被保持。
然而,对于卡通域的图像,因为它们都有相似的风格,所以模型可以自动捕捉到这种风格,并在生成过程中应用。这意味着模型可以自动地将风格参数应用到生成的卡通图像上,而不需要额外的控制。
当然,也存在一些方法,可以实现可控的风格生成,允许用户对生成的风格进行更精细的控制。这些方法通常包括额外的风格参数,用户可以调整这些参数来实现不同风格的生成。
这个需要我们把它想要参考的这个风格样本去通过编码形式去编码的一文间,然后得到一个风格编码,然后把这风格编码在我们解码信中,和内容整合到我们的解码器,然后再去生成这个结果,基本上现在是这两种形式,所以上面就它其实是输入图像,然后他转成对应的风格,然后它是没有 style-controled 的,然后对他的结构,实际上就是在我们去加入风格的一个编码,他需要一个约束的损失,我们怎么去约束他,去生成我想的效果。对于上面这个来说,实际上它的原理就是因为我们网络的结果,然后我们怎么样让他去实现达到我们想要卡通效果。实际上它会通过一个vg的编码器,他会提取一些内容的一些表征,还有一些文学表征,在vg层面上的一些feature去导致分别保持一致,然后去约束。
还有一类,实际上就是对content的内容约束,希望我们生产的这个图像的内容表征和我们的注入的这个图像保平一致。同样,你也可以注意一些图象,然后让他去保持一致性,让他们去保证,其实本质原理是一样的。此外,还有一种名为Style-Loss的方法,它涉及使用判别器来控制生成过程。判别器的任务是识别真实样本,然后告诉生成器这个生成的图像应该是什么样的。生成器在不断的监督下改进自己,以生成与所需的卡通效果相匹配的图像。实际上,这个生成的图像可以作为服务的一部分,供用户使用。总的来说,这种方法的核心在于通过判别器的监督来生成虚拟的卡通效果。所以,这三个要点基本上涵盖了这个方法的核心思想。
此外,还有一类方法,基于预训练生成模型。这些模型本身能够从噪声中生成图像。然而,如果我们希望生成特定内容的图像,就需要引入内容条件来控制生成过程。这种方法可以分为两类,一种是基于风格的,另一种是基于无监督学习的。虽然它们的原理略有不同,但基本思想相似。
对于基于风格的方法,因为生成器本身能够从噪声生成图像,例如人脸图像,我们可以通过提供一些卡通样本来让模型进行迁移学习,使其适应卡通领域。然后,模型在适应后能够生成许多卡通样本。如果我们想要将一张图像转换为卡通风格,我们首先对该图像进行编码,找到中间的表示,然后将它传递给生成器以生成对应的结果。这个过程称为编码-生成过程。
另一方面,基于无监督学习的方法通常从噪声生成图像,这种方法广泛应用于GAN模型。LDM(Latent Discriminative Model)则是一种与之相关的方法,它主要用于降维。与原始GAN模型不同,它对每个分辨率的层都进行了相同的训练,这增加了模型的复杂性。
然后,我们将我们的图像映射到一个无间中。在这个潜在空间中,我们学习了一个复杂的过程,以捕捉家道和信造的关系。然后,我们进行生成过程,相当于将它们解码回自己的空间。这个过程可以看作是降维的一部分,将图像在空间中进行了高效的表示。因此,这个结构现在比较常见,对于生成模型来说,它可以注入许多条件,包括文本、测试数据和图像。C-compact则是从潜在空间的中间部分注入条件的一种方式。
然后,我们追求达到精确控制的效果。从应用的角度来看,比如使用扩散模型,一旦它训练良好,你可以如何生成特定的内容?例如,如果我们有一个人的名字,并告诉模型要生成漫画风格的该人物,它就能够生成相应的效果。或者,我们可以提供一些初始内容,然后引导模型进行生成。因为这种模型本身不会自发开始生成,大部分情况下,这个方法是找到原始内容与我们模型中的表示之间的联系。通过在潜在空间中进行逐步的插值,模型逐渐学习内容之间的关系,从而得到构成最终生成的组成部分。这样,我们可以提供位置条件和文本条件,动态地引导模型生成所需的风格。
然后,我们直接将这个数据映射到我们所需的风格化领域。这就相当于我们用模型进行了一个变换,使其能够构建适合于目标风格的模型。然后,我们只需提供图像作为输入,模型就能够非常适应地生成相应的结果。这种方法可以应用于各种情境。
然而,无论是基于GAN的图像翻译方法,还是基于预训练模型的方法,它们都存在一些问题。对于基于GAN的方法,主要问题在于它们依赖于学习目标风格与原始图像之间的变化。此外,它们的性能实际上非常依赖于训练数据的规模。如果数据量不足,往往会导致在复杂场景下的性能不足,例如无法处理某些特定配置或固定对象,如口罩等。当模型遇到它从未见过的内容时,很容易产生不稳定的生成效果。
此外,它们的质量经常不太够。对于基于预训练模型的方法,最大的缺点是它们的内容保真度不够。这是因为这些模型通常能够生成非常逼真的效果,但如果你想要对一张图像进行编辑,需要将图像投射到模型的潜在空间中。在这个空间中,很难找到对应的编码,尤其是对于特定的特征或内容,这变得非常困难。因此,虽然生成质量很高,但很难保持原始内容的一致性。
此外,这些模型通常是面向特定任务的,主要用于生成人脸图像等特定领域。
它不是针对人像的任务,而是一个基于绩效的图像转换任务。这个任务实际上是在数据稀缺的情况下进行的,因为获得大量标注数据的成本相对较高。因此,它的目标是通过使用少量样本进行训练,实现高质量的风格转化效果。
首先,它的输入是一张图像,然后上面的"abc"代表不同的风格样本。通过在样本"a"上进行训练,它可以生成高质量的转换效果,仅使用了有限的样本。然后,在整个数据集上,模型可以将这种效果扩展到其他样本,包括全身的图像,这种全身转换效果。
这个模型具有几个优势。首先,它旨在更好地保留人物的身体和背景。它的能力在于理解图像并保持其整体结构。其次,它不会干扰图像的某些部分,即它的效果是均匀的,不会导致不协调的外观。最后,它在保留脸部特征以及其他内容方面表现得非常出色。
这个模型能够很好地保留各种细节,包括一些配件,例如手部的姿势和其他配饰,以及图像中的其他内容。
它在面对复杂场景时表现出色,包括一些特殊情况,例如带口罩的人、戴眼镜的人,以及一些不常见的姿态,即使是这些情况下,它也能够产生高质量的效果。
第三个方面是可扩展性,这包括可扩展性和涵盖不同体验的两个方面。首先,它可以用于传统的全身化转换。之前的方法主要集中在头部的个性化转换上,因为模型在这个领域表现得很出色。然后,它的模型结构本身是非常灵活的,可以轻松扩展到不同的风格,这是它的一个重要优势。
这个方法的原理是基于人与标记域之间的关联过程。在这个过程中,我们的模型首先在我们的原始域中学习,这个原始域包含许多真实照片,这些照片具有丰富多样的特征,数量可达数百万。这些照片来自真实世界,因此它们可能具有各种复杂性和变化。
然而,对于目标领域,例如卡通图像,情况则不同。这种目标领域的图像通常是由人工制作的,而且我们能够获得的样本数量非常有限。由于人工制作的过程需要时间,所以样本数量相对较少,可能只有几百张。此外,这些样本通常只包含部分信息,可能只有某个观察结果,而没有其他视角或变化。
在面对这种情况时,该方法的目标是学习如何将原始域中的图像转换为目标域中的图像,以实现所需的效果。
那么使用这种方法可能会引发一些问题。因为在某种程度上,它是一种市场销售策略的一种转变,类似于我们只有一些示例图,数量非常有限,这会导致数据的偏差问题,这在我们的标语中可能会引发一些问题。所有人都倾向于积极看待它,人们普遍认为这是一种流行趋势。然而,在转变过程中,出现了一些物理现象,如果你试图拟合这个现象,可能会导致我们的素材产生许多不同的结果,这可能会在某些情况下引发问题,比如,如果你的数据全部包含流行趋势,但你的文章并不包括这方面的内容,它可能会生成一些不适宜的结果。对于这个问题,一个核心思想是,首先对领域进行校准,然后再进行翻译,这本质上是一个原理图像,是我们的一个基本理念。
它的形态是这样的,它的特点是非均匀的,存在丰富的分布。而就我们的目标而言,它的流动性实际上非常显著。然而,可用的样本数量却有限。传统的模式是直接进行转化,但这可能导致过拟合问题。
在第四阶段,我们首先校准目标率,因为误标率存在偏差。
那么,我们如何实现这一目标呢?这就需要内容的适配和丰富化。如果我们的分布可以与所需的目标分布相匹配,学习过程就会更简单。那么,如何使其达到这个状态呢?这就涉及到特征的调整和几何扩展,以及其他几何概念的应用。至于内容,我们通过某种方法进行处理,将原域的特征迁移到标记域中,以实现目标生成。
这个过程类似于构建一个三角关系,从原本只有三个元素,现在可以生成更多内容,从而实现方向性变化。然后在这一步中,我们对它进行了多项校准,包括一些频率反转等偏转上的变化。通过这些变化,我们实际上能够获得一些多角度的特征表征,使特征更加多样化。然后,在这个阶段,我们进行了两者之间的学习,从原始域到最终目标域之间的翻译变得非常容易。这是它的核心思想。
从网络结构的角度来看,实际上包括三个主要部分。第一个是主网络,也叫CN网络,用于内容的标准。然后第二部分是一个结构修改的模块,整体来说是一个文理转化网络。在训练过程中,主要分为两个阶段。在第一个阶段,我们首先训练这个主网络,让它学习内容的标准。然后在第二个阶段,我们通过文理转化网络来学习真实人像到卡通照片之间的转换关系。因为这个结构修改的模块只需要一些集合的增强操作,它不涉及网络。因此,在这一块没有传统的消息传递。
对于训练过程,比如在第一个阶段,我们如何训练内容教育网络,对于风格和其他因素,这个模型本身能够学习。我们自己提供真实人脸的样本,用以适应到标记域。然后,我们为它提供一些输入,它可以生成相应的卡通人物,同样的原则也适用于第二阶段,它能够生成不同风格的结果,这样,我们可以生成各种不同的效果,同时保留了原始内容表征,这进一步丰富了内容。
当我们提供相同的输入时,我们通过真实生成器和卡通生成器分别生成结果。这两个点之间的距离通常很接近,因为它们共享一些参数,以适应风格转换,但明显可以看出,卡通生成器可能会丢失很多内容,包括细节和典型情况,因为在其培训过程中,它会受到数据偏置的影响,导致内容偏差。
另一个问题是一些局部变化,例如道路的位置可能不同。由于这些差异,生成的人脸可能已经存在较大的内在损失。当我们将其编码到新的空间时,这部分内容可能会受到很大的损失。文理转化网络的目标是进一步提高文理的保持能力。因为在上一个阶段之后,生成器可以产生大量卡通样本,但它们更多是全局的,与原始内容不完全对应,所以我们希望文理转化网络能够改善这种情况。
我们观察到,这个模型在应用中非常强大,但实际上它仍然寻找局部优化关系。因此,在第二阶段,我们通过引入局部的映射将问题局部化。这部分主要使用了一个系统,其中包含了许多相互关联的组件。它具有很强的内容保留能力,我们使用这个系统来学习两者之间的局部文理更新效果。在这一阶段中,我们不会使用监督方法,不会用数据监督网络的生成过程,而只是让它们组合卡通的特征。
这是一个非监督方法。我们依靠强大的文理转化网络来学习这种映射。这种方法可以显著提高内容的保留。由于我们的生成模型会生成许多背景图像,这也增加了对背景内容的转换效果。同时,它还能够轻松扩展路径。另外,对于某些浮动项来说,需要较长时间的网络,但对于这种生成模型的方式来说,特别是在处理整体内容时,更加高效。
由于我们的模型本身规模较大,同时还需要处理大规模的数据,例如集中训练。对于理解来说,这也变得相当复杂。此外,我们的网络结构也非常复杂。在这方面,我们使用了一个局部网络,通过多年的尝试学到了合适的权重。
实际上,在推理阶段,我们只需要将这些权重导入,并将输入传递给它,以获得相应的结果,这个网络实际上非常轻量级。这样一来,我们可以有效地处理这一过程,我们来看一下这种方法的效果,首先,我们来看一下输入图像。
接下来的部分是关于不同风格下的转化结果以及在某些方面的转化效果,与其他已有模型进行比较,可以发现这种方法更好地保留内容,并且在最大程度上减少了不必要的变化。此外,它还支持一些生成方面的操作,并在相关指标上取得了良好的表现。
然后明显的是用其他的一些做的,然后在效果对比上,我们现在常用的依赖就是生成式的传统的训练的好的,不管是较多的,就是基于何种形式,基于这种模型来说的话,它其实相对来说会有更好的,会更少一点,最主要是保留,它是基于这种翻译模型来做的,所以说他对内容就更好一点,其实它没有非常强的一个重复率。
所以说,尽管生成式模型在一致性方面可能稍差,但它们在保持生动的质感方面表现更佳。您提到了它们的控制程度,这通常更高。这涉及到在利弊之间权衡选择。
接下来,我们可以看一下基于DCT-Net的生成效果,以及它在视频上的效果。由于DCT-Net它对应用的保证模式较少,因此您可能需要进行中间的平滑操作来适应特定应用场景。
在处理生成效果时,可以将图像或事物拆分成多个部分,分别处理后再合成视频,以获得更严格的效果,这是技术原理部分的一部分讲解。