一、引言
在光怪陆离的梦境中,我们可以摆脱客观事实的约束,对自己的外在形象进行天马行空的畅想,有人化身威风凛凛的将军驰骋疆场,又有人化身亭亭玉立的公主正襟危坐,然而这些翩若惊鸿婉若游龙的美好瞬间却总是会随着一声闹钟的响声化为泡影。难道梦境中的自己总是不能被带回到现实之中吗?AIGC技术的快速发展使得这一点成为可能。
在国外,Lensa作为一款曾经不温不火的人脸美颜特效类应用,在11月下旬上线魔法头像功能之后便迅速登顶美国AppStore畅销榜首,每日疯狂吸金数百万美金。在这一神奇功能中,用户只需在app中上传10-20张自己的照片,经过半小时的运行演算,便可以获得多种风格天马行空的AI绘画头像,每张作品都宛如梦境中的自己在现实中得到了刻画。
在中国,妙鸭相机也用相同的逻辑,赢得中国市场的众多用户。
最近同样赚得盆满钵满的还有抖音和美图秀秀,两方人马在近期几乎同时上线了AI二次元人像生成器,对于用户输入的任意图像,AI都会生成一张图像在二次元中的对应,脑洞大开、惟妙惟肖的生成结果总是会让人感觉眼前一亮。那么,以上两种爆款应用背后的底层技术是什么呢?我们能否通过极低的成本完成技术的复刻呢?下面我们将为大家进行详细的介绍。
二、文字与图像的碰撞构筑技术地基
近期AI绘画的迅速崛起主要得益于两大技术的快速发展,大规模文本图像预训练技术与扩散生成模型。前者像AI绘画的翻译器,能够将用户输入的文字翻译成AI模型能读懂的语言,后者则是一位超强的灵魂画手,能够根据前者翻译的结果进行图像的绘制,两者结合在一起便构成了AI绘画的技术基础。
1. AI绘画的翻译器--大规模文本图像预训练技术
自18年谷歌BERT横空出世以来,大规模预训练语言模型一跃成为自然语言处理领域的研究热点。而BEiT-V3更是在BERT的基础之上引入了“Image as a foreign language”概念,如果将视觉图像视为一种语言,那能否在文字与图像之间建立起像两种语言一样的对应翻译关系呢?在这一思想的指导下,通过在海量“文本-图像”成对数据上进行大规模的模型训练,2021年openAI提出的CLIP[1]大幅打破了文字与图像之间的壁垒,基本实现了文本与图像之间的“相互翻译”。由此这一技术也在近期成为了AI绘画大规模兴起的敲门砖,让AI懂得了“我该画什么”。
2. AI绘画的灵魂画手--扩散生成模型
曾几何时GAN是图像生成领域绝对的王者,然而其训练过程中的不稳定性、以及较差的几何形状描绘能力却一直被人诟病。因此寻找更稳定、效果更好的图像生成模型,成为近年来工业界学术界所关注的重点。在此背景下,21年openAI的一篇Diffusion Models Beat GANs on Image Synthesis [2]吹响了扩散模型崛起的号角。因其循序渐进式的训练生成过程与CLIP高度适配,扩散模型在一开始便成为AI绘画的主力生成模型,成为在“AI翻译器”指导下的灵魂画手。
如上图所示,扩散概率模型(DDPM)通过变分推理的方法来进行训练。通俗点来讲,所谓扩散的过程便是缓慢的向一张正常图像数据中逐步添加随机噪声的过程,直到图像成为完全的随机噪声,而扩散生成模型则在巧妙的训练机制下重点学习了逆扩散的过程,即学习从一张随机噪音图逐步生成一张正常的图像的过程。这一分步骤、分层次训练生成的模式完美契合了AI绘画生成任务,保证了扩散模型可以在AI翻译器的指导下,一步步地绘制出用户所希望绘制出的内容。
三、现实同艺术的结合创造无穷想象
1. 利用艺术关键词调绘单张人像--StableDiffusion
将AI翻译器与AI画手有机地组合在一起,便构成了AI绘画的主要技术架构。而在现有的组合方式中,Stable Diffusion[3]因其卓越的效果逐渐取代DiscoDiffusion成为AI绘画界主流架构,无数AI艺术家利用StableDiffusion结合他们天马行空的艺术关键词创造出了众多让人叹为观止的艺术佳作。同时这项技术也是抖音美图等App所推出的AI绘画功能的技术基础,下面我们也将简单介绍下我们利用StableDiffusion结合艺术关键词进行人像风格化调绘的尝试与探索。
下图是利用艺术关键词进行单张人像的艺术化调绘的具体过程,输入单张人脸的照片以及一段艺术关键词,AI绘画算法会根据关键词的提示渐进式地修正绘画结果,使得绘制出的画作与输入的关键词在语意上尽可能得达到一致,将输入的人物画像调绘出我们所希望达到的效果:
下面是我们在更多人物形象,结合更多艺术、动漫关键词所做的尝试与结果:
2. 让AI绘画也记住你的名字--DreamBooth
如前文中提到,AI绘画的基础技术之一是大规模图文预训练模型,此模型是由互联网上海量的“文本--图像”数据对训练得来。那么对于互联网上不存在的数据,比如我们自己的照片,能否也通过一定的方案,将这一部分数据也融入到AI绘画模型之中,成为AI绘画模型的一部分呢?为此谷歌推出了DreamBooth[4],一种基于模型微调的解决方案。
以下图的人像数据微调为例,我们可以预先准备10-20张自己的照片,而后构建照片与文本关键词的数据对,基于DreamBooth技术利用新构建的数据对微调StableDiffusion AI绘画模型,微调完成后便可以得到融合了新引入数据对信息的绘画模型。基于微调后的模型,我们可以通过组合新引入的文本关键词与其他艺术关键词,实现更加有趣的绘制创作。
相对于能够单一生成动漫风格人像的扩散模型,让模型记住自己的脸并生成多种多样风格的个性化人像照片更加具有吸引力。要生成多种多样风格的艺术照,文本提示词也是其中的一项技术壁垒,有些文本提示词可以稳定的生成效果惊艳的图像,有些可能效果较差,需要大量的实践尝试,如下是基于DreamBooth更多艺术风格绘制的个人肖像画尝试,这一技术便是Lensa App能够疯狂吸金变现的核心技术。
四、困难共机遇的并存明确未来方向
1. 当前AIGC人像绘画存在的问题
1.硬件资源要求高:除去从零训练一个大规模文本到图像扩散模型需要大量的显卡资源,仅使用少量图像微调一个AI绘画模型,至少需要V100 24G显存的机器。
2.生成速度效率慢:微调一个扩散模型的时间至少需要15分钟,推理阶段速度慢,每生成一张512*512的图像大概需要1.5秒。
3.生成结果稳定性较差:AI绘画模型生成的图像具有很大的随机性,图像质量良莠不齐;在固定的一段关键词生成某种风格的艺术照时,存在图像风格不稳定的问题。
2. 我们的优化探索
1)基于知识蒸馏的模型小型化、专业化方案
为了解决AIGC人像绘画现有的硬件要求高、效率低、稳定性差等问题,我们采用了一种基于知识蒸馏的半自动化框架,尝试将某一种艺术风格的人像绘画能力从AI绘画大模型中蒸馏剥离出来,从而实现针对某种特定人像绘画风格的专业化小模型的蒸馏产出。整体流程分为以下几个步骤:微调获得新艺术风格AI绘画模型;构造并筛选高质量数据对;有监督方式训练端到端生成小模型。
(1)微调获得新艺术风格AI绘画模型。为了解决AI绘画模型文本生成的图像风格不稳定的问题,我们优先使用少量风格图像来微调预训练模型获得一个绘画风格相对固定的AI绘画模型。以手绘风格为例,我们使用20张左右的手绘风格的人像照片基于DreamBooth微调StableDiffusion模型,产出的新模型在手绘风格人像调绘方面便会展现出极强的风格一致性。
(2)构造并筛选高质量数据对。为了解决扩散模型生成图像良品率低的问题,我们在AI绘画模型生成的风格数据的后续阶段,新增一个自动化筛选模块,我们使用质量二分类模型或者高斯混合模型[5]来筛选好坏数据,通过卡一个阈值来筛选质量高以及风格稳定的人脸和风格图像数据对。
(3)有监督训练端到端小模型。为了解决扩散模型依赖硬件资源和生成速度慢的问题,我们使用一个小的端到端的网络结构来蒸馏StableDiffusion模型,使用步骤(2)中生成的高质量数据对来训练一个有监督的全卷积神经网络,从而得到一个参数量小于5M的端到端生成模型,此等模型规模保证了其可在任意低端设备运行,即便在性能较差的安卓机上新风格人像的生成速度也可达100ms以下。相对于参数量5G、推理速度大于1秒的StableDiffusion模型,其生成效率大幅提升。
2)艺术风格的产出与储备
个性化的艺术风格人像照在直播互动和头像展示等方面对用户有着很大的吸引力,不仅如此,从IOT业务角度出发,在刷脸支付场景下,一个有趣的、可辨识的、个性化的虚拟形象,不仅能够在刷脸时给用户隐私保护的体感,同时能够降低刷脸时的尴尬感,增加刷脸的趣味性。与此同时,还可以通过对个性化虚拟形象额外加入一些线上互动,比如一些AR/VR场景的玩法,通过这些玩法,引导用户进行传播,同时吸引、引导用户到线下进行刷脸。
为了产出更多美观性高的人像绘画艺术风格、为用户提供更多趣味化的玩法,我们进行了一系列AI人像绘画艺术新风格的模型与算法积累,如下是我们基于上述技术路线产出的部分AI人像绘画新风格端到端小模型的视觉结果:
3. 始于人像但不止于人像
宠物的虚拟形象
除了人像艺术照的生成,我们也尝试了宠物的虚拟形象生成。相对于复杂的人脸面部,非人脸的物体学习更容易一些,只需要输入3-5张猫咪的照片,使用DreamBooth技术微调扩散模型,短短五分钟即可获得一个该猫咪专有的AI绘画模型,使用不同的艺术关键词生成的高清宠物艺术照效果如下图所示,使得家里猫咪也体验了一把梵高风格。
参考文献
[1]Radford A, Kim J W, Hallacy C, et al. Learning transferable visual models from natural language supervision[C]//International Conference on Machine Learning. PMLR, 2021: 8748-8763.
[2]Dhariwal P, Nichol A. Diffusion models beat gans on image synthesis[J]. Advances in Neural Information Processing Systems, 2021, 34: 8780-8794.
[3]Rombach R, Blattmann A, Lorenz D, et al. High-resolution image synthesis with latent diffusion models[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 10684-10695.
[4]Ruiz N, Li Y, Jampani V, et al. Dreambooth: Fine tuning text-to-image diffusion models for subject-driven generation[J]. arXiv preprint arXiv:2208.12242, 2022.
[5]Gu S, Bao J, Chen D, et al. Giqa: Generated image quality assessment[C]//European conference on computer vision. Springer, Cham, 2020: 369-385.