淘宝人生2的AIGC技术应用——虚拟人写真算法技术方案

简介: 淘宝人生2的AIGC技术应用——虚拟人写真算法技术方案




近几个月,随着基于Stable Diffusion的相关技术发展,基于参考图的角色定制化技术[1,2, 3, 4, 7]受到相关行业以及学者的广泛关注。其中,人像定制化是指:给定任务角色(参考图),通过提示词控制生成多样新的图像,并且图像中的人物身份信息和参考图保持一致。人像定制化生成技术可以分为1)基于角色LoRA训练以及2)基于注入图像特征两种方案。其中,基于LoRA训练的技术通过收集定制化人物的多张图像(数量越多,效果越好),将该角色的身份信息隐式的表达在添加了LoRA的Stable Diffusion中(或称为训练数字分身),对于每一个人物,在线训练的时长3~5min不等,例如《妙鸭相机》。而基于注入图像特征的方案规避了“数字分身”的训练过程,受到学者的广泛关注,一些学者利用Stable Diffusion能够生成某些名人多种图像这一特性,开发了少样本的训练方案[8],另一些研究集中于从输入图像中学习到一些特征,注入到Stable Diffusion中。这类方案往往需要较大的数据集,效果相对更加出色。我们基于预训练的人物肖像特征提取器,设计了一种保持人物身份信息的技术方案,效果如图1所示。


图1 淘宝人生《写真馆》线上结果

引言


作为一款装扮类产品,第二人生(淘宝人生2)为手机淘宝引流方式打开了新的大门。其中,结合AI的创新玩法是提升用户活跃度的重要手段。第二人生凭借形象的高度可定制化,提供了多种个性化玩法。随着AIGC技术在图像生成方向的发展,一些技术[1,2, 3, 4]在人像定制化生成上取得不错的进展。因此,我们基于Diffusion技术,构建了一套适用于3D数字人渲染图的AI写真算法方案。


图2 AI照相馆

现有的开源技术中,FaceChain提出了一个基于LoRA训练的人像定制化方案,但是在线训练人像LoRA消耗大量计算资源以及时间,在AI写真项目上可用性较低;此外,ip-adapter通过引入解耦化的注意力机制,将人物信息注入,但是这种方法限制了生成图像的局部多样性。我们提出了一种新的解决方案,其优点在于:

  1. 低时间成本。我们不采用在线训练LoRA的方式,每次出图速度约20s,较基于训练LoRA的方案(预计2~5分钟)快7倍左右。
  2. 多样性。我们设计一种新的基于ip-adapter生图方案,在不影响背景多样性的情况下生成具有一致身份信息的定制化照片(局部多样性),同时,我们可以结合多种风格LoRA,通过调节提示词模版,支持多样的风格(内容多样性)。


技术方案


我们使用如图3的技术方案,整个算法的输入分为“输入图像”以及“输入风格”,其中,“输入图像”来自于3D数字人模型的正面渲染截图(该形象由用户定制);此外,为了使图像生成模型具有内容多样性,我们提供了多种风格,每种风格对应各自的LoRA模型以及提示词模版,模型的“输入风格”由用户选择。

图3 AI照相馆算法pipeline


 图像预处理


由于3D模型渲染结果的正视图截图质量参差不齐(例如,有些用户在捏脸的过程中引入“雀斑”,“贴花”),首先我们需要对输入人像做质量提升。我们首先使用人脸美肤模型对人脸进行美肤处理,这一步主要消除人脸上的雀斑。


图4 美肤算法结果


此外,我们使用人脸增强模型进一步增强人脸,这一步是为了:

  1. 淡化面部一些不和谐的贴花;
  2. 在保持人像身份属性的条件下,将数字人像分布尽可能拉齐到真实人像分布。


图5 人脸增强算法结果


为了使得生成模型能够高效地利用输入图像的有用信息(如身份信息,妆容等),我们对人脸以及头发区域进行分割,同时裁剪出人脸区域,作为图像生成模型的输入(如图3)。接下来,裁剪出来的图像将通过人脸特征提取器提取人脸特征,通过cross attention机制,与提示词的clip特征共同输入到图像生成模型中。


 图像生成模型


图像生成模型中,使用参考图控制图像生成结果的身份信息可分为LoRA[1]训练的方式以及通过模型注入[6]的方式。其中,通过LoRA训练的方式需要输入同一ID不同pose的图像,并且在线训练该ID的LoRA(或者称为数字分身)。由于训练LoRA耗时非常久,因此我们采用通过信息注入的方式控制图像合成。

图6 ip-adapter算法框架


前期实验中,我们采用类似ip-adapter中提出的的图像注入方案(如图6),将图像编码成嵌入向量,通过crossatt的注入到U-net中,但是我们发现,如果将图像编码和文本编码相加,则会影响文本tokens对图像生成结果的控制,使得图像的局部多样性变低;如果将图像编码和文本编码按照维度拼接,由于attention中固有的特性(对前面的token更敏感),输入图像对生成结果的控制能力亦会变低。


图7 ip-adapter方案算法结果


例如(图7),若我们想生成一张具有红色头发风格的图像,但是受到输入人像的影响,生成结果中头发颜色没有按照提示词的描述进行生成,反而和输入人像发色一致,且背景成为单色(和输入人像背景一致),缺失局部多样性。为此,我们提出了一种新的参考图注入技术。


设我们使用的去噪步数为 ,由于Stable Diffusion的特性,其前面的步数主要生成图像的主体形态(layout),后边的步数慢慢提升高频细节。我们首先生成仅仅由提示词控制中间隐变量。具体而言(如图8),假设去噪过程为 ,在 的过程中,不注入参考图信息;在 的过程中,我们注入图像信息,并由DDIM直接进行一步噪声预测。该结果为最终生成图像的layout,我们对这个结果进行分割,得到人脸的启发区域——即生成图像的人脸大部分落在该区域中。

图8 启发区域生成算法


接下来,我们利用人脸区域掩码,基于blend diffusion,将具有局部多样性的背景区域引入到生图结果中。


图9 基于blend diffusion去噪过程


具体而言(如图9),当前时间步下的隐变量 会分别作为注入ip-adapter信息以及不注入ip-adapter信息的U-net的输入,然后两者经过融合,得到下一个时间步的隐变量,整个过程可由下边的公式表示:

其中, 越大,生成的图像的身份信息越和输入图像保持一致,但是,过大的 会引起边缘的不一致性,实验中我们设置成


下图是结果对比。可以发现ip-adapter中,输入的参考图会影响非人脸区域的多样性,例如,基于ip-adapter的头发区域近乎一致,而且背景缺失多样性(例如天空,基于ip-adapter的生成结果中天空颜色和参考图的背景近乎一致),而我们的方案能够保持非目标区域的多样性。


图10 与ip-adapter的对比结果


为了能使用户有新奇的体验,我们建立了一个涵盖约50种的风格模板库和LoRA模型库,在特殊时间节点(如圣诞节,元旦)线上发布对应的风格,切合热点以拉升用户活跃度。每种风格LoRA配合相应的提示词,使得我们的生成结果具有多样新和新奇性。


 模型后处理


Stable Diffusion的basemodel出图率不能达到100%,出图仍存在“抽卡”的情况,例如,生成的图像和输入的图像人物身份信息不一致、面部出现“坏点”、肢体出现严重扭曲等。


图11 Stable Diffusion生图过程遇到的badcase


为此,我们从每次生成的 张图像中选择质量最高 张图像作为最终的生成结果。具体来说(如图3),首先,图像生成模型生成 张候选图,对于每张候选图,我们使用人脸融合算法进一步保证身份一致性,并将候选图根据相似度排序,保留融合结果中前 张图像。对于保留的图像,我们使用图像超分模型增加图像尺寸,并使用面部增强模型进一步提升最终返回结果的人脸区域质量。


算法效果及线上反馈

基于上述算法,在3D数字人像上,我们能够生成定制化的精美照片,如下图所示:

图12 算法定性效果


我们调查了用户反馈,其结果表明了对我们算法结果的认可。


用户反馈:

引用


[1] https://github.com/modelscope/facechain

[2] https://github.com/aigc-apps/EasyPhoto

[3] https://github.com/TencentARC/PhotoMaker

[4] https://github.com/mit-han-lab/fastcomposer

[5] hhttps://civitai.com/

[6] https://ip-adapter.github.io/

[7] https://github.com/InstantID/InstantID

[8] https://arxiv.org/abs/2306.00926


团队介绍


我们是淘天集团-FC技术部-智能策略团队,主要负责手机天猫搜索、推荐、AI创新等业务研发,以及淘宝人生的AI互动玩法的研发,致力于运用搜推算法、计算机视觉、AIGC等前沿技术,为用户带来更好的购物体验和内容创作。欢迎搜索推荐相关以及AIGC相关的算法同学加入我们,简历可投递至shiyupeng.syp@taobao.com。

目录
相关文章
|
1月前
|
人工智能 运维 算法
基于 C# 深度优先搜索算法的局域网集中管理软件技术剖析
现代化办公环境中,局域网集中管理软件是保障企业网络高效运行、实现资源合理分配以及强化信息安全管控的核心工具。此类软件需应对复杂的网络拓扑结构、海量的设备信息及多样化的用户操作,而数据结构与算法正是支撑其强大功能的基石。本文将深入剖析深度优先搜索(Depth-First Search,DFS)算法,并结合 C# 语言特性,详细阐述其在局域网集中管理软件中的应用与实现。
61 3
|
1月前
|
机器学习/深度学习 存储 算法
18个常用的强化学习算法整理:从基础方法到高级模型的理论技术与代码实现
本文系统讲解从基本强化学习方法到高级技术(如PPO、A3C、PlaNet等)的实现原理与编码过程,旨在通过理论结合代码的方式,构建对强化学习算法的全面理解。
85 10
18个常用的强化学习算法整理:从基础方法到高级模型的理论技术与代码实现
|
22天前
|
存储 监控 算法
公司员工电脑监控软件剖析:PHP 布隆过滤器算法的应用与效能探究
在数字化办公的浪潮下,公司员工电脑监控软件成为企业管理的重要工具,它能够帮助企业了解员工的工作状态、保障数据安全以及提升工作效率。然而,随着监控数据量的不断增长,如何高效地处理和查询这些数据成为了关键问题。布隆过滤器(Bloom Filter)作为一种高效的概率型数据结构,在公司员工电脑监控软件中展现出独特的优势,本文将深入探讨 PHP 语言实现的布隆过滤器算法在该软件中的应用。
38 1
|
1月前
|
存储 监控 算法
基于 Python 哈希表算法的局域网网络监控工具:实现高效数据管理的核心技术
在当下数字化办公的环境中,局域网网络监控工具已成为保障企业网络安全、确保其高效运行的核心手段。此类工具通过对网络数据的收集、分析与管理,赋予企业实时洞察网络活动的能力。而在其运行机制背后,数据结构与算法发挥着关键作用。本文聚焦于 PHP 语言中的哈希表算法,深入探究其在局域网网络监控工具中的应用方式及所具备的优势。
74 7
|
1月前
|
运维 监控 算法
基于 Python 迪杰斯特拉算法的局域网计算机监控技术探究
信息技术高速演进的当下,局域网计算机监控对于保障企业网络安全、优化资源配置以及提升整体运行效能具有关键意义。通过实时监测网络状态、追踪计算机活动,企业得以及时察觉潜在风险并采取相应举措。在这一复杂的监控体系背后,数据结构与算法发挥着不可或缺的作用。本文将聚焦于迪杰斯特拉(Dijkstra)算法,深入探究其在局域网计算机监控中的应用,并借助 Python 代码示例予以详细阐释。
59 6
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
AIGC技术发展与应用实践(一文读懂AIGC)
AIGC(人工智能生成内容)是利用AI技术生成文本、图像、音频、视频等内容的重要领域。其发展历程包括初期探索、应用拓展和深度融合三大阶段,核心技术涵盖数据收集、模型训练、内容生成、质量评估及应用部署。AIGC在内容创作、教育、医疗、游戏、商业等领域广泛应用,未来将向更大规模、多模态融合和个性化方向发展。但同时也面临伦理法律和技术瓶颈等挑战,需在推动技术进步的同时加强规范与监管,以实现健康可持续发展。
|
28天前
|
存储 算法 物联网
解析局域网内控制电脑机制:基于 Go 语言链表算法的隐秘通信技术探究
数字化办公与物联网蓬勃发展的时代背景下,局域网内计算机控制已成为提升工作效率、达成设备协同管理的重要途径。无论是企业远程办公时的设备统一调度,还是智能家居系统中多设备间的联动控制,高效的数据传输与管理机制均构成实现局域网内计算机控制功能的核心要素。本文将深入探究 Go 语言中的链表数据结构,剖析其在局域网内计算机控制过程中,如何达成数据的有序存储与高效传输,并通过完整的 Go 语言代码示例展示其应用流程。
36 0
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
技术创新领域,AI(AIGC)是否会让TRIZ“下岗”?
法思诺创新直播间探讨了AI(AIGC)是否将取代TRIZ的问题。专家赵敏认为,AI与TRIZ在技术创新领域具有互补性,结合两者更务实。TRIZ提供结构化分析框架,AI加速数据处理和方案生成。DeepSeek、Gemini等AI也指出,二者各有优劣,应在复杂创新中协同使用。企业应建立双轨知识库,重构人机混合创新流程,实现全面升级。结论显示,AI与TRIZ互补远超竞争,结合二者是未来技术创新的关键。
|
4月前
|
人工智能 搜索推荐 数据库
实时云渲染技术赋能AIGC,开启3D内容生态黄金时代
在AIGC技术革命的推动下,3D内容生态将迎来巨大变革。实时云渲染与Cloud XR技术将在三维数字资产的上云、交互及传播中扮演关键角色,大幅提升生产效率并降低门槛。作为云基础设施厂商,抓住这一机遇将加速元宇宙的构建与繁荣。AIGC不仅改变3D内容的生成方式,从手工转向自动生成,还将催生更多3D创作工具和基础设施,进一步丰富虚拟世界的构建。未来,通过文本输入即可生成引人注目的3D环境,多模态模型的应用将极大拓展创作的可能性。
|
4月前
|
编解码 人工智能 算法
国家扶持超高清产业背景下:视频云AIGC的超高清技术实践
本次分享由阿里云视频云高级产品解决方案架构师陈震主讲,聚焦国家扶持超高清产业背景下,视频云AIGC的超高清技术实践。内容涵盖超高清产业发展趋势与挑战、阿里视频云的应对方案及应用案例。通过全链路超高清解决方案,结合AI、云计算等技术,提供从内容生产、传输到播放的完整支持,助力行业应对超高清视频带来的技术与市场挑战。
173 0

热门文章

最新文章