免训练10秒生成人物写真,FaceChain迎来最大更新版本,持续推动写真开源社区进步!

简介: 随着FaceChain FACT技术的不断成熟和开源社区的共同努力,我们期待与广大开发者和爱好者共同探索和拓展AI写真的更多可能性。

引言

在数字艺术的浪潮中,AI写真技术以其独特的创造力和高度逼真的图像生成能力,开辟了个性化视觉表达的新天地。FaceChain FACT的问世,正是这一领域创新力量的体现。本文将带您领略这项技术的魅力,探讨它如何通过解耦训练的人脸适配器算法,实现10秒内生成高质量写真的突破。

免训练基础原理

AI写真的能力来源于以Stable Diffusion为代表的文生图大模型及其微调技术。由于大模型具有强大的泛化能力,因此可以通过在单一类型的数据和任务中进行微调的方式,在保持模型整体的文本跟随和图像生成能力的基础上,实现下游任务。基于训练和免训练的AI写真的技术基础就来自于对文生图模型进行不同的微调任务。

目前市面上的AI写真大多采用“训练+生成”的两阶段模式,此时的微调任务为“生成固定人物ID的写真图片”,对应的训练数据为多张该人物ID的形象图片。该模式的效果与训练数据的规模成正相关,因此往往需要庞大的形象数据支撑以及一定的训练时间,这也增加了用户的使用成本。

不同于上述模式,免训练的AI写真将微调任务调整为“生成指定人物ID的写真图片”,即将人物ID形象图片(人脸图片)作为额外的输入,输出具有与输入形象具有相同ID特征的写真图片。该模式可以将线下训练与线上推理彻底分离,用户使用时直接基于微调后的模型进行写真生成,仅需一张图片,无需大量数据和训练等待时间,10秒钟即可生成专属AI写真。

免训练AI写真的微调任务的基础算法是基于适配器(adapter)模块实现的,其基本结构如下图所示。人脸图片经过固定权重的图像编码器(image encoder)以及低参数量的特征投影层得到对齐后的特征,而后通过对固定权重的Stable Diffusion中的U-Net模块添加与文本条件类似的注意力机制模块实现对模型的微调。此时人脸信息作为独立分支的条件平行于文本信息一起送入模型中进行推理,故而可以使生成图片具有ID保持能力。


免训练模型解析

基于face adapter的基础算法尽管可以实现免训练AI写真,但仍需进行一定的调整以进一步优化其效果。市面上的免训练写真工具往往存在以下几点问题:写真图像质量差、写真文本跟随能力和风格保持能力不佳、写真人脸可控性和丰富度差、算法对ControlNet和风格Lora的兼容性不好等。针对上述问题,FaceChain将其归结于已有的用于免训练AI写真的微调任务耦合了过多人物ID以外的信息,并提出了解耦训练的人脸适配器算法(FaceChain Face Adapter with deCoupled Training,FaceChain FACT)以解决上述问题。通过在百万级别的写真数据上对Stable Diffusion模型进行微调,FaceChain FACT可以实现高质量的指定人物ID的写真图片生成。FaceChain FACT的整个框架如下图所示。

FaceChain FACT的解耦训练分为两个部分:从图像解耦人脸,以及从人脸解耦ID。已有方法往往将写真图像去噪作为微调任务,从而导致模型无法将注意力准确定位到人脸区域,从而导致Stable Diffusion的原有文生图功能受到影响。

FaceChain FACT借鉴换脸算法的串行处理以及区域控制的优势,从结构和训练策略两方面实现从图像中解耦人脸的微调方法。在结构上,不同于已有方法使用并行的交叉注意力机制处理人脸和文本信息,FaceChain FACT采用串行处理的方法作为独立的adapter层插入原始Stable Diffusion的block中,从而将人脸适配作为类似换脸处理的独立步骤作用于去噪过程中,避免了彼此之间的干扰。在训练策略上,FaceChain FACT在原始的MSE损失函数的基础上引入人脸适配增量正则(Face Adapting Incremental Regularization,FAIR)损失函数,控制adapter层人脸适配步骤的特征增量集中于人脸区域。

在推理过程中,用户可以通过调整face adapter的权重灵活调节生成效果,在保持Stable Diffusion原有文生图功能的同时,平衡人脸的保真度与泛化性。FAIR损失函数的具体形式如下所示:

此外,针对写真人脸可控性和丰富度差的问题,FaceChain FACT提出从人脸解耦ID的训练方法,使得写真过程仅控制人物ID而非整个人脸。首先,为了更针对性提取人脸的ID信息并保持部分关键人脸细节,并且更好适应Stable Diffusion的结构,FaceChain FACT采用在大量人脸数据上预训练的基于Transformer架构的人脸特征提取器,抽取其倒数第二层的全部token,后续连接简单的注意力查询模型进行特征投影,从而使得提取的ID特征兼顾上述三点要求。

另外,在训练过程中,FaceChain FACT使用Classifier Free Guidance(CFG)的方法,对相同ID对不同人脸写真图片进行随机打乱和舍弃,从而使得模型的输入人脸图片和用于去噪的目标图片可能具有同ID的不同人脸,以进一步避免模型过拟合于人脸的非ID信息。

更多技术解析详见直播回放~

视频号:https://weixin.qq.com/sph/AwQgtJEZF(复制到微信打开)

B站:https://www.bilibili.com/video/BV1Ui421m7bm

新版效果演示

FaceChain FACT的代码和模型目前已经在github和modelscope创空间上同步开源。FaceChain FACT具有简单的交互式界面设计,只需一张人物形象图片和简短的操作,即可实现无限风格写真和固定模板写真的生成。同时,FaceChain FACT还支持包括指定人物姿态、自定义风格LoRA模型、以及多人模板写真等进阶功能,具体示例如下:

1、无限风格写真:选择风格,上传人物形象,即可生成对应风格写真。

操作界面:

生成结果:

2、支持指定人物姿态:在无限风格写真基础上,在高级选项中上传姿态参考图片。

操作界面:

生成结果:

3、支持上传自定义风格LoRA模型:在无限风格写真基础上,在高级选项中上传自定义风格LoRA模型并调整提示词和风格权重。

操作界面:

生成结果:

4、固定模板写真:上传模板和人物形象,确定重绘人脸编号,即可生成对应写真。

操作界面:

生成结果:

5、支持多人模板写真:在固定模板写真基础上,根据人脸编号处理多人模板不同人脸。

操作界面:

生成结果:

相比基于训练的FaceChain,FaceChain FACT的人像生成体验也有了质的飞跃。

在生成速度方面,FaceChain FACT成功摆脱了冗长繁琐的训练阶段,将定制人像的生成时间由5分钟大幅缩短到10s左右,为用户带来无比流畅的使用体验。

在生成效果方面,FaceChain FACT进一步提升了人脸ID保持的细腻程度,使其兼具真实的人像效果以及高质量的写真质感。同时,FaceChain FACT对FaceChain海量的精美风格以及姿态控制等功能具有丝滑的兼容能力,对于输入人脸图像光照不理想、表情夸张等情况也能准确从质量欠佳的图像中解耦出人物ID信息,保证生成写真图片具有高超的艺术表现力。

1.光照不理想图像结果示例:

2.表情夸张图像结果示例:

开源共建

随着FaceChain FACT技术的不断成熟和开源社区的共同努力,我们期待与广大开发者和爱好者共同探索和拓展AI写真的更多可能性。以下是我们未来计划的一些方向:

  • 全身写真生成: 目前FaceChain FACT专注于人像写真的生成。未来,我们将拓展技术,实现全身写真的生成,为用户提供更全面的AI艺术创作工具。
  • SDXL基模优化: 我们将对现有的SDXL基模进行进一步优化,以支持更高质量的图像生成,同时降低模型的计算需求,使更多用户能够轻松使用。
  • 破秒生成: 我们致力于进一步缩短生成时间,目标是实现“破秒”级别的快速生成,让用户体验到前所未有的创作速度。
  • 多样风格支持: FaceChain FACT将继续扩展对不同艺术风格和流行趋势的支持,满足用户多样化的创作需求。
  • 人物视频生成: 除了静态图像,我们还将探索人物视频的生成技术,将AI写真技术扩展到动态领域,为用户提供更加丰富的创作体验。

我们鼓励社区成员提出宝贵的意见和建议,共同推动FaceChain FACT的发展。


Github开源地址:

https://github.com/modelscope/facechain

点击链接👇直达应用

https://modelscope.cn/studios/CVstudio/FaceChain-FACT/summary?from=alizishequ__text

相关文章
|
机器学习/深度学习 搜索推荐 算法
基于机器学习的用户行为分析与个性化推荐系统
传统的用户行为分析和推荐系统常常受限于规则的刻板和模型的简单,无法准确捕捉用户的个性化需求。本文基于机器学习技术,探讨了一种更加灵活、精准的用户行为分析与个性化推荐系统设计方法,通过深度学习模型结合大数据分析,实现了对用户行为的更细致把握和更个性化的推荐服务。
|
人工智能 物联网
用FaceChain-FACT生成人物写真体验分享
【8月更文挑战第4天】用FaceChain-FACT生成人物写真体验分享
308 1
|
10月前
|
弹性计算 Ubuntu Linux
阿里云系统运维管理OOS一键安装宝塔面板,这个功能太牛了!
宝塔面板是实用的服务器管理工具,支持多种操作系统(如Ubuntu、CentOS等)。通过阿里云OOS可一键安装。安装前提包括ECS实例运行中且有公网,安全组需开放8888端口。安装步骤简单,进入ECS控制台选择预装应用并确认下单,完成后在控制台查看详情和登录信息。最后验证安装结果,确保能成功访问宝塔面板URL。
528 82
|
10月前
|
Shell 网络安全
2024年终总结:选择错误、加班三月、降薪、面试无果...
卷福同学回顾2024年,反思“选择大于努力”的重要性。年初因错误选择,导致一年都在调整。从阿里离职回到武汉国企后,发现二线城市工作机会有限,成长空间小,且加班严重、降薪明显。尽管尝试副业和面试大厂,但进展不顺。最终意识到选择至关重要,未来将继续努力提升专业技能,寻找更好的发展机会。
280 70
|
10月前
|
人工智能
EDTalk:只需上传图片、音频和视频,就能使图片中的人物说话,情感表情与音频情绪高度统一
EDTalk 是上海交通大学与网易联合研发的高效解耦情感说话头像合成模型,能够独立控制嘴型、头部姿态和情感表情,适用于多种应用场景。
482 26
EDTalk:只需上传图片、音频和视频,就能使图片中的人物说话,情感表情与音频情绪高度统一
|
机器学习/深度学习 人工智能 API
FaceChain-FACT:免训练的丝滑体验,秒级别的人像生成
FaceChain-FACT是一项创新技术,它通过免训练的方式,能在10秒内生成高质量的AI人像,为用户带来快速且逼真的肖像生成体验。
FaceChain-FACT:免训练的丝滑体验,秒级别的人像生成
|
10月前
|
人工智能
2025年利用AI更好的辅助诉讼案件管理
### 2024年AI的破局与法律行业应用 随着ChatGPT、Kimi等大模型的出现,AI在语言理解和生成上取得显著突破。案件云平台推出「AI智能填充」功能,通过上传图片或PDF,AI能快速识别并提取关键信息,自动填充案件表单,极大提高了律师的工作效率和准确性。用户只需三步:创建案件、上传文件、确认信息,即可完成案件录入,告别繁琐输入,减少人工错误。
|
11月前
|
机器学习/深度学习 人工智能 安全
推理模型的“年终考试”,谁是国内目前最好的“o1”?
我们设计了一场“年终考试”,邀请了OpenAI的o1、通义千问QwQ、deepseek的R1、Kimi的K1和智谱的GLM-Zero参与。考试涵盖数学单选题、多选题、计算题、编程题、逻辑推理题和海龟汤问题,模拟日常生活中的应用场景。通过对比各模型的表现,发现它们在速度、准确性和推理过程上各有优劣。 - **o1**:推理速度快且正确率高。 - **QwQ**:表现中规中矩。 - **deepseek R1**:数学和编程能力突出。 - **Kimi K1**:自我反思能力强,逻辑自洽性佳。 - **GLM-Zero**:综合表现优异,尤其在数学和编程方面不输o1,是国内目前最好的推理模型
246 5
|
机器学习/深度学习 数据采集 算法
【BetterBench博士】2024华为杯C题:数据驱动下磁性元件的磁芯损耗建模 Python代码实现
本文介绍了2024年中国研究生数学建模竞赛C题的详细分析,涵盖数据预处理、特征提取、模型训练及评估等多个方面。通过对磁通密度数据的处理,提取关键特征并应用多种分类算法进行波形分类。此外,还探讨了斯坦麦茨方程及其温度修正模型的应用,分析了温度、励磁波形和磁芯材料对磁芯损耗的影响,并提出了优化磁芯损耗与传输磁能的方法。最后,提供了B站视频教程链接,供进一步学习参考。
1170 7
【BetterBench博士】2024华为杯C题:数据驱动下磁性元件的磁芯损耗建模 Python代码实现
|
人工智能 JSON Serverless
1024!一张照片定制程序员科技感写真
10 月 21 日—11 月 29 日,三步轻松完成体验,即可获得精美电脑包,(活动期间每个工作日限量 30 个,先到先得)参与活动官网邀请挑战,更有罗马仕充电宝、帆布袋等好礼相送。