免训练10秒生成人物写真,FaceChain迎来最大更新版本,持续推动写真开源社区进步!

简介: 随着FaceChain FACT技术的不断成熟和开源社区的共同努力,我们期待与广大开发者和爱好者共同探索和拓展AI写真的更多可能性。

引言

在数字艺术的浪潮中,AI写真技术以其独特的创造力和高度逼真的图像生成能力,开辟了个性化视觉表达的新天地。FaceChain FACT的问世,正是这一领域创新力量的体现。本文将带您领略这项技术的魅力,探讨它如何通过解耦训练的人脸适配器算法,实现10秒内生成高质量写真的突破。

免训练基础原理

AI写真的能力来源于以Stable Diffusion为代表的文生图大模型及其微调技术。由于大模型具有强大的泛化能力,因此可以通过在单一类型的数据和任务中进行微调的方式,在保持模型整体的文本跟随和图像生成能力的基础上,实现下游任务。基于训练和免训练的AI写真的技术基础就来自于对文生图模型进行不同的微调任务。

目前市面上的AI写真大多采用“训练+生成”的两阶段模式,此时的微调任务为“生成固定人物ID的写真图片”,对应的训练数据为多张该人物ID的形象图片。该模式的效果与训练数据的规模成正相关,因此往往需要庞大的形象数据支撑以及一定的训练时间,这也增加了用户的使用成本。

不同于上述模式,免训练的AI写真将微调任务调整为“生成指定人物ID的写真图片”,即将人物ID形象图片(人脸图片)作为额外的输入,输出具有与输入形象具有相同ID特征的写真图片。该模式可以将线下训练与线上推理彻底分离,用户使用时直接基于微调后的模型进行写真生成,仅需一张图片,无需大量数据和训练等待时间,10秒钟即可生成专属AI写真。

免训练AI写真的微调任务的基础算法是基于适配器(adapter)模块实现的,其基本结构如下图所示。人脸图片经过固定权重的图像编码器(image encoder)以及低参数量的特征投影层得到对齐后的特征,而后通过对固定权重的Stable Diffusion中的U-Net模块添加与文本条件类似的注意力机制模块实现对模型的微调。此时人脸信息作为独立分支的条件平行于文本信息一起送入模型中进行推理,故而可以使生成图片具有ID保持能力。


免训练模型解析

基于face adapter的基础算法尽管可以实现免训练AI写真,但仍需进行一定的调整以进一步优化其效果。市面上的免训练写真工具往往存在以下几点问题:写真图像质量差、写真文本跟随能力和风格保持能力不佳、写真人脸可控性和丰富度差、算法对ControlNet和风格Lora的兼容性不好等。针对上述问题,FaceChain将其归结于已有的用于免训练AI写真的微调任务耦合了过多人物ID以外的信息,并提出了解耦训练的人脸适配器算法(FaceChain Face Adapter with deCoupled Training,FaceChain FACT)以解决上述问题。通过在百万级别的写真数据上对Stable Diffusion模型进行微调,FaceChain FACT可以实现高质量的指定人物ID的写真图片生成。FaceChain FACT的整个框架如下图所示。

FaceChain FACT的解耦训练分为两个部分:从图像解耦人脸,以及从人脸解耦ID。已有方法往往将写真图像去噪作为微调任务,从而导致模型无法将注意力准确定位到人脸区域,从而导致Stable Diffusion的原有文生图功能受到影响。

FaceChain FACT借鉴换脸算法的串行处理以及区域控制的优势,从结构和训练策略两方面实现从图像中解耦人脸的微调方法。在结构上,不同于已有方法使用并行的交叉注意力机制处理人脸和文本信息,FaceChain FACT采用串行处理的方法作为独立的adapter层插入原始Stable Diffusion的block中,从而将人脸适配作为类似换脸处理的独立步骤作用于去噪过程中,避免了彼此之间的干扰。在训练策略上,FaceChain FACT在原始的MSE损失函数的基础上引入人脸适配增量正则(Face Adapting Incremental Regularization,FAIR)损失函数,控制adapter层人脸适配步骤的特征增量集中于人脸区域。

在推理过程中,用户可以通过调整face adapter的权重灵活调节生成效果,在保持Stable Diffusion原有文生图功能的同时,平衡人脸的保真度与泛化性。FAIR损失函数的具体形式如下所示:

此外,针对写真人脸可控性和丰富度差的问题,FaceChain FACT提出从人脸解耦ID的训练方法,使得写真过程仅控制人物ID而非整个人脸。首先,为了更针对性提取人脸的ID信息并保持部分关键人脸细节,并且更好适应Stable Diffusion的结构,FaceChain FACT采用在大量人脸数据上预训练的基于Transformer架构的人脸特征提取器,抽取其倒数第二层的全部token,后续连接简单的注意力查询模型进行特征投影,从而使得提取的ID特征兼顾上述三点要求。

另外,在训练过程中,FaceChain FACT使用Classifier Free Guidance(CFG)的方法,对相同ID对不同人脸写真图片进行随机打乱和舍弃,从而使得模型的输入人脸图片和用于去噪的目标图片可能具有同ID的不同人脸,以进一步避免模型过拟合于人脸的非ID信息。

更多技术解析详见直播回放~

视频号:https://weixin.qq.com/sph/AwQgtJEZF(复制到微信打开)

B站:https://www.bilibili.com/video/BV1Ui421m7bm

新版效果演示

FaceChain FACT的代码和模型目前已经在github和modelscope创空间上同步开源。FaceChain FACT具有简单的交互式界面设计,只需一张人物形象图片和简短的操作,即可实现无限风格写真和固定模板写真的生成。同时,FaceChain FACT还支持包括指定人物姿态、自定义风格LoRA模型、以及多人模板写真等进阶功能,具体示例如下:

1、无限风格写真:选择风格,上传人物形象,即可生成对应风格写真。

操作界面:

生成结果:

2、支持指定人物姿态:在无限风格写真基础上,在高级选项中上传姿态参考图片。

操作界面:

生成结果:

3、支持上传自定义风格LoRA模型:在无限风格写真基础上,在高级选项中上传自定义风格LoRA模型并调整提示词和风格权重。

操作界面:

生成结果:

4、固定模板写真:上传模板和人物形象,确定重绘人脸编号,即可生成对应写真。

操作界面:

生成结果:

5、支持多人模板写真:在固定模板写真基础上,根据人脸编号处理多人模板不同人脸。

操作界面:

生成结果:

相比基于训练的FaceChain,FaceChain FACT的人像生成体验也有了质的飞跃。

在生成速度方面,FaceChain FACT成功摆脱了冗长繁琐的训练阶段,将定制人像的生成时间由5分钟大幅缩短到10s左右,为用户带来无比流畅的使用体验。

在生成效果方面,FaceChain FACT进一步提升了人脸ID保持的细腻程度,使其兼具真实的人像效果以及高质量的写真质感。同时,FaceChain FACT对FaceChain海量的精美风格以及姿态控制等功能具有丝滑的兼容能力,对于输入人脸图像光照不理想、表情夸张等情况也能准确从质量欠佳的图像中解耦出人物ID信息,保证生成写真图片具有高超的艺术表现力。

1.光照不理想图像结果示例:

2.表情夸张图像结果示例:

开源共建

随着FaceChain FACT技术的不断成熟和开源社区的共同努力,我们期待与广大开发者和爱好者共同探索和拓展AI写真的更多可能性。以下是我们未来计划的一些方向:

  • 全身写真生成: 目前FaceChain FACT专注于人像写真的生成。未来,我们将拓展技术,实现全身写真的生成,为用户提供更全面的AI艺术创作工具。
  • SDXL基模优化: 我们将对现有的SDXL基模进行进一步优化,以支持更高质量的图像生成,同时降低模型的计算需求,使更多用户能够轻松使用。
  • 破秒生成: 我们致力于进一步缩短生成时间,目标是实现“破秒”级别的快速生成,让用户体验到前所未有的创作速度。
  • 多样风格支持: FaceChain FACT将继续扩展对不同艺术风格和流行趋势的支持,满足用户多样化的创作需求。
  • 人物视频生成: 除了静态图像,我们还将探索人物视频的生成技术,将AI写真技术扩展到动态领域,为用户提供更加丰富的创作体验。

我们鼓励社区成员提出宝贵的意见和建议,共同推动FaceChain FACT的发展。


Github开源地址:

https://github.com/modelscope/facechain

点击链接👇直达应用

https://modelscope.cn/studios/CVstudio/FaceChain-FACT/summary?from=alizishequ__text

相关文章
|
机器学习/深度学习 人工智能 vr&ar
Stable Video 3D震撼上线,视频扩散模型史诗级提升!
【2月更文挑战第30天】Stability AI推出了创新技术SV3D,能从单张图片生成高质量3D模型,实现了多视图一致性,超越了先前的2D图像生成模型。该技术基于视频扩散模型,通过时间一致性确保3D一致性,并提供SV3D_u和SV3D_p两个版本,适应不同应用场景。在实验中,SV3D在新视图合成和3D重建方面表现出优秀性能。尽管面临计算资源需求高和使用门槛等问题,SV3D有望在3D内容创作领域发挥重大作用。项目及模型已开放下载。
539 2
Stable Video 3D震撼上线,视频扩散模型史诗级提升!
|
人工智能 搜索推荐 物联网
InstantID:一张照片,无需训练,秒级个人写真生成
InstantID 是由InstantX项目组推出的一种SOTA的tuning-free方法,只需单个图像即可实现 ID 保留生成,并支持各种下游任务。
|
JavaScript
Bert-vits2-v2.2新版本本地训练推理整合包(原神八重神子英文模型miko)
近日,Bert-vits2-v2.2如约更新,该新版本v2.2主要把Emotion 模型换用CLAP多模态模型,推理支持输入text prompt提示词和audio prompt提示语音来进行引导风格化合成,让推理音色更具情感特色,并且推出了新的预处理webuI,操作上更加亲民和接地气。
Bert-vits2-v2.2新版本本地训练推理整合包(原神八重神子英文模型miko)
|
人工智能 物联网
用FaceChain-FACT生成人物写真体验分享
【8月更文挑战第4天】用FaceChain-FACT生成人物写真体验分享
272 1
|
7月前
|
机器学习/深度学习 人工智能 算法
MIDI-3D:单图秒变3D场景!40秒生成360度空间,多实例扩散黑科技
MIDI-3D 是一种先进的 AI 3D 场景生成技术,能够将单张图像快速转化为高保真度的 360 度 3D 场景,具有强大的全局感知能力和细节表现力,适用于游戏开发、虚拟现实、室内设计等多个领域。
227 18
MIDI-3D:单图秒变3D场景!40秒生成360度空间,多实例扩散黑科技
|
机器学习/深度学习 人工智能 API
FaceChain-FACT:免训练的丝滑体验,秒级别的人像生成
FaceChain-FACT是一项创新技术,它通过免训练的方式,能在10秒内生成高质量的AI人像,为用户带来快速且逼真的肖像生成体验。
FaceChain-FACT:免训练的丝滑体验,秒级别的人像生成
|
12月前
|
人工智能 JSON Serverless
1024!一张照片定制程序员科技感写真
10 月 21 日—11 月 29 日,三步轻松完成体验,即可获得精美电脑包,(活动期间每个工作日限量 30 个,先到先得)参与活动官网邀请挑战,更有罗马仕充电宝、帆布袋等好礼相送。
|
人工智能
|
开发者 图形学 开发工具
Unity编辑器神级扩展攻略:从批量操作到定制Inspector界面,手把手教你编写高效开发工具,解锁编辑器隐藏潜能
【8月更文挑战第31天】Unity是一款强大的游戏开发引擎,支持多平台发布与高度可定制的编辑器环境。通过自定义编辑器工具,开发者能显著提升工作效率。本文介绍如何使用C#脚本扩展Unity编辑器功能,包括批量调整游戏对象位置、创建自定义Inspector界面及项目统计窗口等实用工具,并提供具体示例代码。理解并应用这些技巧,可大幅优化开发流程,提高生产力。
1056 1
|
5G 数据安全/隐私保护
DSSS、CCK 和 OFDM 调制方案
【8月更文挑战第23天】
1657 0