FaceChain-FACT:免训练的丝滑体验,秒级别的人像生成

简介: FaceChain-FACT是一项创新技术,它通过免训练的方式,能在10秒内生成高质量的AI人像,为用户带来快速且逼真的肖像生成体验。

FaceChain-FACT:免训练的丝滑体验,秒级别的人像生成

在这里插入图片描述

项目主页:FaceChain-fact:Face Adapter for Human AIGC

github项目:https://github.com/modelscope/facechain

1.介绍

作为AI人像写真开源项目的佼佼者,FaceChain凭借其丰富多样的风格模版和卓越的人像保真度,深受社区的喜爱并已在商业应用中得到了广泛的应用。近期,FaceChain团队推出了全新的版本——FaceChain FACT。这一创新版本摒弃了传统的人物模型训练过程,能够直接生成zero-shot目标人像,引领AI人像生成进入了无需训练的单阶段时代。

你是否曾经因为相册里只有寥寥几张照片而无法训练自己的数字形象而感到苦恼?或者因为需要等待20分钟左右的人物形象训练而感到焦急?目前市场上的AI写真大多采用“训练+生成”的两阶段模式,既需要庞大的形象数据支撑,也需要一定的训练时间。这种模式增加了用户的使用成本。面对这一问题,FaceChain给出了解决方案:无需大量数据,无需训练等待,甚至无需训练,只需要一张图片10秒钟即可立即生成AI写真!

2.原理

FaceChain FACT(Face Adapter)之所以能够跳过训练阶段,是因为它经过了百万级别的写真数据训练,从而使得Stable Diffusion具备了强大的人脸重建能力。与传统的双阶段人像生成方法不同,FaceChain FACT重新构建了Stable Diffusion模型的架构,使其能够将人脸信息作为独立分枝的条件,平行于文本信息一起送入模型中进行推理。通过这种方式,FaceChain FACT能够更高效地处理人脸重建任务,从而避免了繁琐的训练阶段。FACT整个框架如下图所示:
在这里插入图片描述

为了更全面地提取人脸的细节信息,FACT采用了在海量人脸数据上预训练的基于Transformer架构的人脸特征提取器。与CNN架构的特征不同,基于Transformer架构的特征能够更好的适应Stable Diffusion的结构。通过这种方式,FACT能够更精确地保留人脸的细节特征,从而实现高清的人脸重建。


在这里插入图片描述

为了确保Stable Diffusion的原有功能得到充分保留,FACT作为独立的adapter层被插入到原始Stable Diffusion的block中,并在训练时固定原始block参数,仅对adapter进行训练。此外,人脸特征与文本特征是相互独立的,平行送入block中,避免了彼此之间的干扰。通过调整人脸信号的权重,用户可以灵活地调节生成效果,从而在保持Stable Diffusion原有的文生图功能的同时,平衡人脸的保真度与泛化性。

3.效果

在FACT的加持下,FaceChain的人像生成体验又有了质的飞跃。

1.在生成速度方面,FaceChain-FACT成功摆脱了冗长繁琐的训练阶段,将定制人像的生成时间大幅缩短了百倍。现在,整个生成过程仅需10s左右,为用户带来了无比流畅的使用体验。

2.在生成效果方面,FaceChain-FACT成功提升了人脸的细腻程度,使其更加逼近真实的人像效果。通过高度保留的人脸细节信息,确保了生成写真效果既惊艳又自然。FaceChain海量的精美风格模版,又为生成的人像注入了艺术生命力。
在这里插入图片描述

在这里插入图片描述


在这里插入图片描述

FaceChain-FACT的诞生,将为用户开启前所未有的高质量AI写真体验。除了在生成速度与质量上的显著提升,FaceChain还提供丰富的API接口,让开发者可以根据自己的需求进行定制化开发。无论是想要创建自己的AI写真应用,还是在现有项目中集成FaceChain的功能,都可以轻松实现。我们深知创新与定制化的重要性,因此我们将不断探索和加入新的风格模版,以及更多有趣的功能。我们热忱欢迎对开源技术感兴趣的朋友们加入我们,共同引领AIGC文生图领域迈向崭新的时代!

4.参考

项目主页:FaceChain-fact:Face Adapter for Human AIGC

github项目:https://github.com/modelscope/facechain

相关文章
|
7月前
|
人工智能 搜索推荐 物联网
InstantID:一张照片,无需训练,秒级个人写真生成
InstantID 是由InstantX项目组推出的一种SOTA的tuning-free方法,只需单个图像即可实现 ID 保留生成,并支持各种下游任务。
|
5天前
|
编解码 人工智能 自然语言处理
Ruyi:图森未来推出的图生视频大模型,支持多分辨率、多时长视频生成,具备运动幅度和镜头控制等功能
Ruyi是图森未来推出的图生视频大模型,专为消费级显卡设计,支持多分辨率、多时长视频生成,具备首帧、首尾帧控制、运动幅度控制和镜头控制等特性。Ruyi基于DiT架构,能够降低动漫和游戏内容的开发周期和成本,是ACG爱好者和创作者的理想工具。
64 33
Ruyi:图森未来推出的图生视频大模型,支持多分辨率、多时长视频生成,具备运动幅度和镜头控制等功能
|
2月前
|
机器学习/深度学习 人工智能 文字识别
MMMU华人团队更新Pro版!多模态基准升至史诗级难度:过滤纯文本问题、引入纯视觉问答
【10月更文挑战第12天】多模态理解是人工智能的重要研究方向,华人团队改进了现有的MMMU基准,推出MMMU-Pro,以更严格地评估模型的多模态理解和推理能力。MMMU-Pro通过过滤纯文本问题、增加候选选项和引入纯视觉问答设置,提高了评估难度。实验结果显示,模型在MMMU-Pro上的性能明显下降,但CoT推理有助于提升表现。MMMU-Pro为多模态理解提供了更严格的评估工具,但也面临一些挑战。
49 1
|
3月前
|
编解码 人工智能 测试技术
2B多模态新SOTA!华科、华南理工发布Mini-Monkey,专治切分增大分辨率后遗症
【9月更文挑战第7天】华中科技大学与华南理工大学联合发布了一款名为Mini-Monkey的2B参数多模态大语言模型,采用多尺度自适应裁剪策略(MSAC)和尺度压缩机制(SCM),在高分辨率图像处理方面取得突破,尤其在文档理解上超越了8B参数的SOTA模型InternVL2-8B。Mini-Monkey仅需8张RTX 3090显卡即可完成训练,展现出高效性能,但处理复杂图像场景时仍存局限。论文详情见:https://arxiv.org/pdf/2408.02034。
59 8
|
3月前
|
测试技术
LLM数学性能暴涨168%,微软14人团队力作!合成数据2.0秘诀曝光,智能体生成教学
【9月更文挑战第14天】微软研究团队发布了一篇介绍新型框架"AgentInstruct"的论文,该框架旨在通过自动生成高质量合成数据,推动语言模型发展。AgentInstruct仅需原始数据源即可创建多样化的合成数据,减少人工工作量。研究团队基于此框架构建了含2500万训练对的数据集,展示了其在多种技能教学中的潜力。经微调后的Mistral-7b模型演进为Orca-3,在多个基准测试中显著超越同类模型。尽管如此,AgentInstruct仍面临创建流程耗时及合成数据复杂性不足等问题。论文详情见:https://arxiv.org/pdf/2407.03502
78 2
|
3月前
|
自然语言处理 计算机视觉
给视频模型安上快慢两只眼睛,苹果免训练新方法秒了一切SOTA
【9月更文挑战第5天】近年来,视频大型语言模型(LLM)在计算机视觉领域取得显著进展,但高昂的监督微调成本成为瓶颈。苹果研究人员提出了免训练的SF-LLaVA模型,采用慢流(捕捉空间语义)和快流(捕捉时序上下文)的双流设计,能高效处理视频中的静态与动态信息,显著提升了开放性视频问答、多选视频问答及文本生成等任务的表现。然而,该模型在复杂视频场景理解和特定任务泛化能力方面仍有局限。论文详见:https://arxiv.org/pdf/2407.15841
38 1
|
6月前
|
人工智能 vr&ar
太炸裂了!SDXL Turbo在线图片实时生成,速度无与伦比【无需注册或登录】
太炸裂了!SDXL Turbo在线图片实时生成,速度无与伦比【无需注册或登录】
太炸裂了!SDXL Turbo在线图片实时生成,速度无与伦比【无需注册或登录】
|
7月前
|
机器学习/深度学习 API 计算机视觉
视觉智能平台常见问题之使用智能分镜功能拆分镜头丢失部分镜头如何解决
视觉智能平台是利用机器学习和图像处理技术,提供图像识别、视频分析等智能视觉服务的平台;本合集针对该平台在使用中遇到的常见问题进行了收集和解答,以帮助开发者和企业用户在整合和部署视觉智能解决方案时,能够更快地定位问题并找到有效的解决策略。
122 0
|
7月前
|
机器学习/深度学习 算法 开发工具
视觉智能平台常见问题之视频封面输出的图片会出现过曝如何解决
视觉智能平台是利用机器学习和图像处理技术,提供图像识别、视频分析等智能视觉服务的平台;本合集针对该平台在使用中遇到的常见问题进行了收集和解答,以帮助开发者和企业用户在整合和部署视觉智能解决方案时,能够更快地定位问题并找到有效的解决策略。
下一篇
DataWorks