FaceChain-FACT:免训练的丝滑体验,秒级别的人像生成

简介: FaceChain-FACT是一项创新技术,它通过免训练的方式,能在10秒内生成高质量的AI人像,为用户带来快速且逼真的肖像生成体验。

FaceChain-FACT:免训练的丝滑体验,秒级别的人像生成

在这里插入图片描述

项目主页:FaceChain-fact:Face Adapter for Human AIGC

github项目:https://github.com/modelscope/facechain

1.介绍

作为AI人像写真开源项目的佼佼者,FaceChain凭借其丰富多样的风格模版和卓越的人像保真度,深受社区的喜爱并已在商业应用中得到了广泛的应用。近期,FaceChain团队推出了全新的版本——FaceChain FACT。这一创新版本摒弃了传统的人物模型训练过程,能够直接生成zero-shot目标人像,引领AI人像生成进入了无需训练的单阶段时代。

你是否曾经因为相册里只有寥寥几张照片而无法训练自己的数字形象而感到苦恼?或者因为需要等待20分钟左右的人物形象训练而感到焦急?目前市场上的AI写真大多采用“训练+生成”的两阶段模式,既需要庞大的形象数据支撑,也需要一定的训练时间。这种模式增加了用户的使用成本。面对这一问题,FaceChain给出了解决方案:无需大量数据,无需训练等待,甚至无需训练,只需要一张图片10秒钟即可立即生成AI写真!

2.原理

FaceChain FACT(Face Adapter)之所以能够跳过训练阶段,是因为它经过了百万级别的写真数据训练,从而使得Stable Diffusion具备了强大的人脸重建能力。与传统的双阶段人像生成方法不同,FaceChain FACT重新构建了Stable Diffusion模型的架构,使其能够将人脸信息作为独立分枝的条件,平行于文本信息一起送入模型中进行推理。通过这种方式,FaceChain FACT能够更高效地处理人脸重建任务,从而避免了繁琐的训练阶段。FACT整个框架如下图所示:
在这里插入图片描述

为了更全面地提取人脸的细节信息,FACT采用了在海量人脸数据上预训练的基于Transformer架构的人脸特征提取器。与CNN架构的特征不同,基于Transformer架构的特征能够更好的适应Stable Diffusion的结构。通过这种方式,FACT能够更精确地保留人脸的细节特征,从而实现高清的人脸重建。


在这里插入图片描述

为了确保Stable Diffusion的原有功能得到充分保留,FACT作为独立的adapter层被插入到原始Stable Diffusion的block中,并在训练时固定原始block参数,仅对adapter进行训练。此外,人脸特征与文本特征是相互独立的,平行送入block中,避免了彼此之间的干扰。通过调整人脸信号的权重,用户可以灵活地调节生成效果,从而在保持Stable Diffusion原有的文生图功能的同时,平衡人脸的保真度与泛化性。

3.效果

在FACT的加持下,FaceChain的人像生成体验又有了质的飞跃。

1.在生成速度方面,FaceChain-FACT成功摆脱了冗长繁琐的训练阶段,将定制人像的生成时间大幅缩短了百倍。现在,整个生成过程仅需10s左右,为用户带来了无比流畅的使用体验。

2.在生成效果方面,FaceChain-FACT成功提升了人脸的细腻程度,使其更加逼近真实的人像效果。通过高度保留的人脸细节信息,确保了生成写真效果既惊艳又自然。FaceChain海量的精美风格模版,又为生成的人像注入了艺术生命力。
在这里插入图片描述

在这里插入图片描述


在这里插入图片描述

FaceChain-FACT的诞生,将为用户开启前所未有的高质量AI写真体验。除了在生成速度与质量上的显著提升,FaceChain还提供丰富的API接口,让开发者可以根据自己的需求进行定制化开发。无论是想要创建自己的AI写真应用,还是在现有项目中集成FaceChain的功能,都可以轻松实现。我们深知创新与定制化的重要性,因此我们将不断探索和加入新的风格模版,以及更多有趣的功能。我们热忱欢迎对开源技术感兴趣的朋友们加入我们,共同引领AIGC文生图领域迈向崭新的时代!

4.参考

项目主页:FaceChain-fact:Face Adapter for Human AIGC

github项目:https://github.com/modelscope/facechain

相关文章
|
6月前
|
机器学习/深度学习 人工智能 vr&ar
Stable Video 3D震撼上线,视频扩散模型史诗级提升!
【2月更文挑战第30天】Stability AI推出了创新技术SV3D,能从单张图片生成高质量3D模型,实现了多视图一致性,超越了先前的2D图像生成模型。该技术基于视频扩散模型,通过时间一致性确保3D一致性,并提供SV3D_u和SV3D_p两个版本,适应不同应用场景。在实验中,SV3D在新视图合成和3D重建方面表现出优秀性能。尽管面临计算资源需求高和使用门槛等问题,SV3D有望在3D内容创作领域发挥重大作用。项目及模型已开放下载。
395 2
Stable Video 3D震撼上线,视频扩散模型史诗级提升!
|
2月前
|
自然语言处理 计算机视觉
给视频模型安上快慢两只眼睛,苹果免训练新方法秒了一切SOTA
【9月更文挑战第5天】近年来,视频大型语言模型(LLM)在计算机视觉领域取得显著进展,但高昂的监督微调成本成为瓶颈。苹果研究人员提出了免训练的SF-LLaVA模型,采用慢流(捕捉空间语义)和快流(捕捉时序上下文)的双流设计,能高效处理视频中的静态与动态信息,显著提升了开放性视频问答、多选视频问答及文本生成等任务的表现。然而,该模型在复杂视频场景理解和特定任务泛化能力方面仍有局限。论文详见:https://arxiv.org/pdf/2407.15841
31 1
|
6月前
|
人工智能 Serverless 文件存储
“黏土风格”轻松拿捏,基于函数计算部署 ComfyUI实现AI生图
使用阿里云函数计算FC,快速部署AI绘画工具ComfyUI,体验高质量图像生成。新用户可享180元试用额度,包括GPU、vCPU、内存和调用次数。开通FC和文件存储NAS,通过应用中心选择ComfyUI模板创建应用。
47477 8
“黏土风格”轻松拿捏,基于函数计算部署 ComfyUI实现AI生图
|
5月前
|
人工智能 vr&ar
太炸裂了!SDXL Turbo在线图片实时生成,速度无与伦比【无需注册或登录】
太炸裂了!SDXL Turbo在线图片实时生成,速度无与伦比【无需注册或登录】
太炸裂了!SDXL Turbo在线图片实时生成,速度无与伦比【无需注册或登录】
|
4月前
|
机器学习/深度学习 自然语言处理 算法
告别重复率烦恼:论文润色降重助手帮你搞定降重!
告别重复率烦恼:论文润色降重助手帮你搞定降重!
45 0
|
6月前
|
前端开发 定位技术 SEO
基于WordPress开发的高颜值的自适应主题,支持白天与黑夜模式
环境要求 WordPress >=6.0PHP >=7.4 主题特性 支持白天与暗黑模式 全局无刷新加载 支持博客、CMS、企业三种布局 内置 WP 优化策略 内置前台用户中心 支持 QQ / Github / Gitee / 微博登录 支持缩略图伪静态 全局顶部滚动公告 图形及极验验证码支持 自定义 SMTP 支持 一键全站变灰 网页压缩成一行 后台防恶意登录 内置出色的 SEO 功能 评论 ajax 加载 文章点赞、打赏、海报生成、分享 Twemoji 集成 丰富的广告位 丰富的小工具 自动百度链接提交 众多页面模板(读者墙 / 归档 / 书籍推荐 / 站点导航 / 标签 / 站点地图
72 5
|
6月前
|
机器学习/深度学习 人工智能 算法
免费背景音人声分离解决方案MVSEP-MDX23,足以和Spleeter分庭抗礼
在音视频领域,把已经发布的混音歌曲或者音频文件逆向分离一直是世界性的课题。音波混合的物理特性导致在没有原始工程文件的情况下,将其还原和分离是一件很有难度的事情。 言及背景音人声分离技术,就不能不提Spleeter,它是一种用于音频源分离(音乐分离)的开源深度学习算法,由Deezer研究团队开发。使用的是一个性能取向的音源分离算法,并且为用户提供了已经预训练好的模型,能够开箱即用,这也是Spleeter泛用性高的原因之一,关于Spleeter,请移步:[人工智能AI库Spleeter免费人声和背景音乐分离实践(Python3.10)](https://v3u.cn/a_id_305),这里
免费背景音人声分离解决方案MVSEP-MDX23,足以和Spleeter分庭抗礼
|
6月前
|
人工智能
FaceChain集成最强开源SDXL,生成人像质感拉满!
FaceChain集成最强开源SDXL,生成人像质感拉满!
85 2
|
6月前
|
机器学习/深度学习 编解码 自然语言处理
一文全览 | 全览iPhone 12就可以实时推理的移动端ViT
一文全览 | 全览iPhone 12就可以实时推理的移动端ViT
138 0