3张照片打造专属形象!酷蛙FaceChain解密个人写真开源项目,人人AIGC!

简介: 各类AI写真软件由于其精准的个人形象+精美的生成效果引爆了朋友圈传播,证件照满足了用户刚需,古装照等风格照满足了用户“美照”的需求。

背景说明


各类AI写真软件由于其精准的个人形象+精美的生成效果引爆了朋友圈传播,证件照满足了用户刚需,古装照等风格照满足了用户“美照”的需求。


达摩院开放视觉团队推出了开源版本,希望结合开源社区开发者的力量,可以让图片应用更有趣、更好玩、也有更多应用场景。



效果展示


商务证件照生成案例如下(已经过授权~)


                                 

输入


输出




环境配置和安装


使用步骤

本文在ModelScope的Notebook的环境(这里以PAI-DSW为例)配置下运行 (可以单卡运行, 显存要求20G)


服务器连接与环境准备


1、进入ModelScope首页:modelscope.cn,进入我的Notebook


2、选择GPU环境,进入PAI-DSW在线开发环境


3、打开terminal


可以先查看确认下显存:nvidia-smi,大概需要20个G


4、运行如下代码:

git clone https://www.modelscope.cn/studios/CVstudio/cv_human_portrait.git
cd cv_human_portrait
pip install -r requirements.txt
pip install gradio==3.35.2
python app.py



就可以搭建一个专属的个人写真小应用啦,现在开始体验环节:

Step 1. 上传你计划训练的图片,3~10张头肩照(注意:图片中多人脸、脸部遮挡等情况会导致效果异常,需要重新上传符合规范图片训练)


Step 2. 点击 [形象定制] ,启动模型训练,等待约15分钟


Step 3. 切换至 [形象体验] ,生成你的风格照片


现有代码均在github开源:

https://github.com/modelscope/facechain


魔搭社区创空间体验环境:https://modelscope.cn/studios/CVstudio/cv_human_portrait/summary



原理讲解(重点来了!)


这一部分我们为大家揭秘个人写真模型的核心技术点。




1、基本原理:


个人写真模型的能力来源于Stable Diffusion模型的文生图功能,输入一段文本或一系列提示词,输出对应的图像。我们考虑影响个人写真生成效果的主要因素:写真风格信息,以及用户人物信息。为此,我们分别使用线下训练的风格LoRA模型和线上训练的人脸LoRA模型以学习上述信息。LoRA是一种具有较少可训练参数的微调模型,在Stable Diffusion中,可以通过对少量输入图像进行文生图训练的方式将输入图像的信息注入到LoRA模型中。因此,个人写真模型的能力分为训练与推断两个阶段,训练阶段生成用于微调Stable Diffusion模型的图像与文本标签数据,得到人脸LoRA模型;推断阶段基于人脸LoRA模型和风格LoRA模型生成个人写真图像。


2、训练阶段:


输入:用户上传的包含清晰人脸区域的图像

输出:人脸LoRA模型

描述:首先,我们分别使用基于朝向判断的图像旋转模型,以及基于人脸检测和关键点模型的人脸精细化旋转方法处理用户上传图像,得到包含正向人脸的图像;接下来,我们使用人体解析模型和人像美肤模型,以获得高质量的人脸训练图像;随后,我们使用人脸属性模型和文本标注模型,结合标签后处理方法,产生训练图像的精细化标签;最后,我们使用上述图像和标签数据微调Stable Diffusion模型得到人脸LoRA模型。


3、推断阶段:


输入:训练阶段用户上传图像,预设的用于生成个人写真的输入提示词

输出:个人写真图像

描述:首先,我们将人脸LoRA模型和风格LoRA模型的权重融合到Stable Diffusion模型中;接下来,我们使用Stable Diffusion模型的文生图功能,基于预设的输入提示词初步生成个人写真图像;随后,我们使用人脸融合模型进一步改善上述写真图像的人脸细节,其中用于融合的模板人脸通过人脸质量评估模型在训练图像中挑选;最后,我们使用人脸识别模型计算生成的写真图像与模板人脸的相似度,以此对写真图像进行排序,并输出排名靠前的个人写真图像作为最终输出结果。


附(流程图中模型链接)

[1]  人脸检测+关键点模型DamoFD:https://modelscope.cn/models/damo/cv_ddsar_face-detection_iclr23-damofd

[2]  图像旋转模型:创空间内置模型

[3]  人体解析模型M2FP:https://modelscope.cn/models/damo/cv_resnet101_image-multiple-human-parsing

[4]  人像美肤模型ABPN:https://modelscope.cn/models/damo/cv_unet_skin-retouching

[5]  人脸属性模型FairFace:https://modelscope.cn/models/damo/cv_resnet34_face-attribute-recognition_fairface

[6]  文本标注模型Deepbooru:https://github.com/KichangKim/DeepDanbooru

[7]  模板脸筛选模型FQA:https://modelscope.cn/models/damo/cv_manual_face-quality-assessment_fqa

[8]  人脸融合模型:https://modelscope.cn/models/damo/cv_unet-image-face-fusion_damo

[9]  人脸识别模型RTS:https://modelscope.cn/models/damo/cv_ir_face-recognition-ood_rts



解密直播预告


【主题】揭秘酷蛙FaceChain开源项目:3张照片打造AI个人写真

【时间】8月11日(今晚) 20:00-21:00

【联播渠道】

  • 魔搭ModelScope社区视频号
  • 阿里云视频号
  • 阿里达摩院扫地僧视频号



开源招募


酷蛙FaceChain项目已开源,我们计划后续联合开源社区的力量不断打磨该开源项目,解锁更多高阶玩法,进行更深层次的算法创新,并发表相应顶会论文。如果你对该开源项目感兴趣,对该开源项目的未来有憧憬与信仰,想一起搞点事情,欢迎扫码加入:


初步需要打磨的模块如下:

1)更多写真风格lora模型训练

2)自适应基模+多lora融合模块探索

3)专业的face prompt模型训练

4)专业的SD人物写真基模训练

5)人物属性的更多prompt探索

6)swap face模块的打磨优化

7)女性专业美颜后处理模块探索

8)高阶应用探索:(例如:表情包、人物动态视频、游戏角色设计、影视动画角色设计等)

相关文章
|
存储 人工智能 前端开发
EasyPhoto+PAI-DSW体验世界名画AIGC写真创作
基于阿里云人工智能PAI产品快速启动EasyPhoto,实现低代码开发个性化AI真人写真,打造属于自己的完美照片,玩转AIGC世界名画的新创作。
|
人工智能 安全 计算机视觉
AIGC生成肖像照片的刑事风险
【2月更文挑战第9天】AIGC生成肖像照片的刑事风险
241 3
AIGC生成肖像照片的刑事风险
|
人工智能 算法 搜索推荐
淘宝人生2的AIGC技术应用——虚拟人写真算法技术方案
淘宝人生2的AIGC技术应用——虚拟人写真算法技术方案
551 0
|
机器学习/深度学习 人工智能 自然语言处理
借助AIGC实现人物写真和服装试穿
大家都知道,最近两名人工智能技术的高速发展,让越来越多的企业开始关注如何将人工智能技术应用到自己的业务中。阿里云作为业内领先的云计算服务提供商,其智能开放平台在人工智能领域的技术积累和应用能力方面处于领先地位。接下来将结合阿里云的视觉智能开放平台来聊一下借助AIGC实现人物写真和服装试穿等功能。
764 1
借助AIGC实现人物写真和服装试穿
|
人工智能 算法 搜索推荐
FaceChain:1周3K star,3张照片打造专属形象!人人AIGC!
FaceChain团队推出了开源人物写真项目,希望结合开源社区开发者的力量,可以让图片应用更有趣、更好玩、也有更多应用场景。
26534 11
|
算法 Linux 异构计算
即刻体验AIGC加持的修复能力-亚运老照片修复
使用来自开源社区的高质量图像去噪、超分、上色等算法修复亚运老照片
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
AIGC技术深度解析:生成式AI的革命性突破与产业应用实战
蒋星熠Jaxonic,AI技术探索者,深耕生成式AI领域。本文系统解析AIGC核心技术,涵盖Transformer架构、主流模型对比与实战应用,分享文本生成、图像创作等场景的实践经验,展望技术趋势与产业前景,助力开发者构建完整认知体系,共赴AI原生时代。
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
AIGC技术发展与应用实践(一文读懂AIGC)
AIGC(人工智能生成内容)是利用AI技术生成文本、图像、音频、视频等内容的重要领域。其发展历程包括初期探索、应用拓展和深度融合三大阶段,核心技术涵盖数据收集、模型训练、内容生成、质量评估及应用部署。AIGC在内容创作、教育、医疗、游戏、商业等领域广泛应用,未来将向更大规模、多模态融合和个性化方向发展。但同时也面临伦理法律和技术瓶颈等挑战,需在推动技术进步的同时加强规范与监管,以实现健康可持续发展。
|
10月前
|
机器学习/深度学习 人工智能 自然语言处理
技术创新领域,AI(AIGC)是否会让TRIZ“下岗”?
法思诺创新直播间探讨了AI(AIGC)是否将取代TRIZ的问题。专家赵敏认为,AI与TRIZ在技术创新领域具有互补性,结合两者更务实。TRIZ提供结构化分析框架,AI加速数据处理和方案生成。DeepSeek、Gemini等AI也指出,二者各有优劣,应在复杂创新中协同使用。企业应建立双轨知识库,重构人机混合创新流程,实现全面升级。结论显示,AI与TRIZ互补远超竞争,结合二者是未来技术创新的关键。
367 0
|
人工智能 搜索推荐 数据库
实时云渲染技术赋能AIGC,开启3D内容生态黄金时代
在AIGC技术革命的推动下,3D内容生态将迎来巨大变革。实时云渲染与Cloud XR技术将在三维数字资产的上云、交互及传播中扮演关键角色,大幅提升生产效率并降低门槛。作为云基础设施厂商,抓住这一机遇将加速元宇宙的构建与繁荣。AIGC不仅改变3D内容的生成方式,从手工转向自动生成,还将催生更多3D创作工具和基础设施,进一步丰富虚拟世界的构建。未来,通过文本输入即可生成引人注目的3D环境,多模态模型的应用将极大拓展创作的可能性。