魔搭DiffSynth-Studio 团队携手知名创作者麦橘MERJIC,正式开源全新 AI 图像生成模型——Face-to-Photo!该模型基于 Qwen-Image-Edit,采用 LoRA 的模型结构,专为人脸图像生成而优化,将一张普通的人脸照片转化为质感精美的高质量图像。这个模型目前已经可以在魔搭 AIGC 专区直接体验。
模型链接:https://modelscope.cn/models/DiffSynth-Studio/Qwen-Image-Edit-F2P
在线体验:ModelScope 魔搭社区
模型介绍
Face-to-Photo 模型的核心优势在于其对原始人脸特征的极致还原能力。不同于以往如 InfiniteYou 等人脸保持模型,Face-to-Photo 能够精准捕捉并忠实复现输入图像中的面部细节。无论人脸位于画面中央还是边缘,无论角度、大小或姿态如何变化,模型都能在保留面部特征的同时,生成自然、美观的图像。
这个 LoRA 模型让我们看到了 Qwen-Image-Edit 模型的更多潜力,训练一个小小的 LoRA 就可以赋予模型更多能力。
效果展示
让我们来一起看看模型生成的美美照片吧!
提示词:杰作, 最高品质, 真实照片, 一位温柔的年轻女性, 侧身轻轻拂过薰衣草花穗, 她穿着一件简约的白色棉麻连衣裙, 戴着一顶草编帽, 身处傍晚时分的普罗旺斯薰衣草田, 背景是无尽的紫色花海和远处的田园农舍。
提示词:杰作, 最高品质, 真实照片, 一位穿着夏日连衣裙的年轻女性, 悠闲地坐在剑桥康河的平底船上, 背景是古老的学院建筑和岸边的垂柳, 夏日午后阳光明媚, 氛围宁静惬意。
提示词:杰作, 最高品质, 电影感街拍, 一位年轻女性, 坐在一家挂满鲜花的伦敦传统酒吧外, 背景是温暖的灯光和古老的木质门窗, 夜晚氛围温馨而有生活气息, 焦外光斑。
提示词:杰作, 最高品质, 专业摄影, 一位美丽的年轻女性, 单人, 温柔的微笑, 走在深秋公园铺满落叶的小径上, 穿着卡其色风衣和温暖的围巾, 背景是金黄色的枫树林, 动态抓拍, 长焦镜头, 背景虚化, 电影感, 高细节。
提示词:杰作, 最高品质, 室内生活摄影, 真实照片, 一位穿着宽松米色羊绒衫的年轻女性, 舒适地坐在洒满阳光的飘窗上, 手里捧着一本杂志, 窗外的绿植和柔和的光线构成了她的背景, 氛围宁静、温暖而慵懒。
推理代码
安装 DiffSynth-Studio:
git clone https://github.com/modelscope/DiffSynth-Studio.git cd DiffSynth-Studio pip install -e .
推理代码:
from diffsynth.pipelines.qwen_image import QwenImagePipeline, ModelConfig import torch from PIL import Image pipe = QwenImagePipeline.from_pretrained( torch_dtype=torch.bfloat16, device="cuda", model_configs=[ ModelConfig(model_id="Qwen/Qwen-Image-Edit", origin_file_pattern="transformer/diffusion_pytorch_model*.safetensors"), ModelConfig(model_id="Qwen/Qwen-Image", origin_file_pattern="text_encoder/model*.safetensors"), ModelConfig(model_id="Qwen/Qwen-Image", origin_file_pattern="vae/diffusion_pytorch_model.safetensors"), ], tokenizer_config=None, processor_config=ModelConfig(model_id="Qwen/Qwen-Image-Edit", origin_file_pattern="processor/"), ) pipe.load_lora(pipe.dit, lora_config=ModelConfig(model_id="DiffSynth-Studio/Qwen-Image-Edit-F2P", origin_file_pattern="model.safetensors")) face_image = Image.open("face_image.png").convert("RGB") image = pipe( prompt="摄影。一个年轻女性穿着黄色连衣裙,站在花田中,背景是五颜六色的花朵和绿色的草地。", negative_prompt="将人物的手指改为残缺的、扭曲的,放大头部使其头身比异常,把人物变成身材矮小的大头娃娃,生成刺眼的阳光,让整个画面色彩变得过饱和,把双腿扭曲成X型腿或O型腿", edit_image=face_image, seed=0, num_inference_steps=40, height=1152, width=864, ) image.save("image.jpg")
此外,我们还提供了以下代码,以便从人像照片中裁剪出人脸部分,作为本模型的输入:
from modelscope import snapshot_download from insightface.app import FaceAnalysis from PIL import Image import numpy as np import cv2 def initialize_face_detector(): snapshot_download("ByteDance/InfiniteYou", allow_file_pattern="supports/insightface/*", cache_dir="models") face_detector = FaceAnalysis(name='antelopev2', root="models/ByteDance/InfiniteYou/supports/insightface") face_detector.prepare(ctx_id=0, det_size=(640, 640)) return face_detector def crop_face(face_detector, image): face_info = face_detector.get(cv2.cvtColor(np.array(image), cv2.COLOR_RGB2BGR)) bbox = sorted(face_info, key=lambda x: (x['bbox'][2] - x['bbox'][0]) * (x['bbox'][3] - x['bbox'][1]))[-1]['bbox'] face_image = image.crop(list(map(int, bbox))) return face_image face_detector = initialize_face_detector() image = Image.open("photo.jpg") crop_face(face_detector, image).save("face.jpg")
在FlowBench中使用
在 FlowBench 中,使用官方节点包中的“图片生成图片”节点,选择基础模型 Qwen-Image-Edit v1 以及 LoRA 模型 DiffSynth-Studio/Qwen-Image-Edit-F2P,即可直接体验本模型的生成效果。
视觉模型底座重磅预告
联名麦橘MERJIC推出的Face-to-Photo 模型,仅仅是本次预热的第一弹。魔搭社区与麦乐园正展开更深层次的战略合作,计划基于通义千问 Qwen-Image,共同打造一个全新的开源视觉模型底座——麦橘惊鸿 majicGenos。
“惊鸿”之名,取意自曹植《洛神赋》中“翩若惊鸿,婉若游龙”,指代一眼惊艳的美人。该模型将延续麦橘系列“唯美、易用、写实”的创作理念,并如“麦橘超然”一般,面向广大创作者共建开放、共创、共享的视觉模型新生态。
模型亮点
- 图片生成更多样化
- 生成的图片更有质感
- 保留QwenImage的文字生成能力
效果展示
此外,麦橘惊鸿模型完美适配Qwen-Image的所有Lora,也是首个支持2K直出生图的Qwen模型。
麦橘惊鸿Coming Soon
敬请期待!