Face-to-Photo 模型开源!联名麦橘MERJIC,遇见另一个你!

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,100CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: 魔搭 DiffSynth-Studio 团队携手知名创作者麦橘MERJIC,正式开源全新 AI 图像生成模型——Face-to-Photo!该模型基于 Qwen-Image-Edit,采用 LoRA 的模型结构,专为人脸图像生成而优化,将一张普通的人脸照片转化…

魔搭DiffSynth-Studio 团队携手知名创作者麦橘MERJIC,正式开源全新 AI 图像生成模型——Face-to-Photo!该模型基于 Qwen-Image-Edit,采用 LoRA 的模型结构,专为人脸图像生成而优化,将一张普通的人脸照片转化为质感精美的高质量图像。这个模型目前已经可以在魔搭 AIGC 专区直接体验。

模型链接https://modelscope.cn/models/DiffSynth-Studio/Qwen-Image-Edit-F2P

在线体验ModelScope 魔搭社区

模型介绍

Face-to-Photo 模型的核心优势在于其对原始人脸特征的极致还原能力。不同于以往如 InfiniteYou 等人脸保持模型,Face-to-Photo 能够精准捕捉并忠实复现输入图像中的面部细节。无论人脸位于画面中央还是边缘,无论角度、大小或姿态如何变化,模型都能在保留面部特征的同时,生成自然、美观的图像。

这个 LoRA 模型让我们看到了 Qwen-Image-Edit 模型的更多潜力,训练一个小小的 LoRA 就可以赋予模型更多能力。

效果展示

让我们来一起看看模型生成的美美照片吧!

提示词:杰作, 最高品质, 真实照片, 一位温柔的年轻女性, 侧身轻轻拂过薰衣草花穗, 她穿着一件简约的白色棉麻连衣裙, 戴着一顶草编帽, 身处傍晚时分的普罗旺斯薰衣草田, 背景是无尽的紫色花海和远处的田园农舍。


提示词:杰作, 最高品质, 真实照片, 一位穿着夏日连衣裙的年轻女性, 悠闲地坐在剑桥康河的平底船上, 背景是古老的学院建筑和岸边的垂柳, 夏日午后阳光明媚, 氛围宁静惬意。


提示词:杰作, 最高品质, 电影感街拍, 一位年轻女性, 坐在一家挂满鲜花的伦敦传统酒吧外, 背景是温暖的灯光和古老的木质门窗, 夜晚氛围温馨而有生活气息, 焦外光斑。


提示词:杰作, 最高品质, 专业摄影, 一位美丽的年轻女性, 单人, 温柔的微笑, 走在深秋公园铺满落叶的小径上, 穿着卡其色风衣和温暖的围巾, 背景是金黄色的枫树林, 动态抓拍, 长焦镜头, 背景虚化, 电影感, 高细节。


提示词:杰作, 最高品质, 室内生活摄影, 真实照片, 一位穿着宽松米色羊绒衫的年轻女性, 舒适地坐在洒满阳光的飘窗上, 手里捧着一本杂志, 窗外的绿植和柔和的光线构成了她的背景, 氛围宁静、温暖而慵懒。

推理代码

安装 DiffSynth-Studio:

git clone https://github.com/modelscope/DiffSynth-Studio.git  
cd DiffSynth-Studio
pip install -e .

推理代码:

from diffsynth.pipelines.qwen_image import QwenImagePipeline, ModelConfig
import torch
from PIL import Image
pipe = QwenImagePipeline.from_pretrained(
    torch_dtype=torch.bfloat16,
    device="cuda",
    model_configs=[
        ModelConfig(model_id="Qwen/Qwen-Image-Edit", origin_file_pattern="transformer/diffusion_pytorch_model*.safetensors"),
        ModelConfig(model_id="Qwen/Qwen-Image", origin_file_pattern="text_encoder/model*.safetensors"),
        ModelConfig(model_id="Qwen/Qwen-Image", origin_file_pattern="vae/diffusion_pytorch_model.safetensors"),
    ],
    tokenizer_config=None,
    processor_config=ModelConfig(model_id="Qwen/Qwen-Image-Edit", origin_file_pattern="processor/"),
)
pipe.load_lora(pipe.dit, lora_config=ModelConfig(model_id="DiffSynth-Studio/Qwen-Image-Edit-F2P", origin_file_pattern="model.safetensors"))
face_image = Image.open("face_image.png").convert("RGB")
image = pipe(
    prompt="摄影。一个年轻女性穿着黄色连衣裙,站在花田中,背景是五颜六色的花朵和绿色的草地。",
    negative_prompt="将人物的手指改为残缺的、扭曲的,放大头部使其头身比异常,把人物变成身材矮小的大头娃娃,生成刺眼的阳光,让整个画面色彩变得过饱和,把双腿扭曲成X型腿或O型腿",
    edit_image=face_image,
    seed=0,
    num_inference_steps=40,
    height=1152, width=864,
)
image.save("image.jpg")

此外,我们还提供了以下代码,以便从人像照片中裁剪出人脸部分,作为本模型的输入:

from modelscope import snapshot_download
from insightface.app import FaceAnalysis
from PIL import Image
import numpy as np
import cv2
def initialize_face_detector():
    snapshot_download("ByteDance/InfiniteYou", allow_file_pattern="supports/insightface/*", cache_dir="models")
    face_detector = FaceAnalysis(name='antelopev2', root="models/ByteDance/InfiniteYou/supports/insightface")
    face_detector.prepare(ctx_id=0, det_size=(640, 640))
    return face_detector
def crop_face(face_detector, image):
    face_info = face_detector.get(cv2.cvtColor(np.array(image), cv2.COLOR_RGB2BGR))
    bbox = sorted(face_info, key=lambda x: (x['bbox'][2] - x['bbox'][0]) * (x['bbox'][3] - x['bbox'][1]))[-1]['bbox']
    face_image = image.crop(list(map(int, bbox)))
    return face_image
face_detector = initialize_face_detector()
image = Image.open("photo.jpg")
crop_face(face_detector, image).save("face.jpg")

在FlowBench中使用

在 FlowBench 中,使用官方节点包中的“图片生成图片”节点,选择基础模型 Qwen-Image-Edit v1 以及 LoRA 模型 DiffSynth-Studio/Qwen-Image-Edit-F2P,即可直接体验本模型的生成效果。


视觉模型底座重磅预告

联名麦橘MERJIC推出的Face-to-Photo 模型,仅仅是本次预热的第一弹。魔搭社区与麦乐园正展开更深层次的战略合作,计划基于通义千问 Qwen-Image,共同打造一个全新的开源视觉模型底座——麦橘惊鸿 majicGenos

“惊鸿”之名,取意自曹植《洛神赋》中“翩若惊鸿,婉若游龙”,指代一眼惊艳的美人。该模型将延续麦橘系列“唯美、易用、写实”的创作理念,并如“麦橘超然”一般,面向广大创作者共建开放、共创、共享的视觉模型新生态。

模型亮点

  • 图片生成更多样化
  • 生成的图片更有质感
  • 保留QwenImage的文字生成能力

效果展示


此外,麦橘惊鸿模型完美适配Qwen-Image的所有Lora,也是首个支持2K直出生图的Qwen模型。


麦橘惊鸿Coming Soon

敬请期待!

目录
相关文章
|
2天前
|
编解码 自然语言处理 文字识别
Qwen3-VL再添丁!4B/8B Dense模型开源,更轻量,仍强大
凌晨,Qwen3-VL系列再添新成员——Dense架构的Qwen3-VL-8B、Qwen3-VL-4B 模型,本地部署友好,并完整保留了Qwen3-VL的全部表现,评测指标表现优秀。
279 7
Qwen3-VL再添丁!4B/8B Dense模型开源,更轻量,仍强大
|
7天前
|
人工智能 API 数据安全/隐私保护
近期非常风靡非常逼真的AI视频内容由sora生成的视频是怎么回事?-优雅草卓伊凡
近期非常风靡非常逼真的AI视频内容由sora生成的视频是怎么回事?-优雅草卓伊凡
121 11
近期非常风靡非常逼真的AI视频内容由sora生成的视频是怎么回事?-优雅草卓伊凡
|
17天前
|
存储 人工智能 文字识别
PDF解析迎来技术革新!阿里新产品实现复杂文档端到端结构化处理
前言9月24日云栖大会现场,由阿里巴巴爱橙科技数据技术及产品团队自主研发的 PDF解析神器正式亮相并同步开源模型。这款基于Logics-Parsing模型构建的AI工具直指当前PDF解析领域的技术痛点,显著提升复杂文档的结构…
307 0
PDF解析迎来技术革新!阿里新产品实现复杂文档端到端结构化处理
|
18天前
|
缓存 自然语言处理 并行计算
腾讯自研 FastMTP 重磅开源:推理速度暴涨 203%,消费级显卡也能跑出无损速度翻倍!
腾讯自研 FastMTP 重磅开源:推理速度暴涨 203%,消费级显卡也能跑出无损速度翻倍!
149 2
|
18天前
|
分布式计算 测试技术 Spark
科大讯飞开源星火化学大模型、文生音效模型
近期,科大讯飞在魔搭社区(ModelScope)和Gitcode上开源两款模型:讯飞星火化学大模型Spark Chemistry-X1-13B、讯飞文生音频模型AudioFly,助力前沿化学技术研究,以及声音生成技术和应用的探索。
118 2
|
1月前
|
人工智能 自然语言处理 文字识别
RAG效果不佳?先别急着微调模型,这几个关键节点才是优化重点
本文深入探讨了RAG(Retrieval Augmented Generation)技术的实现细节与优化策略,指出在AI应用开发中,RAG常被视为黑盒导致问题定位困难。文章从文档分块(Chunking)、索引增强(语义增强与反向HyDE)、编码(Embedding)、混合检索(Hybrid Search)到重排序(Re-Ranking)等关键环节进行了详细解析,强调需结合具体场景对各模块进行调优,以提升召回率与精确率的平衡,并倡导从快速使用走向深度优化的实践路径。
794 33
RAG效果不佳?先别急着微调模型,这几个关键节点才是优化重点
人工智能 安全 IDE
369 31
|
17天前
|
机器学习/深度学习 并行计算 小程序
DeepSeek-V3.2-Exp 发布,训练推理提效,API 同步降价
今天,我们正式发布 DeepSeek-V3.2-Exp 模型,这是一个实验性( Experimental)的版本。作为迈向新一代架构的中间步骤,V3.2-Exp 在 V3.1-Terminus 的基础上引入了 DeepSeek Sparse Attention(一种稀疏注意力机制…
267 0
DeepSeek-V3.2-Exp 发布,训练推理提效,API 同步降价