Face-to-Photo 模型开源!联名麦橘MERJIC,遇见另一个你!

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型训练 PAI-DLC,100CU*H 3个月
简介: 魔搭 DiffSynth-Studio 团队携手知名创作者麦橘MERJIC,正式开源全新 AI 图像生成模型——Face-to-Photo!该模型基于 Qwen-Image-Edit,采用 LoRA 的模型结构,专为人脸图像生成而优化,将一张普通的人脸照片转化…

魔搭DiffSynth-Studio 团队携手知名创作者麦橘MERJIC,正式开源全新 AI 图像生成模型——Face-to-Photo!该模型基于 Qwen-Image-Edit,采用 LoRA 的模型结构,专为人脸图像生成而优化,将一张普通的人脸照片转化为质感精美的高质量图像。这个模型目前已经可以在魔搭 AIGC 专区直接体验。

模型链接https://modelscope.cn/models/DiffSynth-Studio/Qwen-Image-Edit-F2P

在线体验ModelScope 魔搭社区

模型介绍

Face-to-Photo 模型的核心优势在于其对原始人脸特征的极致还原能力。不同于以往如 InfiniteYou 等人脸保持模型,Face-to-Photo 能够精准捕捉并忠实复现输入图像中的面部细节。无论人脸位于画面中央还是边缘,无论角度、大小或姿态如何变化,模型都能在保留面部特征的同时,生成自然、美观的图像。

这个 LoRA 模型让我们看到了 Qwen-Image-Edit 模型的更多潜力,训练一个小小的 LoRA 就可以赋予模型更多能力。

效果展示

让我们来一起看看模型生成的美美照片吧!

提示词:杰作, 最高品质, 真实照片, 一位温柔的年轻女性, 侧身轻轻拂过薰衣草花穗, 她穿着一件简约的白色棉麻连衣裙, 戴着一顶草编帽, 身处傍晚时分的普罗旺斯薰衣草田, 背景是无尽的紫色花海和远处的田园农舍。


提示词:杰作, 最高品质, 真实照片, 一位穿着夏日连衣裙的年轻女性, 悠闲地坐在剑桥康河的平底船上, 背景是古老的学院建筑和岸边的垂柳, 夏日午后阳光明媚, 氛围宁静惬意。


提示词:杰作, 最高品质, 电影感街拍, 一位年轻女性, 坐在一家挂满鲜花的伦敦传统酒吧外, 背景是温暖的灯光和古老的木质门窗, 夜晚氛围温馨而有生活气息, 焦外光斑。


提示词:杰作, 最高品质, 专业摄影, 一位美丽的年轻女性, 单人, 温柔的微笑, 走在深秋公园铺满落叶的小径上, 穿着卡其色风衣和温暖的围巾, 背景是金黄色的枫树林, 动态抓拍, 长焦镜头, 背景虚化, 电影感, 高细节。


提示词:杰作, 最高品质, 室内生活摄影, 真实照片, 一位穿着宽松米色羊绒衫的年轻女性, 舒适地坐在洒满阳光的飘窗上, 手里捧着一本杂志, 窗外的绿植和柔和的光线构成了她的背景, 氛围宁静、温暖而慵懒。

推理代码

安装 DiffSynth-Studio:

git clone https://github.com/modelscope/DiffSynth-Studio.git  
cd DiffSynth-Studio
pip install -e .

推理代码:

from diffsynth.pipelines.qwen_image import QwenImagePipeline, ModelConfig
import torch
from PIL import Image
pipe = QwenImagePipeline.from_pretrained(
    torch_dtype=torch.bfloat16,
    device="cuda",
    model_configs=[
        ModelConfig(model_id="Qwen/Qwen-Image-Edit", origin_file_pattern="transformer/diffusion_pytorch_model*.safetensors"),
        ModelConfig(model_id="Qwen/Qwen-Image", origin_file_pattern="text_encoder/model*.safetensors"),
        ModelConfig(model_id="Qwen/Qwen-Image", origin_file_pattern="vae/diffusion_pytorch_model.safetensors"),
    ],
    tokenizer_config=None,
    processor_config=ModelConfig(model_id="Qwen/Qwen-Image-Edit", origin_file_pattern="processor/"),
)
pipe.load_lora(pipe.dit, lora_config=ModelConfig(model_id="DiffSynth-Studio/Qwen-Image-Edit-F2P", origin_file_pattern="model.safetensors"))
face_image = Image.open("face_image.png").convert("RGB")
image = pipe(
    prompt="摄影。一个年轻女性穿着黄色连衣裙,站在花田中,背景是五颜六色的花朵和绿色的草地。",
    negative_prompt="将人物的手指改为残缺的、扭曲的,放大头部使其头身比异常,把人物变成身材矮小的大头娃娃,生成刺眼的阳光,让整个画面色彩变得过饱和,把双腿扭曲成X型腿或O型腿",
    edit_image=face_image,
    seed=0,
    num_inference_steps=40,
    height=1152, width=864,
)
image.save("image.jpg")

此外,我们还提供了以下代码,以便从人像照片中裁剪出人脸部分,作为本模型的输入:

from modelscope import snapshot_download
from insightface.app import FaceAnalysis
from PIL import Image
import numpy as np
import cv2
def initialize_face_detector():
    snapshot_download("ByteDance/InfiniteYou", allow_file_pattern="supports/insightface/*", cache_dir="models")
    face_detector = FaceAnalysis(name='antelopev2', root="models/ByteDance/InfiniteYou/supports/insightface")
    face_detector.prepare(ctx_id=0, det_size=(640, 640))
    return face_detector
def crop_face(face_detector, image):
    face_info = face_detector.get(cv2.cvtColor(np.array(image), cv2.COLOR_RGB2BGR))
    bbox = sorted(face_info, key=lambda x: (x['bbox'][2] - x['bbox'][0]) * (x['bbox'][3] - x['bbox'][1]))[-1]['bbox']
    face_image = image.crop(list(map(int, bbox)))
    return face_image
face_detector = initialize_face_detector()
image = Image.open("photo.jpg")
crop_face(face_detector, image).save("face.jpg")

在FlowBench中使用

在 FlowBench 中,使用官方节点包中的“图片生成图片”节点,选择基础模型 Qwen-Image-Edit v1 以及 LoRA 模型 DiffSynth-Studio/Qwen-Image-Edit-F2P,即可直接体验本模型的生成效果。


视觉模型底座重磅预告

联名麦橘MERJIC推出的Face-to-Photo 模型,仅仅是本次预热的第一弹。魔搭社区与麦乐园正展开更深层次的战略合作,计划基于通义千问 Qwen-Image,共同打造一个全新的开源视觉模型底座——麦橘惊鸿 majicGenos

“惊鸿”之名,取意自曹植《洛神赋》中“翩若惊鸿,婉若游龙”,指代一眼惊艳的美人。该模型将延续麦橘系列“唯美、易用、写实”的创作理念,并如“麦橘超然”一般,面向广大创作者共建开放、共创、共享的视觉模型新生态。

模型亮点

  • 图片生成更多样化
  • 生成的图片更有质感
  • 保留QwenImage的文字生成能力

效果展示


此外,麦橘惊鸿模型完美适配Qwen-Image的所有Lora,也是首个支持2K直出生图的Qwen模型。


麦橘惊鸿Coming Soon

敬请期待!

目录
相关文章
|
1月前
|
人工智能 编解码 芯片
【AI绘画】你有多久没有打开SD了?
曾几何时,Stable Diffusion的复杂参数令人崩溃,如今即梦、可灵等AI工具已让生成图片变得轻而易举。哩布哩布发布2.0升级公告,看似迈向更易用的未来,却也悄然为那个钻研模型、拼接工作流的“拓荒时代”奏响终章。技术迭代飞快,但那份对创造的热爱与探索精神,永不褪色。
594 9
|
1月前
|
存储 人工智能 算法
ModelScope魔搭社区发布月报 -- 25年10月
2025年10月,ModelScope密集发布多模态与大模型更新,并上线国际站、科学智能专区及AIGC工具FlowBench,加速开源生态发展。
379 9
|
1月前
|
传感器 人工智能 API
仅100多元,他给视障人群装上AI“眼睛”
上海两名开发者为验证AI助盲实效,亲手打造百元AI眼镜,蒙眼实测过马路、识盲道,并开源项目鼓励更多人参与。技术导航,人心照亮。
693 6
仅100多元,他给视障人群装上AI“眼睛”
|
9天前
|
编解码 物联网 API
码上生花:用API链接Qwen-Image系列及衍生LoRA生态模型
Qwen-Image系列开源三月成爆款,凭借中文场景优势与ModelScope平台深度集成,支持文生图、图像编辑及LoRA生态API调用,助力开发者高效创作。
345 1
|
1月前
|
编解码 调度 图形学
腾讯混元世界模型1.1开源:支持多视图及视频输入,单卡部署,秒级生成_魔搭ModelScope社区-ModelScope魔搭社区
混元世界模型1.1(WorldMirror)发布,支持多视图、视频输入,单卡秒级生成3D场景。兼容CG管线,开源可部署,实现点云、深度、相机等多任务统一预测,性能领先。
267 1
|
2月前
|
编解码 文字识别 自然语言处理
腾讯混元生图模型升级2.1版本:支持写字、2k分辨率,开源!
腾讯混元生图模型升级2.1版本:支持写字、2k分辨率,开源!
316 14
|
1月前
|
人工智能 程序员 开发者
「超级开发个体」在诞生:一份白皮书带你理解AI时代开发者
10月24日程序员节,魔搭社区联合知乎发布《THE NEXT WAVE:AI时代开发者生态白皮书》,揭示AI时代开发者新画像:以“超级个体”为核心,兼具技术与商业闭环能力,工具平权让个人开发者崛起。报告涵盖年龄、学历、组织分布及认知行为特征,展现开发者如何用AI提效、实现从“写代码”到“搭系统”的跃迁。点击下载完整报告。
234 0
|
28天前
|
机器学习/深度学习 人工智能 自然语言处理
UI-Ins:让 GUI 智能体真正“看懂”用户指令的新范式
通义实验室联合人大发布全新GUI Grounding模型UI-Ins,首创“指令即推理”范式,通过多视角动态推理实现SOTA性能,在五大基准全面领先,支持开源复现与应用。
439 1

热门文章

最新文章