MimicBrush:奇迹画刷,重新定义局部重绘

简介: 图像编辑是一项实用而又具有挑战性的任务,因为用户的需求多种多样,其中最困难的部分之一是准确描述编辑后的图像应该是什么样子。在MimicBrush这项工作中,提出了一种新的编辑形式,称为模仿编辑,以帮助用户更方便地发挥创造力。

引言

图像编辑是一项实用而又具有挑战性的任务,因为用户的需求多种多样,其中最困难的部分之一是准确描述编辑后的图像应该是什么样子。在MimicBrush这项工作中,提出了一种新的编辑形式,称为模仿编辑,以帮助用户更方便地发挥创造力。具体来说,为了编辑感兴趣的图像区域,用户可以自由地直接从一些自然参考(例如,一些在线遇到的相关图片)中汲取灵感,而不必处理参考和源之间的契合。这样的设计要求系统自动找出对参考的期望以执行编辑。为此,提出了一个生成训练框架,称为 MimicBrush,它从视频剪辑中随机选择两帧,屏蔽一帧的某些区域,并学习使用另一帧的信息恢复被屏蔽的区域。这样,模型(从扩散先验发展而来)能够以自监督的方式捕捉单独图像之间的语义对应关系。项目组通过实验证明了我们的方法在各种测试用例下的有效性以及它相对于现有替代方案的优越性,还构建了一个基准以促进进一步的研究。

image.png

上图是MimicBrush 的训练过程。首先,从视频序列中随机采样两帧作为参考和源图像。然后对源图像进行mask处理并通过数据增强进行增强。之后,将源图像的noisy image latent, mask, background latent, and depth latent输入到模拟 U-Net 中。参考图像也经过增强并发送到参考 U-Net。对双 U-Net 进行训练以恢复源图像的mask区域。参考 U-Net 的attention key和value与模拟 U-Net 连接起来,以协助合成mask区域。

下面,我们从一个视频详细了解下MimicBrush吧!

image.gif

模型和WebUI代码现已在魔搭社区开源并可体验!

模型链接:https://modelscope.cn/models/xichen/MimicBrush

论文链接:https://arxiv.org/abs/2406.07547

Github地址:https://github.com/ali-vilab/MimicBrush?tab=readme-ov-file

体验地址:

   PC端:https://modelscope.cn/studios/iic/mimicbrush-demo

   

魔搭社区WebUI最佳实践

模型体验

第一步:上传选择要编辑的源图像

image.png

第二步:在源图像上绘制要编辑的区域。

image.png

第三步:上传/选择参考图像

image.png

第四步:生成图片!

image.png

模型下载

#模型下载
from modelscope import snapshot_download
model_dir = snapshot_download('xichen/MimicBrush')

搭建运行WebUI

使用魔搭免费算力Notebook体验简单WebUI

image.png

打开Terminal

image.png

运行代码

pip install gradio
git clone https://www.modelscope.cn/studios/iic/mimicbrush-demo.git
cd mimicbrush-demo
python app.py

就可以体验您搭建的个人WebUI页面啦!

更多MimicBrush技术解析,欢迎预约6.26(周三)20:00-21:30直播

相关文章
|
JavaScript
Bert-vits2-v2.2新版本本地训练推理整合包(原神八重神子英文模型miko)
近日,Bert-vits2-v2.2如约更新,该新版本v2.2主要把Emotion 模型换用CLAP多模态模型,推理支持输入text prompt提示词和audio prompt提示语音来进行引导风格化合成,让推理音色更具情感特色,并且推出了新的预处理webuI,操作上更加亲民和接地气。
Bert-vits2-v2.2新版本本地训练推理整合包(原神八重神子英文模型miko)
|
机器学习/深度学习 人工智能
可控图像生成最新综述!北邮开源20页249篇文献,包揽Text-to-Image Diffusion领域各种条件
【2月更文挑战第29天】北京邮电大学研究人员发表了一篇关于文本到图像扩散模型的综述论文,探讨了该技术在可控图像生成方面的最新进展。论文介绍了DDPMs基础理论,并详述了如何通过引入条件来提升生成图像的精确控制。研究者提出条件生成的三种类别,分析了核心理论机制,并创建了一个包含249篇相关文献的GitHub仓库,促进学术交流。尽管取得显著成就,但模型仍面临语义一致性、处理复杂文本描述和效率提升等挑战。论文链接:https://arxiv.org/abs/2403.04279
317 1
可控图像生成最新综述!北邮开源20页249篇文献,包揽Text-to-Image Diffusion领域各种条件
|
12月前
|
编解码 物联网 计算机视觉
实战 | 猫猫、少女、FLUX、ControlNet
魔搭社区集结了来自多个组织的 FLUX ControlNet 模型,魔搭社区的开源项目 DiffSynth-Studio 为这些模型提供了支持,今天就随我们一起,体验一下这些 FLUX ControlNet 模型的神奇生成能力。
|
10月前
|
数据采集 人工智能 编解码
书生·万象InternVL 2.5:上海 AI Lab 开源的多模态大语言模型,超越了目前许多商业模型
书生·万象InternVL 2.5是由上海AI实验室OpenGVLab团队推出的开源多模态大语言模型系列。该模型在多模态理解基准(MMMU)上表现优异,超越了许多商业模型,适用于图像和视频分析、视觉问答、文档理解和多语言处理等多个领域。
692 7
书生·万象InternVL 2.5:上海 AI Lab 开源的多模态大语言模型,超越了目前许多商业模型
|
存储 人工智能 编解码
阿里云gpu云服务器最新收费标准、活动价格与实例规格选择参考
随着人工智能、高性能计算等领域的快速发展,GPU云服务器因其强大的计算能力和灵活的资源分配方式,成为越来越多企业和个人用户的首选。2024年,阿里云针对GPU云服务器推出了新的收费标准及活动,gn6v、gn7i、gn6i等实例的gpu云服务器有优惠,本文为大家介绍2024年,阿里云gpu云服务器最新收费标准、活动价格与实例规格选择参考。
阿里云gpu云服务器最新收费标准、活动价格与实例规格选择参考
|
数据处理 开发者 异构计算
ComfyUI+多模态LLM--手搓一个好用的视频/图片提示词反推器
今天我们把ComfyUI工具和多模态LLM结合,在魔搭的免费算力上搭建出支持单图理解,多图理解,视频理解的WebUI界面,更好的支持开发者快速搭建一个视频/图片页面打标器。
ComfyUI+多模态LLM--手搓一个好用的视频/图片提示词反推器
|
12月前
|
Ubuntu Linux 网络安全
Docker&Docker Compose安装(离线+在线)
Docker&Docker Compose安装(离线+在线)
13849 1
|
开发工具 git
GIT:如何合并已commit的信息并进行push操作
通过上述步骤,您可以有效地合并已提交的信息,并保持项目的提交历史整洁。记得在执行这些操作之前备份当前工作状态,以防万一。这样的做法不仅有助于项目维护,也能提升团队协作的效率。
640 5
|
XML JSON 数据安全/隐私保护
PyMuPDF,Python处理PDF的宝藏库
PyMuPDF,Python处理PDF的宝藏库
462 2
|
编解码 JavaScript
Vue Camera组件的使用方法
Vue Camera组件的使用方法
464 0