MagicQuill:4天斩获千颗 Star,登上Huggingface趋势榜榜首的AI P图神器

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型训练 PAI-DLC,100CU*H 3个月
简介: MagicQuill通过结合编辑处理器、绘画助手和创意收集器三大功能,解决了图片精准、高效编辑的难题,用户可以通过三种简单的魔法画笔(添加、删除和上色)来编辑图片。

还在为 P 图烦恼,懊恼自己这不争气的手怎么就 P 不出来好看的图片?


image.png



最近,蚂蚁技术研究院开源了一个交互式的 AI 图像编辑工具:MagicQuill ,可以快速、简单的实现智能化、精细化的图像编辑。即便是 PS 小白,也能轻松上手。用画笔涂抹加一句提示词,瞬间完成复杂繁琐的图像编辑功能。该项目在 Github 上 短短 4 天就斩获千颗 Star🌟!


image.png


更是霸榜 Hugging Face应用排行榜第一!

image.png


我们先来看看效果~


01.MagicQuill是什么

MagicQuill 是一个交互式的 AI 图片编辑工具,通过结合“编辑处理器” “绘画助手”和“创意收集器”三大功能,成功解决了图片的精准、高效编辑的难题。用户只需要用三种简单直观的魔法画笔就能轻松编辑图片:添加、删除和上色。系统通过多模态大语言模型 (MLLM) 动态预测用户的操作意图,并提供相关的编辑建议。

体验地址:

https://modelscope.cn/studios/ant-research/MagicQuill_demo

模型链接:

https://modelscope.cn/models/ant-research/MagicQuill-models

代码地址:

https://github.com/magic-quill/MagicQuill



02.核心组成


image.png



编辑处理器(Editing Processor):系统的核心处理模块,主要负责确保高质量、可控的编辑生成,从而准确反映用户的编辑意图。它实现了两种基于笔刷的引导机制:用于结构性修改的涂鸦引导和用于修改颜色属性的颜色引导。该模块的技术设计受到ControlNet和BrushNet的启发,通过特殊的控制架构确保能够精确遵循用户引导的同时保持未修改区域不变,从而实现精确的图像编辑效果。

绘画助手(Painting Assistor):其设计目标是预测和解释用户的编辑意图,有效减少用户在编辑过程中需要重复输入文本提示的繁琐步骤。该模块运用多模态大语言模型(MLLM)来解释用户的笔刷操作,并能够基于图像上下文自动预测相应的提示。通过引入创新的"你画我猜"任务,并利用模拟真实编辑场景的数据集进行微调,绘画助手实现了连续的编辑工作流,让用户无需手动输入提示即可进行持续的编辑操作。

创意收集器(Idea Collector):专注于提供直观且易用的操作界面,它的设计兼容多个平台,包括Gradio和ComfyUI等。用户可以通过这个界面使用不同的笔刷进行绘制,操作各种笔画,并实现连续的编辑过程。创意收集器的设计理念是让用户能够轻松自如地实现各种编辑操作,为整个系统提供一个用户友好的交互入口,显著提升图像编辑的效率和用户体验。



03.本地安装使用

下载代码库

git clone --recursive https://github.com/magic-quill/MagicQuill.git
cd MagicQuill



下载需要用到的模型权重文件

modelscope download --model=ant-research/MagicQuill-models --local_dir ./MagicQuill-models



创建运行环境

conda create -n MagicQuill python=3.10 -y
conda activate MagicQuill



安装交互界面文件

pip install gradio_magicquill-0.0.1-py3-none-any.wh



安装 LLAVA 环境

cp -f pyproject.toml MagicQuill/LLaVA/
pip install -e MagicQuill/LLaVA/



安装环境依赖

pip install -r requirements.txt



运行

CUDA_VISIBLE_DEVICES=0 python gradio_run.py

04.如何使用

在 MagicQuill 中主要提供了三种“魔法画笔”:

添加画笔

可以根据画笔输入的形状、位置,生成相应的元素。比如在河边简单画一只鹿的形状,一只栩栩如生的小鹿就活了过来。

image.png


又或者是在美女的脖子上简单画个项链的形状,就可以直接生成一张美女佩戴项链的图片。

image.png


减法画笔

可以根据画笔涂抹的位置和形状,减去相应位置的内容或重新绘制区域。这不是妥妥的 P 图神器呀~

“有两根尾鳍的海豚?我们赶紧给它‘治疗’一下,去掉一个!”

640 (2).gif



“我们把骷髅先生的帽子摘下来,再给他一杯冰激凌,让他凉快一下吧。”

640 (3).gif



彩色画笔

可以根据画笔的染色,为图片进行上色,或者修改图片的颜色。

比如给美女的满头金色增加一缕蓝色和红色的头发。

640 (4).gif



也可以让蛋糕上粉色的花变成蓝色。

640 (5).gif



当然,你也可以将添加画笔和删除画笔组合使用。比如为这位帅哥换一条新的领带!

640 (6).gif



如果你画完之后发现它猜出的并不是你想要的内容,你也可以直接告诉它你到底想画什么~



比如,我想画的是一条路,而不是画藤蔓。

640 (7).gif



如果您是专业人士,也可以在下方的参数调整区域调整自己需要的参数。

image.png 640 (8).gif



Base Model 支持不同的基础模型,有适合生成真实风格的:

SD1.5/realisticVisionV60B1_v51VAE.safetensors

https://modelscope.cn/models/MusePublic/56_ckpt_SD_1_5


适合幻想风格的:

SD1.5/DreamShaper.safetensors

https://modelscope.cn/models/MusePublic/54_ckpt_SD_1_5


适合肖像风格的:

SD1.5/majicMIX_realistic

https://modelscope.cn/models/MusePublic/51_ckpt_SD_1_5


适合动漫风格的:

SD1.5/MeinaMix.safetensors和SD1.5/ghostmix_v20Bakedvae.safetensors

https://modelscope.cn/models/MusePublic/63_ckpt_SD_1_5

https://modelscope.cn/models/MusePublic/58_ckpt_SD_1_5


也可以调整Negative Prompt避免生成部分内容、还有Fine Edge精细边缘调整、Grow Size调整笔触大小、Edge Strength 边缘强化、Color Strength 颜色强度等等。


05.效果展示

640 (8).gif

640 (9).gif

640 (10).gif

640 (11).gif

640 (12).gif

06. 关于开发团队


image.png

MagicQuill 开发团队来自香港科技大学、蚂蚁集团、浙江大学、和香港大学等机构。其中 Zichen Liu、Yue Yu、Ka Leong Cheng、Wen Wang 四位作者目前都在蚂蚁技术研究院交互智能实验室实习。

作为蚂蚁技术研究院首批落地建成的实验室,交互智能实验室聚焦视觉和 NLP 基础模型研究,开发通用人工智能算法架构,包括内容生成、多模态理解、数字人技术等人机交互关键技术。



相关文章
|
8月前
|
人工智能 前端开发 JavaScript
2023年度编程语言榜首之预测与AI时代下的学习计划
在技术圈中,TIOBE编程社区指数一直被视为衡量编程语言受欢迎程度的重要指标,而且长期以来,大家也都知道Python一直稳居榜首。但是据悉,TIOBE官方近期做出了大胆的预测,认为C#有可能成为2023年度编程语言的冠军。2023年的倒计时已经拉开帷幕,还有短短几天时间,关于2023年度编程语言的预测,以及C#是否有可能成为榜首,这些都即将揭开神秘面纱。那么本文就来简单聊聊年度编程语言的结果,以及在AI时代下的该怎么去学习新语言。
237 55
2023年度编程语言榜首之预测与AI时代下的学习计划
|
人工智能 开发者
解决HuggingFace模型下载难题:AI快站的高效加速服务
在AI研发领域,获取优质模型资源是关键。国内开发者常因海外服务器导致的下载困难而苦恼,尤其是大型模型下载更是耗时且充满挑战。AI快站(aifasthub.com)作为huggingface镜像网站,提供了高效的加速下载服务。它不仅解决了huggingface大模型下载的速度问题,还支持断点续传,保证下载连续性。此外,AI快站还提供全面及时更新的模型资源,是国内AI开发者的理想选择。
1348 0
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
HuggingGPT解析:使用 ChatGPT及HuggingFace上的族系解决AI问题
HuggingGPT是一个框架,它使用大型语言模型(如ChatGPT)作为控制器来管理和协调Hugging Face上的AI模型,以语言作为通用接口解决多模态和领域的复杂AI任务。
84 0
HuggingGPT解析:使用 ChatGPT及HuggingFace上的族系解决AI问题
|
5月前
|
人工智能 数据挖掘 知识图谱
预训练模型STAR问题之AI团队探索智能对话中的问题如何解决
预训练模型STAR问题之AI团队探索智能对话中的问题如何解决
|
8月前
|
人工智能 搜索推荐 安全
Star 18k!推荐一款免费开源的简历生成神器,还搭配AI助力,面试官看了都不仅赞叹!
Star 18k!推荐一款免费开源的简历生成神器,还搭配AI助力,面试官看了都不仅赞叹!
261 2
|
8月前
|
存储 人工智能 自然语言处理
利用Streamlit 和 Hugging Face 创建免费AI故事机
利用Streamlit 和 Hugging Face 创建免费AI故事机
196 0
|
人工智能 中间件 调度
【HuggingGPT】Solving AI Tasks with ChatGPT and its Friends in Hugging Face
【HuggingGPT】Solving AI Tasks with ChatGPT and its Friends in Hugging Face
141 0
|
存储 人工智能 自然语言处理
一键控制10万多个AI模型,HuggingFace给类ChatGPT模型们做了个「APP Store」
一键控制10万多个AI模型,HuggingFace给类ChatGPT模型们做了个「APP Store」
334 0
|
机器学习/深度学习 人工智能 调度
JARVIS项目原作解读:连接ChatGPT和HuggingFace解决AI问题
JARVIS项目原作解读:连接ChatGPT和HuggingFace解决AI问题
154 0
|
机器学习/深度学习 人工智能 并行计算
无缝支持Hugging Face社区,Colossal-AI低成本轻松加速大模型
无缝支持Hugging Face社区,Colossal-AI低成本轻松加速大模型
426 0

热门文章

最新文章