MagicQuill:4天斩获千颗 Star,登上Huggingface趋势榜榜首的AI P图神器

本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,100CU*H 3个月
简介: MagicQuill通过结合编辑处理器、绘画助手和创意收集器三大功能,解决了图片精准、高效编辑的难题,用户可以通过三种简单的魔法画笔(添加、删除和上色)来编辑图片。

还在为 P 图烦恼,懊恼自己这不争气的手怎么就 P 不出来好看的图片?


image.png



最近,蚂蚁技术研究院开源了一个交互式的 AI 图像编辑工具:MagicQuill ,可以快速、简单的实现智能化、精细化的图像编辑。即便是 PS 小白,也能轻松上手。用画笔涂抹加一句提示词,瞬间完成复杂繁琐的图像编辑功能。该项目在 Github 上 短短 4 天就斩获千颗 Star🌟!


image.png


更是霸榜 Hugging Face应用排行榜第一!

image.png


我们先来看看效果~


01.MagicQuill是什么

MagicQuill 是一个交互式的 AI 图片编辑工具,通过结合“编辑处理器” “绘画助手”和“创意收集器”三大功能,成功解决了图片的精准、高效编辑的难题。用户只需要用三种简单直观的魔法画笔就能轻松编辑图片:添加、删除和上色。系统通过多模态大语言模型 (MLLM) 动态预测用户的操作意图,并提供相关的编辑建议。

体验地址:

https://modelscope.cn/studios/ant-research/MagicQuill_demo

模型链接:

https://modelscope.cn/models/ant-research/MagicQuill-models

代码地址:

https://github.com/magic-quill/MagicQuill



02.核心组成


image.png



编辑处理器(Editing Processor):系统的核心处理模块,主要负责确保高质量、可控的编辑生成,从而准确反映用户的编辑意图。它实现了两种基于笔刷的引导机制:用于结构性修改的涂鸦引导和用于修改颜色属性的颜色引导。该模块的技术设计受到ControlNet和BrushNet的启发,通过特殊的控制架构确保能够精确遵循用户引导的同时保持未修改区域不变,从而实现精确的图像编辑效果。

绘画助手(Painting Assistor):其设计目标是预测和解释用户的编辑意图,有效减少用户在编辑过程中需要重复输入文本提示的繁琐步骤。该模块运用多模态大语言模型(MLLM)来解释用户的笔刷操作,并能够基于图像上下文自动预测相应的提示。通过引入创新的"你画我猜"任务,并利用模拟真实编辑场景的数据集进行微调,绘画助手实现了连续的编辑工作流,让用户无需手动输入提示即可进行持续的编辑操作。

创意收集器(Idea Collector):专注于提供直观且易用的操作界面,它的设计兼容多个平台,包括Gradio和ComfyUI等。用户可以通过这个界面使用不同的笔刷进行绘制,操作各种笔画,并实现连续的编辑过程。创意收集器的设计理念是让用户能够轻松自如地实现各种编辑操作,为整个系统提供一个用户友好的交互入口,显著提升图像编辑的效率和用户体验。



03.本地安装使用

下载代码库

git clone --recursive https://github.com/magic-quill/MagicQuill.git
cd MagicQuill



下载需要用到的模型权重文件

modelscope download --model=ant-research/MagicQuill-models --local_dir ./MagicQuill-models



创建运行环境

conda create -n MagicQuill python=3.10 -y
conda activate MagicQuill



安装交互界面文件

pip install gradio_magicquill-0.0.1-py3-none-any.wh



安装 LLAVA 环境

cp -f pyproject.toml MagicQuill/LLaVA/
pip install -e MagicQuill/LLaVA/



安装环境依赖

pip install -r requirements.txt



运行

CUDA_VISIBLE_DEVICES=0 python gradio_run.py

04.如何使用

在 MagicQuill 中主要提供了三种“魔法画笔”:

添加画笔

可以根据画笔输入的形状、位置,生成相应的元素。比如在河边简单画一只鹿的形状,一只栩栩如生的小鹿就活了过来。

image.png


又或者是在美女的脖子上简单画个项链的形状,就可以直接生成一张美女佩戴项链的图片。

image.png


减法画笔

可以根据画笔涂抹的位置和形状,减去相应位置的内容或重新绘制区域。这不是妥妥的 P 图神器呀~

“有两根尾鳍的海豚?我们赶紧给它‘治疗’一下,去掉一个!”

640 (2).gif



“我们把骷髅先生的帽子摘下来,再给他一杯冰激凌,让他凉快一下吧。”

640 (3).gif



彩色画笔

可以根据画笔的染色,为图片进行上色,或者修改图片的颜色。

比如给美女的满头金色增加一缕蓝色和红色的头发。

640 (4).gif



也可以让蛋糕上粉色的花变成蓝色。

640 (5).gif



当然,你也可以将添加画笔和删除画笔组合使用。比如为这位帅哥换一条新的领带!

640 (6).gif



如果你画完之后发现它猜出的并不是你想要的内容,你也可以直接告诉它你到底想画什么~



比如,我想画的是一条路,而不是画藤蔓。

640 (7).gif



如果您是专业人士,也可以在下方的参数调整区域调整自己需要的参数。

image.png 640 (8).gif



Base Model 支持不同的基础模型,有适合生成真实风格的:

SD1.5/realisticVisionV60B1_v51VAE.safetensors

https://modelscope.cn/models/MusePublic/56_ckpt_SD_1_5


适合幻想风格的:

SD1.5/DreamShaper.safetensors

https://modelscope.cn/models/MusePublic/54_ckpt_SD_1_5


适合肖像风格的:

SD1.5/majicMIX_realistic

https://modelscope.cn/models/MusePublic/51_ckpt_SD_1_5


适合动漫风格的:

SD1.5/MeinaMix.safetensors和SD1.5/ghostmix_v20Bakedvae.safetensors

https://modelscope.cn/models/MusePublic/63_ckpt_SD_1_5

https://modelscope.cn/models/MusePublic/58_ckpt_SD_1_5


也可以调整Negative Prompt避免生成部分内容、还有Fine Edge精细边缘调整、Grow Size调整笔触大小、Edge Strength 边缘强化、Color Strength 颜色强度等等。


05.效果展示

640 (8).gif

640 (9).gif

640 (10).gif

640 (11).gif

640 (12).gif

06. 关于开发团队


image.png

MagicQuill 开发团队来自香港科技大学、蚂蚁集团、浙江大学、和香港大学等机构。其中 Zichen Liu、Yue Yu、Ka Leong Cheng、Wen Wang 四位作者目前都在蚂蚁技术研究院交互智能实验室实习。

作为蚂蚁技术研究院首批落地建成的实验室,交互智能实验室聚焦视觉和 NLP 基础模型研究,开发通用人工智能算法架构,包括内容生成、多模态理解、数字人技术等人机交互关键技术。



相关文章
|
4月前
|
人工智能 数据可视化 程序员
程序员必收藏!Github 167000+ star 的自主AI agent,全自动AI助手,全面覆盖开发效率场景
AutoGPT 是基于 GPT-4 的开源自主 AI 智能代理,全面覆盖开发效率场景。支持任务自动拆解、多轮反馈、插件扩展与记忆管理,具备持续执行能力,适合自动化测试、CI/CD、Web 数据抓取等任务。GitHub 超 176K Star,是当前最热门的 AI Agent 开源项目之一,提供 CLI 与 GUI 双界面,助力开发者提升工作效率。
559 1
|
3月前
|
人工智能 语音技术 Docker
揭秘8.3k star 开源神器 VoiceCraft 用AI革新有声内容创作,只需几秒录音
VoiceCraft 是一款开源语音编辑与文本转语音(TTS)工具,仅需几秒录音即可实现语音克隆、插入、删除、替换等操作,支持零样本编辑和高自然度语音生成。适用于播客、短视频、有声书等内容创作场景,具备本地部署能力,已在 GitHub 获得 8.3k 星标。
375 0
|
5月前
|
人工智能 IDE 开发工具
2.4k star 开源项目,Wingman AI + 知识图谱,如何帮你搭建‘私人大脑’?学术/项目必备,让笔记真正活起来!
MindForger 是一款灵感源于人脑思维机制的桌面 Markdown IDE,帮助用户构建私人知识体系。它通过强大的语义联想与结构重构功能,解决笔记混乱、缺乏智能联接等痛点。核心功能包括 TAYR/TAYW 联想、知识图谱浏览器、Markdown 编辑器和 AI 助手 Wingman。支持本地隐私保护,跨平台使用,开源 GPLv2 许可。项目地址:https://github.com/dvorka/mindforger。
190 4
|
7月前
|
数据采集 人工智能 监控
40.8K star!让AI帮你读懂整个互联网:Crawl4AI开源爬虫工具深度解析
Crawl4AI 是2025年GitHub上备受瞩目的开源网络爬虫工具,专为AI时代设计。它不仅能抓取网页内容,还能理解页面语义结构,生成适配大语言模型的训练数据格式。上线半年获4万+星标,应用于1200+AI项目。其功能亮点包括智能内容提取引擎、AI就绪数据管道和企业级特性,支持动态页面处理、多语言识别及分布式部署。技术架构基于Python 3.10与Scrapy框架,性能卓越,适用于AI训练数据采集、行业情报监控等场景。相比Scrapy、BeautifulSoup等传统工具,Crawl4AI在动态页面支持、PDF解析和语义分块方面更具优势
2503 0
40.8K star!让AI帮你读懂整个互联网:Crawl4AI开源爬虫工具深度解析
|
7月前
|
存储 人工智能 自然语言处理
15.4K Star!Vercel官方出品,零基础构建企业级AI聊天机器人
"基于Next.js 14和AI SDK打造的Chat SDK,让开发者快速构建支持多模态交互、代码执行、文件共享的智能对话系统,5分钟完成全栈部署!" —— Vercel AI Chatbot项目核心宣言
383 5
|
7月前
|
人工智能 Rust 自然语言处理
37.1K star!AI模型全能工具箱,这个开源项目让智能体开发更简单!
"Awesome MCP Servers 是当前最全面的模型上下文协议服务器集合,为AI开发者提供开箱即用的工具链支持。通过标准化协议实现AI模型与各类资源的无缝对接,堪称智能体开发的瑞士军刀!"
379 7
|
7月前
|
人工智能 自然语言处理 安全
90.9K star!一键部署AI聊天界面,这个开源项目让大模型交互更简单!
"像使用微信一样操作大模型!Open WebUI 让AI对话从未如此简单"
638 0
|
人工智能 数据安全/隐私保护 计算机视觉
GitHub爆款神器 | IOPaint:21.7k star 开源AI图像修复项目,竟能秒删水印、拓展画幅!
IOPaint 是一款由 Sanster 团队开发的开源图像处理工具,集成多种 SOTA AI 模型,支持图像擦除、对象替换、文本绘制和图像外扩等功能。它操作简便,一键安装,适用于 Windows、macOS、Linux 和 Apple Silicon 系统,适合摄影爱好者、电商从业者及内容创作者使用,大幅提升图像处理效率。
503 0
|
4月前
|
人工智能 缓存 监控
GitHub 8k star!Portkey AI Gateway 如何帮你3行代码接入1600+ LLM,实现成本、可靠性与安全三赢?
Portkey AI Gateway 是一个轻量级、高速、安全的中间层,帮助应用对接多模态 AI 模型,统一管理,快速落地。支持超1600款语言、视觉、音频、图像模型,通过 1 个 API 接口实现快速、可靠、安全的模型路由。具备智能路由、自动重试、缓存机制、合规控制等功能,助力企业高效构建 AI 应用。
261 0
|
6月前
|
人工智能 数据安全/隐私保护 Docker
短短时间,疯狂斩获1.9k star,开源AI神器AingDesk:一键部署上百模型,本地运行还能联网搜索!
AingDesk 是一款开源的本地 AI 模型管理工具,已获 1.9k Star。它支持一键部署上百款大模型(如 DeepSeek、Llama),适配 CPU/GPU,可本地运行并联网搜索。五大核心功能包括零门槛模型部署、实时联网搜证、私人知识库搭建、跨平台共享和智能体工厂,满足学术、办公及团队协作需求。相比 Ollama 和 Cherry Studio,AingDesk 更简单易用,适合技术小白、团队管理者和隐私敏感者。项目地址:https://github.com/aingdesk/AingDesk。
690 3

热门文章

最新文章