Edicho:多图像一致性编辑,支持即插即用无需训练,快速实现风格转换

本文涉及的产品
视觉智能开放平台,分割抠图1万点
视觉智能开放平台,视频通用资源包5000点
视觉智能开放平台,图像通用资源包5000点
简介: Edicho 是蚂蚁集团联合港科大等高校推出的多图像一致性编辑方法,基于扩散模型,支持即插即用,无需额外训练,适用于多种图像编辑任务。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 功能:Edicho 支持多图像一致性编辑,适用于局部和全局编辑任务。
  2. 技术:基于扩散模型,结合显式图像对应关系和优化的去噪策略。
  3. 应用:广泛应用于电商、社交媒体、游戏开发及医学影像等领域。

正文(附运行示例)

Edicho 是什么

edicho

Edicho 是由香港科技大学、蚂蚁集团、斯坦福大学和香港中文大学联合推出的一种基于扩散模型的图像编辑方法。它能够在多图像之间实现一致性编辑,且无需额外训练即可应用。

Edicho 的核心技术在于利用显式图像对应关系来指导编辑过程。通过注意力操作模块(Corr-Attention)和分类器自由引导(CFG)去噪策略,Edicho 能够确保编辑结果在不同图像中保持高度一致性。

Edicho 的主要功能

  • 一致性图像编辑:在多图像间实现一致性编辑,包括局部编辑(如图像修复)和全局编辑(如图像风格转换),确保编辑结果在各种场景下保持高度协调。
  • 即插即用兼容性:作为推理时的算法,可与大多数基于扩散的编辑方法(如 ControlNet 和 BrushNet)无缝兼容,无需额外训练数据,直接应用于实际任务。
  • 广泛任务适用性:适用于图像编辑,还能扩展应用于个性化内容创作、3D重建及一致性纹理应用等更多领域,扩展了编辑工具的适用范围。

Edicho 的技术原理

  • 显式图像对应性引导:基于显式图像对应性引导编辑过程,避免传统隐式对应性方法的局限性。用预训练的对应性提取器(如 DIFT 和 Dust3R)从输入图像中提取稳健的对应性,然后将预计算的显式对应性注入到扩散模型的去噪过程中,确保编辑的一致性。
  • 注意力操作模块(Corr-Attention):增强注意力机制,基于图像之间的对应性引导特征传递。在自注意力模块中,根据显式对应性对查询特征进行变换,从源图像借用相关特征,形成新的查询矩阵,在去噪过程中实现编辑一致性。
  • 优化的分类器自由引导(CFG)去噪策略(Corr-CFG):结合预计算的对应性,在编辑过程中保持高质量和一致性。修改 CFG 的计算方式,在对应关系的引导下操控 CFG 框架中的无条件分支,融合无条件嵌入特征,进一步增强一致性效果,同时保留预训练模型强大的生成先验的完整性。

如何运行 Edicho

1. 安装依赖

首先,确保你已经安装了 Python 和必要的依赖库。可以通过以下命令安装:

pip install torch torchvision
pip install diffusers

2. 下载预训练模型

从 HuggingFace 下载预训练的扩散模型:

git clone https://github.com/EzioBy/edicho.git
cd edicho

3. 运行示例代码

以下是一个简单的示例代码,展示如何使用 Edicho 进行图像编辑:

import torch
from diffusers import StableDiffusionPipeline

# 加载预训练模型
pipe = StableDiffusionPipeline.from_pretrained("stabilityai/stable-diffusion-2-1")
pipe = pipe.to("cuda")

# 输入图像路径
image_paths = ["image1.jpg", "image2.jpg"]

# 进行一致性编辑
for image_path in image_paths:
    edited_image = pipe(image_path, guidance_scale=7.5).images[0]
    edited_image.save(f"edited_{image_path}")

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
10月前
|
人工智能 机器人
开源了一个项目,小🔥了一把
收集了github上1000个高质量的AI项目,包含了大模型,智能体,提示词工程,微调,模型,RAG,机器人,智能助理等,没想到一天就有这么多star了。
476 5
|
10月前
|
机器学习/深度学习 搜索推荐 知识图谱
CIKM 2024:两位本科生一作,首次提出持续学习+少样本知识图谱补全
在信息爆炸时代,知识图谱的构建和维护面临数据稀疏与动态变化等挑战。CIKM 2024会议上,两位本科生提出将**持续学习与少样本学习结合**的新方法,有效应对这些难题。该方法通过持续学习框架适应动态变化,并利用少样本学习提高数据稀疏场景下的补全效果,显著提升了知识图谱的完整性和准确性。实验结果表明,此方法在准确性、鲁棒性和泛化能力上均有显著优势,为知识图谱补全领域带来了新思路。
292 40
|
10月前
|
人工智能
RealisHuman:AI 生成的人像不真实?后处理框架帮你修复生成图像中畸形人体部位
RealisHuman 是一个创新的后处理框架,专注于修复生成图像中畸形的人体部位,如手和脸,通过两阶段方法提升图像的真实性。
436 11
RealisHuman:AI 生成的人像不真实?后处理框架帮你修复生成图像中畸形人体部位
|
10月前
|
人工智能 自然语言处理 调度
Casevo:开源的社会传播模拟系统,基于 AI 模拟人类认知、决策和社会交互,预测社会传播现象
Casevo 是中国传媒大学推出的开源社会传播模拟系统,结合大语言模型和多智能体技术,支持复杂社会网络建模与动态交互,适用于新闻传播、社会计算等领域。
427 22
Casevo:开源的社会传播模拟系统,基于 AI 模拟人类认知、决策和社会交互,预测社会传播现象
|
11月前
|
机器学习/深度学习 人工智能 JSON
【实战干货】AI大模型工程应用于车联网场景的实战总结
本文介绍了图像生成技术在AIGC领域的发展历程、关键技术和当前趋势,以及这些技术如何应用于新能源汽车行业的车联网服务中。
1183 94
|
10月前
|
人工智能 搜索推荐 前端开发
MiniPerplx:基于 Grok 2.0 的开源 AI 搜索引擎,支持网页、学术、视频搜索
MiniPerplx 是一款基于 Grok 2.0 模型的开源 AI 搜索引擎,支持网页、学术论文、YouTube 视频等多种内容搜索,提供代码解释、天气预报等功能。
428 17
MiniPerplx:基于 Grok 2.0 的开源 AI 搜索引擎,支持网页、学术、视频搜索
|
10月前
|
存储 人工智能 文字识别
VideoRAG:长视频理解的检索增强生成技术,支持多模态信息提取,能与任何 LVLM 兼容
VideoRAG 是一种用于长视频理解的检索增强生成技术,通过提取视频中的视觉对齐辅助文本,帮助大型视频语言模型更好地理解和处理长视频内容。
616 10
VideoRAG:长视频理解的检索增强生成技术,支持多模态信息提取,能与任何 LVLM 兼容
|
10月前
|
人工智能 测试技术
Valley:字节跳动开源小体积的多模态模型,在小于 10B 参数的模型中排名第二
Valley 是字节跳动推出的多模态大模型,能够处理文本、图像和视频数据,在电子商务和短视频领域表现优异,并在 OpenCompass 测试中排名第二。
541 10
Valley:字节跳动开源小体积的多模态模型,在小于 10B 参数的模型中排名第二
|
11月前
|
存储 NoSQL 关系型数据库
从大数据到大模型:如何做到“心无桎梏,身无藩篱”
在大数据和大模型的加持下,现代数据技术释放了巨大的技术红利,通过多种数据范式解除了数据的桎梏,使得应用程序达到了“心无桎梏,身无藩篱”的自在境界,那么现代应用有哪些数据范式呢?这正是本文尝试回答的问题。
1661 101
|
9月前
|
Swift
DeepSeek开源Janus-Pro多模态理解生成模型,魔搭社区推理、微调最佳实践
Janus-Pro是DeepSeek最新开源的多模态模型,是一种新颖的自回归框架,统一了多模态理解和生成。
896 19
DeepSeek开源Janus-Pro多模态理解生成模型,魔搭社区推理、微调最佳实践

热门文章

最新文章