Edicho:多图像一致性编辑,支持即插即用无需训练,快速实现风格转换

简介: Edicho 是蚂蚁集团联合港科大等高校推出的多图像一致性编辑方法,基于扩散模型,支持即插即用,无需额外训练,适用于多种图像编辑任务。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 功能:Edicho 支持多图像一致性编辑,适用于局部和全局编辑任务。
  2. 技术:基于扩散模型,结合显式图像对应关系和优化的去噪策略。
  3. 应用:广泛应用于电商、社交媒体、游戏开发及医学影像等领域。

正文(附运行示例)

Edicho 是什么

edicho

Edicho 是由香港科技大学、蚂蚁集团、斯坦福大学和香港中文大学联合推出的一种基于扩散模型的图像编辑方法。它能够在多图像之间实现一致性编辑,且无需额外训练即可应用。

Edicho 的核心技术在于利用显式图像对应关系来指导编辑过程。通过注意力操作模块(Corr-Attention)和分类器自由引导(CFG)去噪策略,Edicho 能够确保编辑结果在不同图像中保持高度一致性。

Edicho 的主要功能

  • 一致性图像编辑:在多图像间实现一致性编辑,包括局部编辑(如图像修复)和全局编辑(如图像风格转换),确保编辑结果在各种场景下保持高度协调。
  • 即插即用兼容性:作为推理时的算法,可与大多数基于扩散的编辑方法(如 ControlNet 和 BrushNet)无缝兼容,无需额外训练数据,直接应用于实际任务。
  • 广泛任务适用性:适用于图像编辑,还能扩展应用于个性化内容创作、3D重建及一致性纹理应用等更多领域,扩展了编辑工具的适用范围。

Edicho 的技术原理

  • 显式图像对应性引导:基于显式图像对应性引导编辑过程,避免传统隐式对应性方法的局限性。用预训练的对应性提取器(如 DIFT 和 Dust3R)从输入图像中提取稳健的对应性,然后将预计算的显式对应性注入到扩散模型的去噪过程中,确保编辑的一致性。
  • 注意力操作模块(Corr-Attention):增强注意力机制,基于图像之间的对应性引导特征传递。在自注意力模块中,根据显式对应性对查询特征进行变换,从源图像借用相关特征,形成新的查询矩阵,在去噪过程中实现编辑一致性。
  • 优化的分类器自由引导(CFG)去噪策略(Corr-CFG):结合预计算的对应性,在编辑过程中保持高质量和一致性。修改 CFG 的计算方式,在对应关系的引导下操控 CFG 框架中的无条件分支,融合无条件嵌入特征,进一步增强一致性效果,同时保留预训练模型强大的生成先验的完整性。

如何运行 Edicho

1. 安装依赖

首先,确保你已经安装了 Python 和必要的依赖库。可以通过以下命令安装:

pip install torch torchvision
pip install diffusers

2. 下载预训练模型

从 HuggingFace 下载预训练的扩散模型:

git clone https://github.com/EzioBy/edicho.git
cd edicho

3. 运行示例代码

以下是一个简单的示例代码,展示如何使用 Edicho 进行图像编辑:

import torch
from diffusers import StableDiffusionPipeline

# 加载预训练模型
pipe = StableDiffusionPipeline.from_pretrained("stabilityai/stable-diffusion-2-1")
pipe = pipe.to("cuda")

# 输入图像路径
image_paths = ["image1.jpg", "image2.jpg"]

# 进行一致性编辑
for image_path in image_paths:
    edited_image = pipe(image_path, guidance_scale=7.5).images[0]
    edited_image.save(f"edited_{image_path}")

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
机器学习/深度学习 传感器 算法
【论文速递】AAAI2023 - BEVDepth: 用于多视图三维物体检测的可靠深度采集
【论文速递】AAAI2023 - BEVDepth: 用于多视图三维物体检测的可靠深度采集
|
网络安全 虚拟化 Windows
同一个局域网主机中的一台主机连接另一台主机的虚拟机
同一个局域网主机中的一台主机连接另一台主机的虚拟机
|
18天前
|
编解码 物联网 测试技术
FLUX.2-Klein 4B/9B开源:亚秒级统一图像生成与编辑
Black Forest Labs开源FLUX.2 [klein]模型家族,兼具文生图、图像编辑与多参考生成能力,端到端推理低至0.5秒,4B版本仅需13GB显存,支持消费级GPU高效运行,量化后速度提升最高2.7倍,Apache 2.0许可商用友好。
679 1
|
12月前
|
机器学习/深度学习 编解码
《攻克GANs训练难题:破解模式坍塌迷局》
生成对抗网络(GANs)在图像生成等领域展现巨大潜力,但模式坍塌问题严重影响其性能。模式坍塌指生成器生成的样本多样性急剧降低,仅覆盖部分真实数据分布。原因包括生成器与判别器失衡、损失函数局限性及数据分布复杂性。解决策略涵盖改进训练策略、优化损失函数、增强生成器多样性和利用辅助信息等,通过这些方法可有效缓解模式坍塌,提升GANs的应用效果。
515 16
|
机器学习/深度学习 人工智能 测试技术
扩散模型版CS: GO!世界模型+强化学习:2小时训练登顶Atari 100K
《Diffusion for World Modeling: Visual Details Matter in Atari》提出了一种名为DIAMOND的方法,将扩散模型应用于世界模型构建。该方法在Atari 100K基准测试中仅用2小时训练时间就达到了前所未有的性能水平,平均人类归一化分数达1.46,超过人类水平。DIAMOND通过条件生成、网络预条件和高效采样等设计,提升了视觉细节捕捉、模型稳定性和计算效率。未来研究方向包括连续控制领域应用和更长记忆机制的整合。
304 10
|
监控 网络协议 安全
Socket网络编程中的常见应用场景与实例分析
Socket网络编程中的常见应用场景与实例分析
|
传感器 自动驾驶 安全
计算机视觉在自动驾驶中的应用:技术解析与未来展望
【8月更文挑战第4天】自动驾驶依托计算机视觉实现环境感知与决策,通过目标检测、跟踪及车道识别等技术保障行车安全与效率。面对数据处理、场景理解等挑战,未来技术将持续优化,深化智能驾驶体验,引领交通行业变革。
1111 8
|
SQL 大数据 分布式数据库
SQL与大数据的神秘力量:如何用高效SQL处理海量数据,让你的项目一鸣惊人?
【8月更文挑战第31天】在现代软件开发中,处理海量数据是关键挑战之一。本文探讨了SQL与大数据结合的方法,包括数据类型优化、索引优化、分区优化及分布式数据库应用,并通过示例代码展示了如何实施这些策略。通过遵循最佳实践,如了解查询模式、使用性能工具及定期维护索引,开发者可以更高效地利用SQL处理大规模数据集。随着SQL技术的发展,其在软件开发中的作用将愈发重要。
564 0
|
关系型数据库 MySQL Linux
基于阿里云服务器Linux系统安装Docker完整图文教程(附部署开源项目)
基于阿里云服务器Linux系统安装Docker完整图文教程(附部署开源项目)
2767 3
|
小程序 定位技术
货拉拉货运小程序开发:构建便捷可靠的货运平台
货拉拉货运小程序整合物流服务,用户可录入货物详情、使用地图定位跟踪运输状态;订单管理功能便于查看进度和费用;支持多种支付方式及支付记录查询;评价系统提升服务质量;客服支持确保用户疑问得到解答,打造移动物流新时代。

热门文章

最新文章