【MM2024】面向 StableDiffusion 的多目标图像编辑算法 VICTORIA

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型训练 PAI-DLC,100CU*H 3个月
简介: 阿里云人工智能平台 PAI 团队与华南理工大学合作在国际多媒体顶级会议 ACM MM2024 上发表 VICTORIA 算法,这是一种面向 StableDiffusion 的多目标图像编辑算法。VICTORIA 通过文本依存关系来修正图像编辑过程中的交叉注意力图,从而确保关系对象的一致性,支持用户通过修改描述性提示一次性编辑多个目标。

近日,阿里云人工智能平台 PAI 团队与华南理工大学合作在国际多媒体顶级会议 ACM MM2024 上发表 VICTORIA 算法,这是一种面向 StableDiffusion 的多目标图像编辑算法。VICTORIA 通过文本依存关系来修正图像编辑过程中的交叉注意力图,从而确保关系对象的一致性,支持用户通过修改描述性提示一次性编辑多个目标。

论文:
Bingyan Liu, Chengyu Wang, Jun Huang, Kui Jia. Attentive Linguistic Tracking in Diffusion Models for Training-free Text-guided Image Editing. ACM MM 2024

背景

近年来,文本到图像合成(TIS)模型,尤其是如 Stable Diffusion、DALL-E 2和 Imagen 等,展现出卓越的性能,并在学术界和工业界中引起了广泛关注。这些模型利用大规模的图像-文本对数据集进行训练,并结合先进的技术,比如大规模预训练语言模型、变分自编码器和扩散模型,能够生成高质量的图像。此外,这些 TIS 模型还具备强大的图像编辑能力。

文本引导图像编辑(TIE)已成为一个重要的研究方向,其中的零样本图像编辑算法可以直接利用预训练的文图生成模型来完成图像编辑任务。当前,无需再进行训练的 TIE 技术在图像转换、风格转换与视觉属性修改等方面表现出色,同时有效保留了原始图像的结构与构图完整性。例如,Prompt-to-Prompt 的方法通过替换源提示中与目标编辑词相关的交叉注意图(CAM),来精准修改图像的特定区域。同时,InstructPix2Pix 方法则通过使用P2P生成的图像创建图像转换训练数据集,以提升基于指令的模型性能。

尽管现有的TIE算法取得了一定的成果,但依然存在一些局限性。如图1所示,现有流行的 TIE 方法在对图像中的多个对象进行编辑时,往往会面临一些挑战,主要体现在对象丢失(如丢失苹果)、对象属性缺失(如斑点)以及背景表达不完整等问题。这些编辑准确性的缺陷往往是由于交叉注意力层在表示多个对象时的精确度不足所导致的。解决这些问题将是未来研究的重要方向,以进一步提升图像编辑的效果和质量。
image.png

图1. 图像编辑的效果对比以及我们提出方法的结果


在本论文中,我们重点介绍了 VIOTRIA 编辑算法,它应用语言知识来应对对象场景编辑中因目标缺失(如对象、属性和背景)所引发的问题。VICTORIA 通过分析编辑文本中单词之间的依存关系,将这种关系融入注意力机制的中间表示中,从而修正并生成所需的目标图像。实验结果显示,VICTORIA 在新的及现有的公共基准数据集上均表现优异,能够实现更精确的编辑对齐。


#算法架构
图2展示了 VICTORIA 的整体框架。首先,确保图像之间的空间一致性至关重要,我们通过控制自注意机制来实现这一目标。其次,VICTORIA 分析输入编辑文本中单词之间的依存关系,并在生成目标编辑图像的过程中主动干预交叉注意力图来丰富了编辑区域的生成结果。最后,VICTORIA 通过提取编辑对象相关的交叉注意图并转换掩码,有效保留图像中未被编辑的区域。
image.png


图 2:VICTORIA 在对图像进行编辑的过程示意图


##自注意控制源图像结构保留
image.png

##语言链接增强
image.png

image.png


##语言混合掩码
image.png
##算法伪代码
将上述技术融合,算法为代码如下:
image.png


图 3:VICTORIA在合成图像编辑和真实图像编辑场景下的伪代码

实验结果

图4展示了 VICTORIA 的编辑结果,它成功地修改了原始图像的中多个对象的属性、风格、场景和类别。
image.png

图 4:VICTORIA 编辑结果示例


图5对比展示了 VICTORIA 与其他一些 SOTA 图像编辑技术的效果。在所有的案例中,VICTORIA 都能够实现与描述提示高度一致的精细编辑,同时最大限度地保留了原图的结构细节。
image.png

图 5:VICTORIA 与其他编辑方法的对比


下表展示了不同编辑算法在多个基准数据集上的定量实验结果。可以看出,我们的方法在 CDS 指标方面明显优于所有其他方法,这表明我们的方法能够很好地保留原始图像的空间结构,并根据目标提示的要求进行编辑。
image.png

更多的实验结果及讨论,欢迎阅读论文:
Attentive Linguistic Tracking in Diffusion Models for Training-free Text-guided Image Editing。
目前 VICTORIA 已经在 EasyNLP开源:https://github.com/alibaba/EasyNLP/tree/master/diffusion/VICTORIA
欢迎广大用户试用!
阿里云人工智能平台 PAI 长期招聘正式员工/实习生。团队专注于深度学习算法研究与应用,重点聚焦大语言模型和多模态 AIGC 大模型的应用算法研究和应用。简历投递和咨询:chengyu.wcy@alibaba-inc.com

参考文献

  • Rombach R, Blattmann A, Lorenz D, et al. High-resolution image synthesis with latent diffusion models[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022: 10684-10695.

  • Hertz A, Mokady R, Tenenbaum J, et al. Prompt-to-prompt image editing with cross attention control[J]. arXiv preprint arXiv:2208.01626, 2022.

  • Tumanyan N, Geyer M, Bagon S, et al. Plug-and-play diffusion features for text-driven image-to-image translation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023: 1921-1930.

  • Meng, Chenlin et al. “SDEdit: Guided Image Synthesis and Editing with Stochastic Differential Equations.” International Conference on Learning Representations (2021).

  • Parmar G, Kumar Singh K, Zhang R, et al. Zero-shot image-to-image translation[C]//ACM SIGGRAPH 2023 Conference Proceedings. 2023: 1-11.

  • Rassin R, Hirsch E, Glickman D, et al. Linguistic binding in diffusion models: Enhancing attribute correspondence through attention map alignment[J]. Advances in Neural Information Processing Systems, 2024, 36.

    论文信息

  • 论文名字:Attentive Linguistic Tracking in Diffusion Models for Training-free Text-guided Image Editing
  • 论文作者:刘冰雁、汪诚愚、黄俊、贾奎
  • 论文pdf链接:https://openreview.net/pdf?id=efTur2naAS
相关实践学习
使用PAI-EAS一键部署ChatGLM及LangChain应用
本场景中主要介绍如何使用模型在线服务(PAI-EAS)部署ChatGLM的AI-Web应用以及启动WebUI进行模型推理,并通过LangChain集成自己的业务数据。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
【MM2024】阿里云 PAI 团队图像编辑算法论文入选 MM2024
阿里云人工智能平台 PAI 团队发表的图像编辑算法论文在 MM2024 上正式亮相发表。ACM MM(ACM国际多媒体会议)是国际多媒体领域的顶级会议,旨在为研究人员、工程师和行业专家提供一个交流平台,以展示在多媒体领域的最新研究成果、技术进展和应用案例。其主题涵盖了图像处理、视频分析、音频处理、社交媒体和多媒体系统等广泛领域。此次入选标志着阿里云人工智能平台 PAI 在图像编辑算法方面的研究获得了学术界的充分认可。
【MM2024】阿里云 PAI 团队图像编辑算法论文入选 MM2024
|
2月前
|
算法 数据安全/隐私保护
织物图像的配准和拼接算法的MATLAB仿真,对比SIFT,SURF以及KAZE
本项目展示了织物瑕疵检测中的图像拼接技术,使用SIFT、SURF和KAZE三种算法。通过MATLAB2022a实现图像匹配、配准和拼接,最终检测并分类织物瑕疵。SIFT算法在不同尺度和旋转下保持不变性;SURF算法提高速度并保持鲁棒性;KAZE算法使用非线性扩散滤波器构建尺度空间,提供更先进的特征描述。展示视频无水印,代码含注释及操作步骤。
|
3月前
|
算法 数据可视化 数据安全/隐私保护
基于LK光流提取算法的图像序列晃动程度计算matlab仿真
该算法基于Lucas-Kanade光流方法,用于计算图像序列的晃动程度。通过计算相邻帧间的光流场并定义晃动程度指标(如RMS),可量化图像晃动。此版本适用于Matlab 2022a,提供详细中文注释与操作视频。完整代码无水印。
|
17天前
|
算法
基于WOA算法的SVDD参数寻优matlab仿真
该程序利用鲸鱼优化算法(WOA)对支持向量数据描述(SVDD)模型的参数进行优化,以提高数据分类的准确性。通过MATLAB2022A实现,展示了不同信噪比(SNR)下模型的分类误差。WOA通过模拟鲸鱼捕食行为,动态调整SVDD参数,如惩罚因子C和核函数参数γ,以寻找最优参数组合,增强模型的鲁棒性和泛化能力。
|
23天前
|
机器学习/深度学习 算法 Serverless
基于WOA-SVM的乳腺癌数据分类识别算法matlab仿真,对比BP神经网络和SVM
本项目利用鲸鱼优化算法(WOA)优化支持向量机(SVM)参数,针对乳腺癌早期诊断问题,通过MATLAB 2022a实现。核心代码包括参数初始化、目标函数计算、位置更新等步骤,并附有详细中文注释及操作视频。实验结果显示,WOA-SVM在提高分类精度和泛化能力方面表现出色,为乳腺癌的早期诊断提供了有效的技术支持。
|
3天前
|
供应链 算法 调度
排队算法的matlab仿真,带GUI界面
该程序使用MATLAB 2022A版本实现排队算法的仿真,并带有GUI界面。程序支持单队列单服务台、单队列多服务台和多队列多服务台三种排队方式。核心函数`func_mms2`通过模拟到达时间和服务时间,计算阻塞率和利用率。排队论研究系统中顾客和服务台的交互行为,广泛应用于通信网络、生产调度和服务行业等领域,旨在优化系统性能,减少等待时间,提高资源利用率。
|
10天前
|
存储 算法
基于HMM隐马尔可夫模型的金融数据预测算法matlab仿真
本项目基于HMM模型实现金融数据预测,包括模型训练与预测两部分。在MATLAB2022A上运行,通过计算状态转移和观测概率预测未来值,并绘制了预测值、真实值及预测误差的对比图。HMM模型适用于金融市场的时间序列分析,能够有效捕捉隐藏状态及其转换规律,为金融预测提供有力工具。
|
19天前
|
算法
基于GA遗传算法的PID控制器参数优化matlab建模与仿真
本项目基于遗传算法(GA)优化PID控制器参数,通过空间状态方程构建控制对象,自定义GA的选择、交叉、变异过程,以提高PID控制性能。与使用通用GA工具箱相比,此方法更灵活、针对性强。MATLAB2022A环境下测试,展示了GA优化前后PID控制效果的显著差异。核心代码实现了遗传算法的迭代优化过程,最终通过适应度函数评估并选择了最优PID参数,显著提升了系统响应速度和稳定性。
|
10天前
|
机器学习/深度学习 算法 信息无障碍
基于GoogleNet深度学习网络的手语识别算法matlab仿真
本项目展示了基于GoogleNet的深度学习手语识别算法,使用Matlab2022a实现。通过卷积神经网络(CNN)识别手语手势,如"How are you"、"I am fine"、"I love you"等。核心在于Inception模块,通过多尺度处理和1x1卷积减少计算量,提高效率。项目附带完整代码及操作视频。
|
16天前
|
算法
基于WOA鲸鱼优化的购售电收益与风险评估算法matlab仿真
本研究提出了一种基于鲸鱼优化算法(WOA)的购售电收益与风险评估算法。通过将售电公司购售电收益风险计算公式作为WOA的目标函数,经过迭代优化计算出最优购电策略。实验结果表明,在迭代次数超过10次后,风险价值收益优化值达到1715.1万元的最大值。WOA还确定了中长期市场、现货市场及可再生能源等不同市场的最优购电量,验证了算法的有效性。核心程序使用MATLAB2022a实现,通过多次迭代优化,实现了售电公司收益最大化和风险最小化的目标。
下一篇
DataWorks