【MM2024】阿里云 PAI 团队图像编辑算法论文入选 MM2024

简介: 阿里云人工智能平台 PAI 团队发表的图像编辑算法论文在 MM2024 上正式亮相发表。ACM MM(ACM国际多媒体会议)是国际多媒体领域的顶级会议,旨在为研究人员、工程师和行业专家提供一个交流平台,以展示在多媒体领域的最新研究成果、技术进展和应用案例。其主题涵盖了图像处理、视频分析、音频处理、社交媒体和多媒体系统等广泛领域。此次入选标志着阿里云人工智能平台 PAI 在图像编辑算法方面的研究获得了学术界的充分认可。

近期,阿里云人工智能平台 PAI 团队发表的图像编辑算法论文在 MM2024 上正式亮相发表。ACM MM(ACM国际多媒体会议)是国际多媒体领域的顶级会议,旨在为研究人员、工程师和行业专家提供一个交流平台,以展示在多媒体领域的最新研究成果、技术进展和应用案例。其主题涵盖了图像处理、视频分析、音频处理、社交媒体和多媒体系统等广泛领域。此次入选标志着阿里云人工智能平台 PAI 在图像编辑算法方面的研究获得了学术界的充分认可。

文本到图像合成 (TIS) 已成为计算机视觉与自然语言处理 (NLP) 交叉领域的重要前沿,其能够根据文本描述生成视觉上引人注目的图像。基于文本引导的图像编辑任务使用户能够通过简单的文字描述来指导图像的修改,无需使用复杂的图像编辑软件或具备专业知识即可实现编辑效果。其中 Traing-free 的文本引导图像编辑 (TIE) 已成为一个重要的研究方向,利用预训练的 TIS 模型,直接通过文本提示来编辑图像,用户可以直接输入文本,对图像进行多种编辑操作,包括颜色变化、物体的添加或去除、风格转换等。这种交互式编辑方式显著降低了图像编辑的门槛,使得创意表达变得更加便捷和个性化。
尽管当前的 TIE 算法取得了显著进展,但它们仍存在一些局限性。如图1所示,现有TIE方法在编辑多个对象时面临挑战。多对象编辑的复杂性会导致编辑对象丢失(例如,丢失一个苹果)、属性缺失(例如,斑点)和背景保留不完整等问题。
image.png

图1. 图像编辑的效果对比以及我们提出方法的结果

在本文中,我们提出了 VICTORIA 编辑算法,它利用语言知识来解决在对象场景编辑中因缺失目标(如对象、属性和背景)而导致的问题。VICTORIA 通过分析输入编辑文本中单词之间的依存关系,并将这种关系反映在注意层的中间表示中,从而修正并生成目标图像。图2展示了 VICTORIA 的整体框架。首先,我们通过控制自注意机制来确保原始图像和编辑后图像之间的空间一致性。其次,VICTORIA 分析输入编辑文本中单词之间的依存关系,并在生成目标编辑图像的过程中主动干预交叉注意力图,从而提升目标编辑区域的生成结果。最后,VICTORIA 通过交叉注意图进行图像部分掩码,有效保留原始图像中无需被编辑的区域。
image.png

图 2:VICTORIA 在对图像进行编辑的过程示意图


VICTORIA 伪代码如下:
image.png

图 3:VICTORIA 在合成图像编辑和真实图像编辑场景下的伪代码


图4展示了 VICTORIA 的编辑结果,它成功地修改了原始图像中多个物体的各种属性、风格、场景和类别。
image.png

图 4:VICTORIA 编辑结果示例


图5对比展示了 VICTORIA 与其他一些 SOTA 图像编辑技术的效果。无论是对真实照片还是合成图像,VICTORIA 均展现出了高效的编辑能力。在所有的案例中,VICTORIA 都能够实现与描述提示高度一致的精细编辑,同时最大限度地保留了原图的结构细节。
image.png

图 5:VICTORIA 与其他编辑方法的对比


为了更好地服务开源社区,这一算法的源代码已经贡献在自然语言处理算法框架 EasyNLP 中,欢迎各界从业人员和研究者使用。
阿里云人工智能平台 PAI 长期招聘正式员工/实习生。团队专注于深度学习算法研究与应用,重点聚焦大语言模型和多模态 AIGC 大模型的应用算法研究和应用。简历投递和咨询:chengyu.wcy@alibaba-inc.com。

论文信息

论文名字:Attentive Linguistic Tracking in Diffusion Models for Training-free Text-guided Image Editing

论文作者:刘冰雁、汪诚愚、黄俊、贾奎

论文pdf链接https://openreview.net/pdf?id=efTur2naAS

相关实践学习
使用PAI+LLaMA Factory微调Qwen2-VL模型,搭建文旅领域知识问答机器人
使用PAI和LLaMA Factory框架,基于全参方法微调 Qwen2-VL模型,使其能够进行文旅领域知识问答,同时通过人工测试验证了微调的效果。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
5月前
|
机器学习/深度学习 算法 机器人
【水下图像增强融合算法】基于融合的水下图像与视频增强研究(Matlab代码实现)
【水下图像增强融合算法】基于融合的水下图像与视频增强研究(Matlab代码实现)
541 0
|
7月前
|
编解码 算法
改进SIFT算法实现光学图像和SAR图像配准
改进SIFT算法实现光学图像和SAR图像配准
|
5月前
|
机器学习/深度学习 算法 自动驾驶
基于导向滤波的暗通道去雾算法在灰度与彩色图像可见度复原中的研究(Matlab代码实现)
基于导向滤波的暗通道去雾算法在灰度与彩色图像可见度复原中的研究(Matlab代码实现)
311 8
|
6月前
|
存储 监控 算法
基于文化优化算法图像量化(Matlab代码实现)
基于文化优化算法图像量化(Matlab代码实现)
296 1
|
6月前
|
存储 算法 生物认证
基于Zhang-Suen算法的图像细化处理FPGA实现,包含testbench和matlab验证程序
本项目基于Zhang-Suen算法实现图像细化处理,支持FPGA与MATLAB双平台验证。通过对比,FPGA细化效果与MATLAB一致,可有效减少图像数据量,便于后续识别与矢量化处理。算法适用于字符识别、指纹识别等领域,配套完整仿真代码及操作说明。
|
6月前
|
机器学习/深度学习 监控 并行计算
【图像增强】局部对比度增强的CLAHE算法直方图增强研究(Matlab代码实现)
【图像增强】局部对比度增强的CLAHE算法直方图增强研究(Matlab代码实现)
739 0
|
8月前
|
机器学习/深度学习 监控 算法
基于单尺度Retinex和多尺度Retinex的图像增强算法实现
基于单尺度Retinex(SSR)和多尺度Retinex(MSR)的图像增强算法实现
976 1
|
8月前
|
存储 算法 数据安全/隐私保护
基于FPGA的图像退化算法verilog实现,分别实现横向和纵向运动模糊,包括tb和MATLAB辅助验证
本项目基于FPGA实现图像运动模糊算法,包含横向与纵向模糊处理流程。使用Vivado 2019.2与MATLAB 2022A,通过一维卷积模拟点扩散函数,完成图像退化处理,并可在MATLAB中预览效果。
|
9月前
|
算法 数据安全/隐私保护
基于混沌加密的遥感图像加密算法matlab仿真
本项目实现了一种基于混沌加密的遥感图像加密算法MATLAB仿真(测试版本:MATLAB2022A)。通过Logistic映射与Baker映射生成混沌序列,对遥感图像进行加密和解密处理。程序分析了加解密后图像的直方图、像素相关性、信息熵及解密图像质量等指标。结果显示,加密图像具有良好的随机性和安全性,能有效保护遥感图像中的敏感信息。该算法适用于军事、环境监测等领域,具备加密速度快、密钥空间大、安全性高的特点。

热门文章

最新文章

相关产品

  • 人工智能平台 PAI