「拖拽」就能实现精准P图的DragGAN,论文作者亲自揭秘技术了

简介: 「拖拽」就能实现精准P图的DragGAN,论文作者亲自揭秘技术了



在图像生成领域,以 Stable Diffusion 为代表的扩散模型已然成为当前占据主导地位的范式。但扩散模型依赖迭代推理,虽然此方法可以实现具有简单目标的稳定训练,但推理过程需要高昂的计算成本。

在 Stable Diffusion 之前,生成对抗网络(GAN)是图像生成模型中常用的基础架构。相比于扩散模型,GAN 通过单个前向传递生成图像,因此本质上是更高效的。但由于训练过程的不稳定性,扩展 GAN 需要仔细调整网络架构和训练因素。因此,GAN 方法很难扩展到非常复杂的数据集上,这是 GAN 式微的原因之一。

当前,GAN 主要是通过手动注释训练数据或先验 3D 模型来保证其可控性,这通常缺乏灵活性、精确性和通用性。然而,一些研究者看重 GAN 在图像生成上的高效性,做出了许多改进 GAN 的尝试。

其中,来自马克斯普朗克计算机科学研究所、MIT CSAIL 和谷歌等机构的研究者们提出了一种强大的控制 GANs 的方式,即以用户交互的方式拖动图像的任何关键点以精确到达目标点。

为了实现这一点,该研究提出了 DragGAN,它包含两个主要组成部分:1)基于特征的运动监督,用于驱动关键点向目标位置移动;2)一种新的点追踪方法,利用 GAN 的特征来定位关键点的位置。

通过 DragGAN,任何人都可以精确控制像素的移动位置来变形图像,从而操控各种空间属性,如动物、汽车、人类、风景等的姿态、形状、表情和布局。由于这些操控在 GAN 的生成图像流形上进行,因此 DragGAN 可以生成被遮挡的内容和以及保证物体的形变符合物体的结构。定性和定量比较都表明,DragGAN 在图像操控和点追踪任务上优于先前的方法。此外,该研究还展示了通过 GAN 重建操控真实图像的例子。

为了让大家更好的了解这一研究,机器之心最新一期线上分享邀请到了 DragGAN 论文第一作者潘新钢,通过本次分享,大家可以更深入的了解这一项研究。

相关文章
|
2天前
|
机器学习/深度学习 人工智能 文字识别
文档图像智能分析与处理:CCIG技术论坛的思考与展望
文档图像智能分析与处理:CCIG技术论坛的思考与展望
78 1
文档图像智能分析与处理:CCIG技术论坛的思考与展望
|
2天前
|
机器学习/深度学习 人工智能
可控图像生成最新综述!北邮开源20页249篇文献,包揽Text-to-Image Diffusion领域各种条件
【2月更文挑战第29天】北京邮电大学研究人员发表了一篇关于文本到图像扩散模型的综述论文,探讨了该技术在可控图像生成方面的最新进展。论文介绍了DDPMs基础理论,并详述了如何通过引入条件来提升生成图像的精确控制。研究者提出条件生成的三种类别,分析了核心理论机制,并创建了一个包含249篇相关文献的GitHub仓库,促进学术交流。尽管取得显著成就,但模型仍面临语义一致性、处理复杂文本描述和效率提升等挑战。论文链接:https://arxiv.org/abs/2403.04279
37 1
可控图像生成最新综述!北邮开源20页249篇文献,包揽Text-to-Image Diffusion领域各种条件
|
2天前
|
数据采集 自然语言处理 前端开发
让大模型分析csdn文章质量 —— 提取csdn博客评论在文心一言分析评论区内容
让大模型分析csdn文章质量 —— 提取csdn博客评论在文心一言分析评论区内容
26 6
|
2天前
|
机器学习/深度学习 自然语言处理 知识图谱
万字综述:2023年多模态检索增强生成技术(mRAG)最新进展与趋势-图片、代码、图谱、视频、声音、文本
综述多模态检索增强生成技术(mRAG)最新进展与趋势-图片、代码、图谱、视频、声音、文本。
|
2天前
|
存储 数据采集 人工智能
深度探索Aidlux智慧教育中的图像版面分析应用实践
本文详细描述了智慧教育领域的版面分析应用的人工智能训练营项目。项目的目标是构建一个高效的文档图像处理系统,实现文档对象识别和分类,并探索了组卷、以题搜题、文档电子化存储、结构化解析等功能。通过训练模型、实践应用和模型部署验证,分享了在该项目中所获得的见解和心得。
62 0
|
2天前
|
SEO
技术写作:漏斗内容策略、认知博客、支柱内容、研究报告、通用门控内容、电子书和教程
顶部漏斗是指客户旅程中的认知阶段,他们第一次接触到企业或产品。在这个阶段,他们意识到自己存在问题,并开始寻找信息或解决方案。此阶段的内容旨在通过提供与他们的问题相关的解决方案或有价值的信息来吸引潜在客户的注意力和兴趣。这种内容通常是广泛而丰富的,而不是针对产品的。其目的是在建立信任和品牌权威的同时,告知和教育受众。
79 5
|
2天前
Visio绘制论文文献技术路线图流程图
Visio绘制论文文献技术路线图流程图
105 1
|
9月前
|
算法 计算机视觉
一种新的基于区域的在线活动轮廓模型研究(Matlab代码实现)
一种新的基于区域的在线活动轮廓模型研究(Matlab代码实现)
|
11月前
|
数据可视化 数据挖掘 C++
RNAseq|WGCNA-组学数据黏合剂,代码实战-一(尽)文(力)解决文献中常见的可视化图
RNAseq|WGCNA-组学数据黏合剂,代码实战-一(尽)文(力)解决文献中常见的可视化图
186 0