「拖拽」就能实现精准P图的DragGAN,论文作者亲自揭秘技术了

简介: 「拖拽」就能实现精准P图的DragGAN,论文作者亲自揭秘技术了



在图像生成领域,以 Stable Diffusion 为代表的扩散模型已然成为当前占据主导地位的范式。但扩散模型依赖迭代推理,虽然此方法可以实现具有简单目标的稳定训练,但推理过程需要高昂的计算成本。

在 Stable Diffusion 之前,生成对抗网络(GAN)是图像生成模型中常用的基础架构。相比于扩散模型,GAN 通过单个前向传递生成图像,因此本质上是更高效的。但由于训练过程的不稳定性,扩展 GAN 需要仔细调整网络架构和训练因素。因此,GAN 方法很难扩展到非常复杂的数据集上,这是 GAN 式微的原因之一。

当前,GAN 主要是通过手动注释训练数据或先验 3D 模型来保证其可控性,这通常缺乏灵活性、精确性和通用性。然而,一些研究者看重 GAN 在图像生成上的高效性,做出了许多改进 GAN 的尝试。

其中,来自马克斯普朗克计算机科学研究所、MIT CSAIL 和谷歌等机构的研究者们提出了一种强大的控制 GANs 的方式,即以用户交互的方式拖动图像的任何关键点以精确到达目标点。

为了实现这一点,该研究提出了 DragGAN,它包含两个主要组成部分:1)基于特征的运动监督,用于驱动关键点向目标位置移动;2)一种新的点追踪方法,利用 GAN 的特征来定位关键点的位置。

通过 DragGAN,任何人都可以精确控制像素的移动位置来变形图像,从而操控各种空间属性,如动物、汽车、人类、风景等的姿态、形状、表情和布局。由于这些操控在 GAN 的生成图像流形上进行,因此 DragGAN 可以生成被遮挡的内容和以及保证物体的形变符合物体的结构。定性和定量比较都表明,DragGAN 在图像操控和点追踪任务上优于先前的方法。此外,该研究还展示了通过 GAN 重建操控真实图像的例子。

为了让大家更好的了解这一研究,机器之心最新一期线上分享邀请到了 DragGAN 论文第一作者潘新钢,通过本次分享,大家可以更深入的了解这一项研究。

相关文章
|
6月前
|
数据可视化 数据挖掘
【视频】复杂网络分析CNA简介与R语言对婚礼数据聚类社区检测和可视化|数据分享
【视频】复杂网络分析CNA简介与R语言对婚礼数据聚类社区检测和可视化|数据分享
|
6月前
|
自然语言处理 数据可视化 算法
【传知代码】私人订制词云图-论文复现
本文介绍了词云图的原理和生成步骤,包括分词、统计词频、去除停用词等,并提供了Python实现示例,利用`wordcloud`和`jieba`库。此外,还分享了技巧,如处理中文乱码、选择背景图、词库转换及自定义文字颜色。词云图能直观展示文本关键信息,适用于数据分析和文本挖掘,但也有其局限性,如无法显示词汇的语法关系。源码和更多资源可在文章附件获取。
【传知代码】私人订制词云图-论文复现
|
6月前
|
数据采集 自然语言处理 前端开发
让大模型分析csdn文章质量 —— 提取csdn博客评论在文心一言分析评论区内容
让大模型分析csdn文章质量 —— 提取csdn博客评论在文心一言分析评论区内容
100 6
|
6月前
|
SEO
技术写作:漏斗内容策略、认知博客、支柱内容、研究报告、通用门控内容、电子书和教程
顶部漏斗是指客户旅程中的认知阶段,他们第一次接触到企业或产品。在这个阶段,他们意识到自己存在问题,并开始寻找信息或解决方案。此阶段的内容旨在通过提供与他们的问题相关的解决方案或有价值的信息来吸引潜在客户的注意力和兴趣。这种内容通常是广泛而丰富的,而不是针对产品的。其目的是在建立信任和品牌权威的同时,告知和教育受众。
104 5
|
6月前
Visio绘制论文文献技术路线图流程图
Visio绘制论文文献技术路线图流程图
195 1
|
机器学习/深度学习 算法 PyTorch
Python实现替换照片人物背景,精细到头发丝(附上代码) | 机器学习(1)
Python实现替换照片人物背景,精细到头发丝(附上代码) | 机器学习
Python实现替换照片人物背景,精细到头发丝(附上代码) | 机器学习(1)
|
数据可视化 数据挖掘 C++
RNAseq|WGCNA-组学数据黏合剂,代码实战-一(尽)文(力)解决文献中常见的可视化图
RNAseq|WGCNA-组学数据黏合剂,代码实战-一(尽)文(力)解决文献中常见的可视化图
278 0
|
机器学习/深度学习 数据可视化 数据挖掘
精心整理(含图版)|R语言生信分析,可视化,你要的全拿走,建议收藏!
精心整理(含图版)|R语言生信分析,可视化,你要的全拿走,建议收藏!
425 0
|
存储 SQL 监控
《图可视化有点意思-十吾》演讲视频 + 文字版
《图可视化有点意思-十吾》演讲视频 + 文字版
183 0
|
机器学习/深度学习 算法 计算机视觉
CVPR 2022 | 实时渲染、可直接编辑,中科大提出高保真人头参数化模型HeadNeRF
CVPR 2022 | 实时渲染、可直接编辑,中科大提出高保真人头参数化模型HeadNeRF
246 0
下一篇
无影云桌面