备案控制台

开发者社区机器之心文章正文

有手就行？把大象P转身只需拖动鼠标，华人一作DragGAN爆火（2）

2023-05-26 155

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 有手就行？把大象P转身只需拖动鼠标，华人一作DragGAN爆火

定性评估

图 4 是本文方法和 UserControllableLT 之间的定性比较，展示了几个不同物体类别和用户输入的图像操纵结果。本文方法能够准确地移动操纵点以到达目标点，实现了多样化和自然的操纵效果，如改变动物的姿势、汽车形状和景观布局。相比之下，UserControllableLT 不能忠实地将操纵点移动到目标点上，往往会导致图像中出现不想要的变化。

如图 10 所示，它也不能像本文方法那样保持未遮盖区域固定不变。

图 6 提供了与 PIPs 和 RAFT 之间的比较，本文方法准确地跟踪了狮子鼻子上方的操纵点，从而成功地将它拖到了目标位置。

真实图像编辑。使用 GAN inversion 技术，将真实图像嵌入 StyleGAN 的潜空间，本文方法也可以用来操作真实图像。

图 5 显示了一个例子，将 PTI inversion 应用于真实图像，然后进行一系列的操作来编辑图像中人脸的姿势、头发、形状和表情：

图 13 展示了更多的真实图像编辑案例：

定量评估

研究者在两种设置中下对该方法进行了定量评估，包括人脸标记点操作和成对图像重建。

人脸标记点操作。如表 1 所示，在不同的点数下，本文方法明显优于 UserControllableLT。特别是，本文方法保留了更好的图像质量，正如表中的 FID 得分所示。

这种对比在图 7 中可以明显看出来，本文方法打开了嘴巴并调整下巴的形状以匹配目标脸，而 UserControllableLT 未能做到这一点。

成对图像重建。如表 2 所示，本文方法在不同的目标类别中优于所有基线。

消融实验

研究者研究了在运动监督和点跟踪中使用某种特征的效果，并报告了使用不同特征的人脸标记点操作的性能（MD）。如表 3 所示，在运动监督和点跟踪中，StyleGAN 的第 6 个 block 之后的特征图表现最好，显示了分辨率和辨别力之间的最佳平衡。

表 4 中提供了𝑟_1 的效果。可以看出，性能对𝑟_1 的选择不是很敏感，而𝑟_1=3 的性能略好。

讨论

掩码的影响。本文方法允许用户输入一个表示可移动区域的二进制掩码，图 8 展示了它的效果：

Out-of-distribution 操作。从图 9 可以看出，本文的方法具有一定的 out-of-distribution 能力，可以创造出训练图像分布之外的图像，例如一个极度张开的嘴和一个大的车轮。

研究者同样指出了本文方法现存的局限性：尽管有一些推断能力，其编辑质量仍然受到训练数据多样性的影响。如图 14（a）所示，创建一个偏离训练分布的人体姿势会导致伪影。此外，如图 14（b）和（c）所示，无纹理区域的操纵点有时会在追踪中出现更多的漂移。因此，研究者建议尽可能挑选纹理丰富的操纵点。

文章标签：

编解码

机器学习/深度学习

-开发达人-

目录

相关文章

周周的奇妙编程

|

对象存储

七夕快到了，来创造一副浪漫的鹊桥插画吧

本次通过加载和推理SD模型对象存储OSS Bucket，挂载到PAI-EAS服务，实现模型部署，加载和推理SD模型，制作属于自己的七夕画作。

周周的奇妙编程

133 2 2

-开发达人-

|

机器学习/深度学习计算机视觉网络架构

有手就行？把大象P转身只需拖动鼠标，华人一作DragGAN爆火（1）

有手就行？把大象P转身只需拖动鼠标，华人一作DragGAN爆火

-开发达人-

189 0 0

是Dream呀

|

编译器 Python

圣诞节来了，怎能还没有圣诞树呢快来为心爱的她送上专属的圣诞礼物叭~

圣诞节来了，怎能还没有圣诞树呢快来为心爱的她送上专属的圣诞礼物叭~

是Dream呀

189 0 0

圣诞节来了，怎能还没有圣诞树呢快来为心爱的她送上专属的圣诞礼物叭~

技术小达人

|

安全 5G 芯片

马斯克给猫咪造窝？

马斯克给猫咪造窝？

技术小达人

176 0 0

-开发达人-

|

机器学习/深度学习人工智能自然语言处理

无人车的眼睛、UP主的生产力工具，都藏在百度CVPR的这十个冠军里

CVPR 上诞生的技术正在逐渐「出圈」。

-开发达人-

173 0 0

码农小达人

|

人工智能机器人语音技术

爷青回！AI“复活”韩国传奇乐队主唱，全息投影合体表演感动无数网友

爷青回！AI“复活”韩国传奇乐队主唱，全息投影合体表演感动无数网友

码农小达人

344 0 0

乔川

|

机器学习/深度学习安全大数据

【云周刊】第123期：AlphaGo虽然赢了，但有人却说它其实挺“笨”的

AlphaGo虽然赢了，但为什么还是有人说它“笨”呢；谁说“Java已经死了”？听豆子科技首席架构师聊聊Java的纯真年代；成都云栖大会没去成？没关系，我们帮你荟萃了所有大会干货，速速来看！

乔川

11780 0 2

玄学酱

【IT背包客】第2期 | 乐活春天，赴绿色之约

玄学酱

807 0 0

行者武松

|

机器人物联网

脑洞故事|万圣节的起源并非恶魔，而是M星系机器人！

行者武松

769 0 0

行者武松

|

UED

「人物特写」酷派重走高端市场，能否王者归来？

行者武松

1398 0 0

热门文章

最新文章

解决kafka集群由于默认的__consumer_offsets这个topic的默认的副本数为1而存在的单点故障问题

oracle 11g 11204补丁信息

Python 命令行之旅：初探 docopt

时间之箭源于量子纠缠？

输入输出流体系图

Windows Server 2008 R2下部署OCS 2007 R2 边缘服务器

从码农到设计者，从单例模式入手设计代码

瑞典力推储能助太阳能发电计划落实

十张图告诉你互联网发展的八大趋势

第7周-任务3-复数模板类

DeepSeek——DeepSeek模型部署实战

基于FPGA的图像双线性插值算法verilog实现,包括tb测试文件和MATLAB辅助验证

基于电导增量MPPT控制算法的光伏发电系统simulink建模与仿真

基于排队理论的客户结账等待时间MATLAB模拟仿真

3天功能开发→3小时：通义灵码2.0+DEEPSEEK实测报告，单元测试生成准确率92%的秘密

Sentinel监测到了服务，但是实时监控不显示曲线图，应该怎么解决这个问题？

通义灵码 2.0 体验报告：AI 赋能智能研发的新范式

通义灵码 2.0 体验报告：AI 赋能智能研发的新范式

类和对象的简述（c++篇）

模拟实现c++中的vector模版

相关课程

更多

跨越N次元一键变身AI漫画人

智能创作赛（复赛）：相册应用中的视频故事生成算法介绍

智能创作赛（初赛）：相册应用中的故事生成算法介绍

场景实践 -新手玩转云计算制作一个浪漫的表白网页

【科技少年】“天池杯”AI领航计划·高级挑战教程（赛题及baseline解读）

重庆烟草2024年度全市系统网信素养能力提升轮训（第二期）暨数字创新培训班

相关电子书

更多

当“喜马拉雅”遇上“淘富成真”

《长安十二时辰》

用自己的眼睛寻找个人成长之路

相关实验场景

更多

英语口语练习搭子

奥运时刻！零代码生成奥运风格AI写真。

【AI破次元壁合照】少年白马醉春风，函数计算一键部署AI绘画平台

在PAI ArtLab一键实现欧洲杯粉丝专属贴纸制作

基于阿里云DeepGPU实例，用AI画唯美国风少女

重温童年的“五子棋”，赢取专属阿里云Serverless证书

下一篇

PAI Model Gallery 支持云上一键部署 DeepSeek-V3、DeepSeek-R1 系列模型