为了规避隐私、肖像权等方面的纠纷,该 APP 不支持上传名人照片。因此,机器之心编辑部选取了某粉丝的照片作为换脸素材。
从美剧《生活大爆炸》中截取的动图。
机器之心粉丝换脸后的视频动图。
机器之心粉丝换脸后的吕秀才视频动图。
除了视频之外,该 APP 还有制作 GIF 动图的功能,也就是说,你也可以变身「中年王子晓明哥」了。
用机器之心粉丝照片换脸黄教主经典表情。
机器之心粉丝版「我不要你觉得,我要我觉得」。
由于上传的照片是戴眼镜的,所以换脸后的人物也戴上了眼镜。
除了上面展示的片段之外,这一 APP 还提供了很多其他可以选择的素材,分为合演、换装、名场面、爱豆同台等主题,用户可以自由选择换脸对象。
此前,Deepfakes 视频的火爆引发了对隐私权、肖像权、名誉权等各种法律问题的讨论。因此,这款 APP 对照片源的要求非常严格,鼓励用户使用手机自拍高清照片。而网上下载的名人照片大部分不可以使用。即使是手机上原有的照片也有使用限制,在未进行人脸验证之前只能使用十次。
尝试上传某名人照片之后,APP 跳出以上提示。
但是,让用户上传私人照片的做法不免令人担心,这家公司会如何处置我们上传的照片呢?果然,在《用户协议》里,Zao 明确告知用户:同意上传照片之后,我们怎么用你就管不着了。
《用户协议》里的霸王条款
从《用户协议》里我们可以读出以下信息:
1. 用户上传照片=授权 Zao 使用该照片。而且,其关联公司也享有同样的权利;2. 该授权是免费、不可撤销、永久、可转授权、可再许可的;3.Zao 及其关联公司有权对用户上传的内容进行全部或部分的修改;4.Zao 及其关联公司享有修改后的内容著作权。……
以上只是我们从《用户协议》中读出的部分内容,其中必然还有很多我们没有读出的隐含内容。但仅从目前能理解的部分来看,这一协议也是相当霸道了,部分网友大呼「离谱」。因此,部分法律人士提醒公众:上传照片有风险,要多注意隐私安全。
换脸到底是什么样的操作
尽管「Deepfake」这类应用非常吸引人,但落到实处还是会引发很多的问题,不论是伦理还是隐私。不过机器之心的读者可能更关心它背后的技术,后面我们将介绍生成对抗网络和变分自编码器两种换脸的解决方案,也许大规模应用还能进一步催生效果更好、算力更少的解决方案。
直观而言,GAN 这类生成模型可以生成非常逼真的人脸图像,那么现在需要将某个人的特点迁移到另一张人脸上,这就需要更多的模块来定义需要迁移的位置与特点。
总体上,「Deepfakes」换脸主要分为以下过程:
- 人脸定位
- 人脸转换
- 图像拼接
其中人脸定位已经非常成熟了,一般定位算法可以生成人脸的特征点,例如左右眉毛、鼻子、嘴和下巴等等。人脸转换也就是采用 GAN 或 VAE 等生成模型,它的目标是生成拥有 A 表情的 B 脸。最后的图像拼接则是将人脸融合原图的背景,从而达到只改变人脸的效果。
当然,如果生成 ZAO 这种小视频,那么还需要一帧帧地处理图像,然后再将处理后的结果重新拼接成小视频。
人脸定位
人脸定位也就是抽取原人脸的表情特征,这些特征点大致描述了人脸的器官分布。我们可以直接通过 dlib 和 OpenCV 等主流的工具包直接抽取,但它们一般采用了经典的 HOG 的脸部标记算法。这种算法根据像素亮度差确定一些「箭头」,从而找到人脸显著的特征点。
如上是一些人脸特征点,如果我们像换脸的表情更加真实和准确,那么也可以使用目前主流的人脸识别算法,它利用卷及网络能生成更完美的特征点。但是这类深度模型需要更大的算力,尤其是在处理高分辨率图像时。
人脸转换
后面就是「Deepfake」应用最核心的部分了:换脸。一般我们可以通过 VAE 或 GAN 两种方式实现,这里主要介绍一下它们的思路。
首先对于变分自编码器(VAE),我们知道它希望通过无监督的方式将人脸图像压缩到短向量,再由短向量恢复到人脸图像。这样短向量就包含了人脸图像的主要信息,例如该向量的元素可能表示人脸肤色、眉毛位置、眼睛大小等等。
所以如果我们用某个编码器学习所有人,那么它就能学习到人脸的共性;如果再用某个解码器学习特定的某个人,那么就能学习到他的特性。简单而言,当我们用通用编码器编码人脸 A,再使用特定解码器 B 解码隐藏向量,那么就能生成出拥有 A 的人脸表情,但却是 B 人脸的图像。
这就是 VAE 的解决方案,对于 GAN 来说,它会利用抽取的人脸特征点,然后根据生成器生成对应的目标人脸图像。这时候,编码器同样也会将真实的目标人脸编码,并和生成的目标人脸混合在一起。因此,如果判别器不能区分根据某人特征点生成的人脸和真实人脸有什么区别,那么生成的人脸就非常真实了。
如上所示为论文 Few-Shot Adversarial Learning of Realistic Neural Talking Head Models 的解决方案,它只需要几张目标人脸图,就能根据原人脸的特征点生成极其逼真的效果。
如何识别和应对「Deepfakes」照片或视频?
知道了如何制作换脸视频,我们还要掌握一些识别换脸视频的技术,因为这些换脸技术给大众带来欢乐的同时,也在被不少人滥用。这种滥用不仅给公众人物造成了困扰,甚至还威胁到了普通大众。
如前段时间火爆网络的 DeepDude 应用软件,这款 APP 仅输入一张女性照片,即可借助神经网络自动「脱掉」女性的衣服,从而展现其裸体。这款侵犯女性隐私的 APP 在上线仅数小时后即宣告下架。
虽然这些换脸 APP 会因人们的抵制或其他原因而强制下架,但类似的 APP 还会出现,网络上也依然会充斥着真假难辨的照片或视频。所以,从技术层面来看,我们需要一些方法来帮助识别这些 Deepfake 照片或视频。
不自然的眨眼
由于用来训练神经网络的图像数据往往是睁着眼睛的,因此 Deepfake 视频中人物的眨眼或不眨眼的方式通常是不自然的。
去年,奥尔巴尼大学(University of Albany)的研究人员发表了一篇论文,提出了一种可以检测这种不自然眨眼的技术。有趣的是,这项技术使用的也是深度学习,和制作假视频的技术是一样的。研究人员发现,利用眨眼视频训练出的神经网络可以在视频中定位眨眼片段,找出非自然眨眼运动的一系列帧。结果发现,Deepfake 视频中人物的眨眼不符合正常的生理学规律,由此可以识别出哪些是原始视频,哪些是 Deepfakes 视频。
原始视频(主持人,图上)和 Deepfake 视频(尼古拉斯凯奇,图下)中人物眨眼的检测示例。结果显示,原始视频中 6 秒内可以检测到人物的眨眼,而 Deepfake 视频中 6 秒内未检测到人物眨眼,这不符合生理学规律。
追踪头部运动
每个人都有独特的头部运动(如开始陈述事实时点头)和面部表情(如表达观点时得意得笑),但 Deepfakes 中人物的头部动作和面部表情都是原人物而非目标人物的。
基于此,加州大学伯克利分校的研究者提出了一种检测换脸的 AI 算法。其基本原理是:利用一个人的头部动作和面部表情视频训练一个神经网络,然后拿这个神经网络去检测另一个视频中的人物动作和表情是否属于这个人。模型准确率达到 92%。
(a)原始人物;(b,c)分别是 Deepfake 人物。
制作换脸视频和识别换脸就像一场猫鼠游戏,造假技术日新月异,打假技术也在不断迭代。但仅在技术层面打击这一技术的滥用是不够的,我们还需要法律的支持。
政府会允许此类 Deepfake 应用逍遥法外吗?
Deepfakes 等技术的滥用也引起了各国政府的注意。
今年 6 月,美国民主党众议员 Adam Schiff 在众议院情报委员会听证会上发出警告称,由 Deepfake 生成的视频可能会对 2020 年美国大选产生灾难性影响。因此,他要求国会考虑修改法律,以规定对合理审核做法的豁免权。而与此同时,也有议员提出法案,建议所有 AI 生成的视频都必须打上标记。
今年 7 月,弗吉尼亚州扩大了其「色情报复法」(revenge porn law)范畴,将 deepfake 也包含在内,修正后的法律已于当地时间 7 月 1 日生效。依照新规定,未经当事人允许即分享他人的裸露照片或视频(无论该照片或视频是真实的还是伪造的)属于违法行为,用于「胁迫、骚扰或恐吓」目的将被定为第一类轻罪(Class 1 misdemeanor),最高可判 12 个月的监禁,罚款额高达 2500 美元。
那么国内是否有相关的规定呢?
中华人民共和国《民法通则》第一百条规定,「公民享有肖像权,未经本人同意,不得以营利为目的使用公民的肖像。」
最高人民法院关于贯彻执行《民法通则》若干问题的意见第 139 条规定:以营利为目的,未经公民同意利用其肖像作广告、商标、装饰橱窗等,应当认定为侵犯公民肖像权的行为。
今年 4 月,第十三届全国人大常委会第十次会议审议通过的《民法典人格权编(草案)》中新增加了一条规定,即任何组织或者个人不得以利用*信息技术手段伪造*的方式侵害他人的肖像权。虽然没有明确说明,但这类信息技术手段理应包含 Deepfake 这类换脸应用。
部分人士分析道,Zao 现在也游走在危险地带。虽说它可以自动识别公众人物,但其识别率肯定达不到百分之百。因此,一旦出现相关问题,产生了某些不良影响,被封停或下架也不是没有可能。