通过使用两个神经网络的相互对抗,Ian Goodfellow创造了一个强大的AI工具。而现在,他以及我们所有人都必须开始面对其所带来的后果了。
*本文系mit technology review的人物特写,希望阅读英文原文的读者请拉至文末查看原文链接。
2014年的一晚,Ian Goodfellow和一个刚刚毕业的博士生一起喝酒庆祝。在蒙特利尔一个酒吧,一些朋友希望他能帮忙看看手头上一个棘手的项目:计算机如何自己生成图片。
研究人员已经使用了神经网络(模拟人脑的神经元网络的一种算法),作为生成模型来创造合理的新数据。但结果往往不尽人意。计算机生成的人脸图像通常不是模糊不清,就是缺耳少鼻。
Ian Goodfellow朋友们提出的方案是对那些组成图片的元素进行复杂的统计分析以帮助机器自己生成图片。这需要进行大量的数据运算,Ian Goodfellow告诉他们这根本行不通。
边喝啤酒边思考问题时,他突然有了一个想法。如果让两个神经网络相互对抗会出现什么结果呢?他的朋友对此持怀疑态度。
当他回到家,他女朋友已经熟睡,他决定马上实验自己的想法。那天他一直写代码写到凌晨,然后进行测试。第一次运行就成功了!
那天晚上他提出的方法现在叫做GAN,即生成对抗网络(generative adversarial network)。
该方法已经在机器学习领域产生了巨大的影响,也让他的创造者Goodfellow成为了人工智能界的重要人物。
在最近几年,通过深度学习技术,AI研究人员取得了令人瞩目的进展。向深度学习系统输入足够的图像,它就能进行学习,比如识别出一个将要过马路的行人。这一技术使得自动驾驶技术,Alexa、Siri等会话技术支持的虚拟助手成为可能。
这标志着无监督学习的一大飞跃
虽然使用深度学习的人工智能工具们能够学习如何识别事物,但它们并不擅长创造事物。而GANs的目标就是赋予计算机类似于想象力的东西。
要实现这一功能并不是简单的让它们能够画漂亮的图片或者谱优美的歌曲,而是要让它们尽量少的依赖人类来告诉它们世界该是什么样子以及它们该怎么工作。
如今,AI程序员通常需要明确告诉机器输入的训练数据是什么,即一百万张图片中哪些图片是过马路的行人以及哪些不是。而这样的过程不仅花费极大,需要大量人工参与,还限制了系统对于一些稍微偏离训练集的数据的处理。
未来,计算机将会更好地消化原始数据,并没有明确命令的情况下,从原始数据中找出它们需要从中学习的东西。
这将标志着 “无监督学习”的一大飞跃。无需离开车库,自动驾驶汽车就可以自学如何处理不同的路况;无需四处走动,机器人就能够预估到在一个忙碌的仓库中可能遇到的障碍。
我们能够想象和思考不同的场景,这是我们作为人的一部分。当未来技术方面的历史学家回过头来看时,可能会把GAN方法的提出看作是迈向创造具有类人意识机器的一大步。脸书的人工智能首席科学家Yann LeCun将GAN称之为‘近20年来深度学习领域最棒的想法’。
前百度大脑首席科学家吴恩达认为GAN代表着“一项重大而根本性的进步”,它鼓舞了全球越来越多的研究人员。
神奇的GAN和它广泛的应用
Goodfellow现在是位于加州山景城谷歌总部的谷歌大脑团队中的一名研究员(大数据文摘之前报道过他在谷歌做实习生的精彩故事)。当我最近在那里见到他的时候,他似乎对于AI名人的身份感到惊讶,认为这有点“超现实”。
同样让人惊讶的是,他已经发现有人在用GAN达到不法目的,所以他现在大部分的时间都花在对抗坏人,应对这些坏行为上。
GANs的魔力来自于两个神经网络的对抗(点击查看大数据文摘总结的GANs奇思妙想榜单)。
它模仿一名图片伪造者和一名艺术鉴定师之间想要打败对方的交锋过程。这两个网络都在同样的数据集上训练,第一个网络称作生成器,生成器用来生成仿造的输出如图片或者笔迹,仿造得越真实越好。
第二个网络称作判别器,将生成器生成的图片与训练集中真实的图片进行比较,然后判断哪些图片是真实的哪些是假的。根据判定器的结果,生成器将更新参数,然后生成新的图片。如此循环,直到判别器不再能判断图片的真伪。
一位使用真实名人照片进行培训的GAN,自己创造出了一系列想象中的明星。
在去年一个众所周知的例子中,英伟达(一家投资重心在人工智能领域的芯片公司)的研究人员训练了一个GAN模型,通过学习真实名人的图像生成虚构名人的图像。不像其他的机器学习方法那样需要成千上万的训练图像,GANs只需要几百张图片就能达到相当好的效果。
GAN的想象能力还很有限。譬如,一旦训练了大量狗狗的图片,GAN模型就能够生成一张相当真实的狗狗的图片,差别可能只是狗狗身上的斑点有些许不同。但它不能生成一张全新动物的图像。
原始训练数据的质量对结果的影响仍然巨大。一个生动的例子是,GAN模型开始生成一些带有随机字母的猫的图片。这是因为训练数据中包含了来自互联网的猫表情包,所以机器认为这些表情包上的字母是猫的一部分。
华盛顿大学机器学习研究员Pedro Domingos说过,GANs的性能并不稳定。如果鉴别器太容易被欺骗,那么生成器输出的图像将看上去不太真实。而校准这两个相互对抗的神经网络也是很困难的,这就解释了为什么GANs有时会生成一些奇怪的东西,比如有两个头的动物。
然而,这些挑战并没有阻止研究人员。自从Goodfellow等人在2014年发表了关于他的发现的第一份报告之后,数百篇与GAN相关的论文陆续发表。GAN的一名粉丝甚至还创建了一个名为“GAN zoo”的网页,专门用于追踪已经开发出来的不同版本的GAN。
网页链接(两个网页内容一致):
- https://deephunt.in/the-gan-zoo-79597dc8c347
- https://github.com/hindupuravinash/the-gan-zoo
GAN最明显的即时应用是在涉及大量图像的领域,比如视频游戏和时尚领域(例如让游戏角色看起来像是在雨中奔跑)。但展望未来,Goodfellow认为GANs将会推动更大的进步。他说:“在科学和工程的很多领域都有一些东西需要优化。”例如药物需要提高药效以及电池需要提高效率等。“这将是下一个浪潮。”
在高能物理中,科学家们利用强大的计算机来模拟数百个亚原子粒子,在瑞士的CERN的大型强子对撞机这样的机器中可能发生的相互作用。这类模拟需要大量的计算能力,非常缓慢。
耶鲁大学和劳伦斯伯克利国家实验室的研究人员开发了一种GAN,在对现有的模拟数据进行训练后,它学会了对特定粒子的行为做出精确的预测,而且速度快得多。
Goodfellow创造的GANs可以用来想象各种各样的事物,包括新的室内设计。
医学研究是另一个有潜力的领域。由于有隐私方面的担忧,研究人员有时无法获得足够多的真实患者数据(进行研究),例如分析为什么某种药物不起作用。宾夕法尼亚大学的凯西格林说,GANs可以通过生成几乎和真实情况一样好的假记录来帮助解决这个问题。这些数据可以得到更广泛的分享,推进研究,而真正的记录则受到严密保护。
Goodfellow vs Bad fellows 技术的黑暗面
然而,技术也有黑暗的一面。对于那些想要影响从股价到选举等方方面面的人来说,一台可以制造假新闻的机器简直是一个完美的武器。
人工智能工具已经用来在色情片的身体上放上其他人的脸,以及用政客的声音说出自己想说的话。虽不是GANs制造这个问题,但是GANs的存在将会让事情变得更糟。
Hany Farid在达特茅斯学院在学习数字取证,他正在研究用更好的方法来识别假视频,比如由呼吸引起的面部颜色的轻微变化,而这些变化GANs很难准确地模仿。但他警告说,GANs会反过来学习这些变化。Farid说:“从根本上来说,我们处于弱势地位。
这种猫捉老鼠的游戏也会对网络安全产生影响。研究者已经强调了“黑匣子”攻击的危险性,GANs被用于找出机器学习模型,因为许多安全程序都是用这些模型来识别恶意软件的。
当搞清防御模型算法的工作原理后,攻击者就能避开防御然后插入流氓代码。同样的方法也能用于逃避垃圾邮件过滤器等安全防御措施。
Goodfellow很清楚这一危险。他现在领导一个谷歌的团队,专注于让机器学习变得更加安全。他警告说,人工智能社区必须吸取以往创新浪潮的教训:技术人员总是在事后才开始考虑安全和隐私问题。
当他们意识到风险的时候,坏人已经有明显的领先优势了。他说,“很明显,我们已经错过了起点,但希望在落后太多之前,我们能在安全问题上取得重大进展。”
尽管如此,他认为不存在一个纯粹的技术手段可以解决造假问题。相反,他认为,技术依赖于各种社会因素而进步,比如通过演讲和辩论课等,教会孩子们批判性思维。
“在演讲和辩论中,你会和另一个学生竞争,你在考虑如何编造有利于自己甚至是误导的说法,或者如何提出具有说服力的正确的主张。”他可能是对的,但他得出的“技术不能解决假新闻问题”的结论,并不是人们想要听到的。”