GAN之父Ian Goodfellow :那个赋予机器想象力的人类

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介:

通过使用两个神经网络的相互对抗,Ian Goodfellow创造了一个强大的AI工具。而现在,他以及我们所有人都必须开始面对其所带来的后果了。

*本文系mit technology review的人物特写,希望阅读英文原文的读者请拉至文末查看原文链接。

2014年的一晚,Ian Goodfellow和一个刚刚毕业的博士生一起喝酒庆祝。在蒙特利尔一个酒吧,一些朋友希望他能帮忙看看手头上一个棘手的项目:计算机如何自己生成图片。

研究人员已经使用了神经网络(模拟人脑的神经元网络的一种算法),作为生成模型来创造合理的新数据。但结果往往不尽人意。计算机生成的人脸图像通常不是模糊不清,就是缺耳少鼻。

Ian Goodfellow朋友们提出的方案是对那些组成图片的元素进行复杂的统计分析以帮助机器自己生成图片。这需要进行大量的数据运算,Ian Goodfellow告诉他们这根本行不通。

边喝啤酒边思考问题时,他突然有了一个想法。如果让两个神经网络相互对抗会出现什么结果呢?他的朋友对此持怀疑态度。

当他回到家,他女朋友已经熟睡,他决定马上实验自己的想法。那天他一直写代码写到凌晨,然后进行测试。第一次运行就成功了!

那天晚上他提出的方法现在叫做GAN,即生成对抗网络(generative adversarial network)。

该方法已经在机器学习领域产生了巨大的影响,也让他的创造者Goodfellow成为了人工智能界的重要人物。

e9a6fa76e308addda3943545e640c7345bcc0970

在最近几年,通过深度学习技术,AI研究人员取得了令人瞩目的进展。向深度学习系统输入足够的图像,它就能进行学习,比如识别出一个将要过马路的行人。这一技术使得自动驾驶技术,Alexa、Siri等会话技术支持的虚拟助手成为可能。

这标志着无监督学习的一大飞跃

虽然使用深度学习的人工智能工具们能够学习如何识别事物,但它们并不擅长创造事物。而GANs的目标就是赋予计算机类似于想象力的东西。

要实现这一功能并不是简单的让它们能够画漂亮的图片或者谱优美的歌曲,而是要让它们尽量少的依赖人类来告诉它们世界该是什么样子以及它们该怎么工作。

如今,AI程序员通常需要明确告诉机器输入的训练数据是什么,即一百万张图片中哪些图片是过马路的行人以及哪些不是。而这样的过程不仅花费极大,需要大量人工参与,还限制了系统对于一些稍微偏离训练集的数据的处理。

未来,计算机将会更好地消化原始数据,并没有明确命令的情况下,从原始数据中找出它们需要从中学习的东西。

这将标志着 “无监督学习”的一大飞跃。无需离开车库,自动驾驶汽车就可以自学如何处理不同的路况;无需四处走动,机器人就能够预估到在一个忙碌的仓库中可能遇到的障碍。

我们能够想象和思考不同的场景,这是我们作为人的一部分。当未来技术方面的历史学家回过头来看时,可能会把GAN方法的提出看作是迈向创造具有类人意识机器的一大步。脸书的人工智能首席科学家Yann LeCun将GAN称之为‘近20年来深度学习领域最棒的想法’。

前百度大脑首席科学家吴恩达认为GAN代表着“一项重大而根本性的进步”,它鼓舞了全球越来越多的研究人员。

神奇的GAN和它广泛的应用

Goodfellow现在是位于加州山景城谷歌总部的谷歌大脑团队中的一名研究员(大数据文摘之前报道过他在谷歌做实习生的精彩故事)。当我最近在那里见到他的时候,他似乎对于AI名人的身份感到惊讶,认为这有点“超现实”。

同样让人惊讶的是,他已经发现有人在用GAN达到不法目的,所以他现在大部分的时间都花在对抗坏人,应对这些坏行为上。

GANs的魔力来自于两个神经网络的对抗(点击查看大数据文摘总结的GANs奇思妙想榜单)。

它模仿一名图片伪造者和一名艺术鉴定师之间想要打败对方的交锋过程。这两个网络都在同样的数据集上训练,第一个网络称作生成器,生成器用来生成仿造的输出如图片或者笔迹,仿造得越真实越好。

第二个网络称作判别器,将生成器生成的图片与训练集中真实的图片进行比较,然后判断哪些图片是真实的哪些是假的。根据判定器的结果,生成器将更新参数,然后生成新的图片。如此循环,直到判别器不再能判断图片的真伪。

26de1e6566cbddef5c0cf78c1bc748b602a57216

一位使用真实名人照片进行培训的GAN,自己创造出了一系列想象中的明星。

在去年一个众所周知的例子中,英伟达(一家投资重心在人工智能领域的芯片公司)的研究人员训练了一个GAN模型,通过学习真实名人的图像生成虚构名人的图像。不像其他的机器学习方法那样需要成千上万的训练图像,GANs只需要几百张图片就能达到相当好的效果。

GAN的想象能力还很有限。譬如,一旦训练了大量狗狗的图片,GAN模型就能够生成一张相当真实的狗狗的图片,差别可能只是狗狗身上的斑点有些许不同。但它不能生成一张全新动物的图像。

原始训练数据的质量对结果的影响仍然巨大。一个生动的例子是,GAN模型开始生成一些带有随机字母的猫的图片。这是因为训练数据中包含了来自互联网的猫表情包,所以机器认为这些表情包上的字母是猫的一部分。

b4b973f2eb31ce5d751f90a9f3d7c794db2c8ed0

华盛顿大学机器学习研究员Pedro Domingos说过,GANs的性能并不稳定。如果鉴别器太容易被欺骗,那么生成器输出的图像将看上去不太真实。而校准这两个相互对抗的神经网络也是很困难的,这就解释了为什么GANs有时会生成一些奇怪的东西,比如有两个头的动物。

ca50b20830cbdd0c33cde87f8ff508768402599d

然而,这些挑战并没有阻止研究人员。自从Goodfellow等人在2014年发表了关于他的发现的第一份报告之后,数百篇与GAN相关的论文陆续发表。GAN的一名粉丝甚至还创建了一个名为“GAN zoo”的网页,专门用于追踪已经开发出来的不同版本的GAN。

网页链接(两个网页内容一致):

  • https://deephunt.in/the-gan-zoo-79597dc8c347
  • https://github.com/hindupuravinash/the-gan-zoo

GAN最明显的即时应用是在涉及大量图像的领域,比如视频游戏和时尚领域(例如让游戏角色看起来像是在雨中奔跑)。但展望未来,Goodfellow认为GANs将会推动更大的进步。他说:“在科学和工程的很多领域都有一些东西需要优化。”例如药物需要提高药效以及电池需要提高效率等。“这将是下一个浪潮。”

在高能物理中,科学家们利用强大的计算机来模拟数百个亚原子粒子,在瑞士的CERN的大型强子对撞机这样的机器中可能发生的相互作用。这类模拟需要大量的计算能力,非常缓慢。

耶鲁大学和劳伦斯伯克利国家实验室的研究人员开发了一种GAN,在对现有的模拟数据进行训练后,它学会了对特定粒子的行为做出精确的预测,而且速度快得多。

3f8a905ec244bb32512e604db74f456be7a4bd06

Goodfellow创造的GANs可以用来想象各种各样的事物,包括新的室内设计。

医学研究是另一个有潜力的领域。由于有隐私方面的担忧,研究人员有时无法获得足够多的真实患者数据(进行研究),例如分析为什么某种药物不起作用。宾夕法尼亚大学的凯西格林说,GANs可以通过生成几乎和真实情况一样好的假记录来帮助解决这个问题。这些数据可以得到更广泛的分享,推进研究,而真正的记录则受到严密保护。

Goodfellow vs Bad fellows 技术的黑暗面

然而,技术也有黑暗的一面。对于那些想要影响从股价到选举等方方面面的人来说,一台可以制造假新闻的机器简直是一个完美的武器。

人工智能工具已经用来在色情片的身体上放上其他人的脸,以及用政客的声音说出自己想说的话。虽不是GANs制造这个问题,但是GANs的存在将会让事情变得更糟。

Hany Farid在达特茅斯学院在学习数字取证,他正在研究用更好的方法来识别假视频,比如由呼吸引起的面部颜色的轻微变化,而这些变化GANs很难准确地模仿。但他警告说,GANs会反过来学习这些变化。Farid说:“从根本上来说,我们处于弱势地位。

这种猫捉老鼠的游戏也会对网络安全产生影响。研究者已经强调了“黑匣子”攻击的危险性,GANs被用于找出机器学习模型,因为许多安全程序都是用这些模型来识别恶意软件的。

当搞清防御模型算法的工作原理后,攻击者就能避开防御然后插入流氓代码。同样的方法也能用于逃避垃圾邮件过滤器等安全防御措施。

Goodfellow很清楚这一危险。他现在领导一个谷歌的团队,专注于让机器学习变得更加安全。他警告说,人工智能社区必须吸取以往创新浪潮的教训:技术人员总是在事后才开始考虑安全和隐私问题。

当他们意识到风险的时候,坏人已经有明显的领先优势了。他说,“很明显,我们已经错过了起点,但希望在落后太多之前,我们能在安全问题上取得重大进展。”

尽管如此,他认为不存在一个纯粹的技术手段可以解决造假问题。相反,他认为,技术依赖于各种社会因素而进步,比如通过演讲和辩论课等,教会孩子们批判性思维。

“在演讲和辩论中,你会和另一个学生竞争,你在考虑如何编造有利于自己甚至是误导的说法,或者如何提出具有说服力的正确的主张。”他可能是对的,但他得出的“技术不能解决假新闻问题”的结论,并不是人们想要听到的。”


原文发布时间为:2018-03-11
本文作者:文摘菌
本文来自云栖社区合作伙伴“ 大数据文摘”,了解相关信息可以关注“ 大数据文摘”微信公众号
相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
5月前
|
机器学习/深度学习 人工智能 搜索推荐
Anthropic公开Claude 3,像人类一样特殊性格训练方法
【6月更文挑战第18天】Anthropic的Claude 3是款独特的人工智能模型,经“Constitutional AI”训练,发展出类似人类的性格。此方法涉及监督和强化学习,让模型自我改进并依据规则评估行为。虽然可能引入偏见和不可预测性,但旨在增强AI的适应性和人性化交互。[[1](https://arxiv.org/abs/2212.08073)]
117 2
|
5月前
|
人工智能
GPT-4被证实具有人类心智登Nature!AI比人类更好察觉讽刺和暗示
【6月更文挑战第5天】Nature发表的论文显示,GPT-4在心智理论任务中表现出色,特别是在识别讽刺上超越了人类。然而,在理解失礼行为和相关社会意识方面,GPT-4逊于人类,而LLaMA2-Chat在此类情境中表现更佳。尽管如此,GPT-4在失礼行为可能性测试中展现出高超的理解力。该研究强调了AI在模拟人类心理状态方面的进步与局限性。[链接](https://www.nature.com/articles/s41562-024-01882-z)
80 1
|
6月前
|
机器学习/深度学习 人工智能 数据处理
一文速通自监督学习(Self-supervised Learning):教机器自我探索的艺术
一文速通自监督学习(Self-supervised Learning):教机器自我探索的艺术
545 0
|
人工智能 算法 数据可视化
角速度、线速度之外,描述宇宙还有另一种方式?AI发现新变量登Nature子刊
角速度、线速度之外,描述宇宙还有另一种方式?AI发现新变量登Nature子刊
125 0
|
机器学习/深度学习 人工智能 算法
卷起来了!DeepMind发布媲美普通程序员的AlphaCode,同日OpenAI神经数学证明器拿下奥数题
卷起来了!DeepMind发布媲美普通程序员的AlphaCode,同日OpenAI神经数学证明器拿下奥数题
111 0
|
机器学习/深度学习 人工智能 算法
卷起来了DeepMind发布媲美普通程序员的AlphaCode,同日OpenAI神经数学证明器拿下奥数题(一)
卷起来了DeepMind发布媲美普通程序员的AlphaCode,同日OpenAI神经数学证明器拿下奥数题(一)
264 0
卷起来了DeepMind发布媲美普通程序员的AlphaCode,同日OpenAI神经数学证明器拿下奥数题(一)
|
机器学习/深度学习 人工智能 算法
卷起来了DeepMind发布媲美普通程序员的AlphaCode,同日OpenAI神经数学证明器拿下奥数题(二)
卷起来了DeepMind发布媲美普通程序员的AlphaCode,同日OpenAI神经数学证明器拿下奥数题(二)
274 0
卷起来了DeepMind发布媲美普通程序员的AlphaCode,同日OpenAI神经数学证明器拿下奥数题(二)
|
数据可视化 机器人
Nature:机器促进人类语言的产生
机器人对人类语言有促进作用吗?近期Nature杂志上的一篇文章告诉你:是的!
149 0
Nature:机器促进人类语言的产生
|
机器学习/深度学习 人工智能 自然语言处理
在语音识别这件事上,汉语比英语早一年超越人类水平(附论文)
几天前,微软语音识别实现了历史性突破,英语的语音转录达到专业速录员水平,机器之心也独家专访了专访微软首席语音科学家黄学东 ,了解到词错率仅 5.9% 背后的「秘密武器」——CNTK。但微软的成果是在英语水平上的,从部分读者留言中我们了解到对汉语语音识别的前沿成果不太了解,这篇文章将向大家介绍国内几家公司在汉语识别上取得的成果。
374 0
在语音识别这件事上,汉语比英语早一年超越人类水平(附论文)
|
自然语言处理 算法 机器学习/深度学习
下一篇
无影云桌面