今年的 DOTA2 经典赛事 TI7 国际邀请赛让 Open AI 大火了一把: 他们研发的Self-Play 机器人在Dota2 1v1 比赛中战胜了人类顶级职业玩家 Dendi,在这场顶尖的电竞比赛中大放异彩。
提到Open AI,一般都会称“马斯克的Open AI” 。作为Open AI 的最大投资人之一,马斯克也在 Twitter 上盛赞团队在这次与人类玩家对决的DOTA 2 比赛中的英勇表现。
Elon Musk 发表推文称赞 OpenAI 的战绩,并其为“在电子竞技领域首个击败人类顶级玩家的机器人”。
这场比赛结束之后,AI界讨论的一个焦点是:OpenAI 的 bot 究竟有没有连接 Dota 的 bot API? 因为如果连接了的话,那么它就能直接获得游戏中的实时信息,比如,不同角色之间的地理距离(以决定攻击或者逃逸)。后来,Open AI的Greg Brockman 证实,他们确实使用了Bota的bot API,并且,某些技巧是他们自己手写代码,以硬编程的方式写进agent中的。虽然他们确实也使用了一些试错的技术,比如强化学习。总体而言,Open AI 这次出战Dota 2 的机器人确实是有少量人为“指导”的。
巴斯大学游戏AI研究员、经验丰富的Dota玩家Andreas Theodorou解释了为什么这会带来不同结果。“Dota的一个关键就是你需要计算距离才能知道一些[攻击]的里程”,他说, “API让机器人能对范围长短获得暗示。所以你可以说:“如果有人在500米范围内,就攻击吧,”但人类玩家必须自己计算,通过试错来学习。如果机器人能够获得人类玩家没有的信息,那么就真的会给它们一个优势。“在一个1v1比赛中,对抗一个像Shadow Fiend这样的英雄,这一效果尤为显著。玩家必须专注于在正确的时机展开攻击,而不是总体战略。
在当天接下来的比赛中,Open AI 的机器人被人类玩家击败了50次,但是这个时候,关心这一人机对抗的人已经不多了。
外界认为,虽然Dota2 等游戏确实比围棋的复杂得多,需要的技巧和能力也更多。但是 Open AI 的机器人对人类玩家的这一场胜利意义远远比不上DeepMind AlphaGo战胜人类围棋专业棋手。
在技术方向和目标上,DeepMind 和 Open AI 有着巨大的相似性:目前都专注于对强化学习(reinforce learning),目标都是开发出具有人类能力的通用人工智能,而他们目前训练和研究人工智能的主要环境也都是游戏。
2015年12月一个周五的下午,特斯拉创始人Musk 和 Y Combinator总裁Sam Altman 宣布成立新的人工智能(AI)公司Open AI,当时他们正在参加 Montreal AI 会议,当会议进入尾声时他们宣布了该消息。
OpenAI 现在拥有60名全职研究员和工程师。OpenAI 关注长期研究,会在顶尖的机器学习会议上发布论文、开源了一系列加速 AI 研究的软件工具,他们还会公布研究博客,以促进研究交流。
Open AI 的主要业务有两个:机器人、复杂的计算机游戏和大量的计算机游戏。机器人方面,聚焦于机器人操作,机器人的研究主要涉及三个层面,移动 (locomotion)、导航( navigation) 和操作 (manipulation)。
从研究上说,OpenAI 主要做的是基础研究,关注技术长期的发展,最有代表性的是强化学习(Reinforce Learning)。
关于OpenAI,有两个比较重大的事实:最大的投资人是马斯克和 Sam Altman。截止 2017年5月17日,总共融资额已经超过 10亿美元。
除马斯克外,Open AI 的创始人还有:Sam Altman、Breg Brockman、Reid Hoffman 、Jessica Livingston、Peter THiel和Wojciech Zaremba。
Sam Altman 曾被《商业周刊》评为最优秀的年轻企业家,他是位置服务提供商 Loopt的联合创始人和CEO,该公司于2012年3月被预付借记卡业务公司Green Dot收购。2014年2月,Sam Altman 接替Paul Graham,成为YC的新掌门人。
Breg Brockman 前StripeCTO,现OpenAI CTO。
Reid Hoffman LinkedIn联合创始人,曾经担任过PayPal高级副总裁。是硅谷最有名的天使投资者之一,曾经投资过60多家创业公司,包括Facebook和 Digg。
Jessica Livingston Y Combinator 创始合伙人。
Peter THiel 对冲基金管理者,PayPal的共同创建者之一,也是Palantir的共同创建者和对冲基金Clarium Capital的总裁,以及畅销书《Zero to One》的作者。
据内部人士透露,Open AI 给的薪酬并不高,但它能提供其它的激励:不用关心产品和季度盈利,可以专心探索面向未来的研究,最终与所有人分享大多的研究成果。开放一词可以视为Open AI的核心宗旨,也是其名字的来源。
Open AI CTO Greg Brockman 曾对Wired透露,实验室支付的工资没有谷歌、Facebook等企业给的多。Brockman 还说 Open AI 不想给他们太多工资,它会用股票期权来补偿研究人员,最开始会用Y Combinator股票,未来可能会用SpaceX的股票。但是SpaceX和特斯拉不同,它现在还是一家私营企业。
Wojciech Zaremba 是波兰人,专业是机器人。曾在谷歌大脑工作一年,在Facebook AI 研究院工作一年,博士毕业于《纽约大学》,后加入Open AI。
Zaremba 加入Open AI 后,谷歌和 Facebook 都曾开出天价来挖他。但是,他在一次采访中表示,正是“疯狂的开价”让他掉转了方向,虽然他很尊重谷歌、Facebook等企业,但他认为一些企业之所以开出高价格抢人,主要是想阻止Open AI成立,守护他们自己的业务,这种认识使萨林巴更加推崇 OpenAI 的宏大使命。萨林巴称:“我意识到 Open AI是最佳工作地点。”
Open AI 成立后,其崇高的目标和理想的研究环境迅速吸引了一大批实力不俗的AI研究院,其中包括Ian GoodFellow(GAN 理论的集大成者、后加入谷歌大脑)、Andrej Kapathy(后加入特斯拉)和 Ilya Sutskever 等。
Ilya Sutskever 师从Hinton,是吴恩达的斯坦福研究小组博士后,谷歌大脑顶级研究者,加拿大史上第一位 Google Fellow,DNN Research 创始人……Ilya Sutskever 在AI研究领域可谓“根正苗红”,成绩显赫。目前,他的身份是 OpenAI 研究主管。
Open AI 的第一个正式办公室
Open AI 从成立起就标榜要对抗谷歌、Facebook等巨头的“技术垄断”,以开放、开源的方式进行研究。
OpenAI 的研究员们认为,AI 研究是一个纯净的世界,最棒的理念并不是靠下一个产品循环或者利润驱动的——至少不完全由它们驱动。研究人员想让AI更好,如果拒绝分享最新的研究成果,AI 就不可能变得更好。
在OpenAI刚成立时,Altman在接受媒体采访时被问及: 谷歌也在不断进行开源,你们的开源与他们有什么不一样?他回答说,谷歌的确与公众分享了许多研究成果。随着时间过去,随着我们逐渐接近那种超越人类智能的东西,谷歌还会与公众分享多少成果是值得怀疑的。
Altman表示,OpenAI中研究的东西最终是会超越人类智能的。最重要的是,它会是开源的,任何人都能使用,而不是只能被,比如说谷歌来使用。这个团体研发的任何东西都将对所有人开放。如果你拿去以后做了一些改变、让它适应其他用途,你也不会有义务要和公众分享你的成果。但是只要是我们做的任何工作,都会对所有人开放。
现在大企业分享的AI研究成果更多了。这是一大改变,谷歌的改变尤其巨大,以前它喜欢将技术秘密禁锢在庞大的线上帝国内,近年来在机器学习上也进行了广泛的开源,比如,TensorFlow。不过,外界评论认为,尽管如此,为了占据未来制高点,谷歌的核心技术仍然是保密的。马斯克等人的目标是将开放理念向前推进一步,他们不愿意一家或者两家企业控制未来的AI。
2016年4月28日,OpenAI 对外发布了人工智能开发平台Gym。Gym平台的基本理念是,研究者建立自己的算法后,可以把该算法置于不同的环境中进行测试,然后把测试后的基本算法发布在Gym的平台上,让社区中的其他人看到。该平台现在已经与一些开放资源人工智能工具,例如谷歌的TensorFlow展开合作。
OpenAI的开源继续进行,2016年12月发布 OpenAI Universe。 根据其官方博客的介绍,这是一个能在几乎所有环境中衡量和训练 AI 通用智能水平的开源平台,当下的目标是让 AI 智能体能像人一样使用计算机。目前,Universe 已经有1000种训练环境,由微软、英伟达等公司参与建设。
Universe 通过一个通用的接口适用于各种场景:智能体通过捕捉屏幕的像素生成对键盘和鼠标的命令来操作远程桌面。场景需要 VNC 服务器,universe 库将智能体转换为 VNC 客户端。
Universe 的设计目标是支持单个的 Python 进程,以每秒60帧的速度并行驱动20个场景。每个屏幕的缓冲区是 1024×768,因此用外部进程直接读取每一帧需要3GB/s的内存带宽。他们用 Go 写了一个面向批处理的VNC服务器,它可以作为Python共享库加载,并且逐步更新每个场景的一对缓冲区。在尝试了许多 VNC 服务器、编码器和无证书协议选项的组合之后,现在的组合能以60帧/秒的速度驱动几十个场景,延迟是100毫秒——这些延迟几乎都是服务器端编码引起的。
Gym 和 Universe的开源是OpenAI 迄今为止较为代表性的两个作品。不过也有人提出疑问,没有数据开源,OpenAI所谓的开放大业能否完整?
这个世界上,如果要找一家与OpenAI类似的机构,那肯定是DeepMind了。
DeepMind被普遍认为是人工智能研究前沿的代表企业,他们研发的围棋程序AlphaGo也被认为是具有划时代意义的。
值得一提的是,马斯克正是这家公司的天使投资人之一。此前在有记者问马斯克,为什么在投资了DeepMind之后又创建OpenAI, 他的回答是:“我得强调,我并不是通常意义的投资者。我不寻求投资和财务上的回报。我给自己参与创立的公司投资,有时候是出于帮助朋友,有时候是因为我的信仰,也有的时候是因为我关心的事情。我并不是出于分散风险或者物质意义上的考虑。我对 DeepMind 所谓的投资,不过是为了更好的理解人工智能,并且能够时刻看到它的进展”。
来看看DeepMind在游戏上的开源,2016年12月,DeepMind在官方网站上宣布开源智能体研究平台DeepMind Lab :
DeepMind 的 DeepMind Lab 是一个专为基于智能体的 AI 研究设计的,完全像 3D 游戏般的平台。它从自己的视角,通过模拟智能体的眼睛进行观察。场景呈现的视觉效果是科幻风格。可用的操作能让智能体环顾四周,并且以3D的形式移动。智能体的“身体”是一个悬浮的球体,通过激活与期望运动方向相反的推动器实现悬浮和移动,并且具有围绕其主体运动的,能够观察其旋转时动作的摄像头。示例任务包括收集水果、走迷宫、穿越危险的通道且要避免从悬崖上坠落、使用发射台在平台间穿越、玩激光笔、以及快速学习并记住随机生成的环境。
下面是智能体在 DeepMind Lab 中如何感知并与世界交互的图示:
2017年8月10日,DeepMind在官方博客上宣布开源星际争霸2 研究训练平台SC2LE。这套工具组件将加速即时策略游戏星际争霸 2 中的 AI 研究。
OpenAI 在做什么?一句话,他们在努力创建安全的通用人工智能。
这里有两个关键词:安全,通用。
通用人工智能又称强人工智能,简单来说,就是让机器自己学习像人一样地去行动。而安全,则是 OpenAI,这个由特斯拉 CEO 伊隆·马斯克成立的人工智能实验室着重强调的一点。
比如 OpenAI 的研究人员 Dario Amodei 正在开发一个能够自己玩“赛船冠军赛”(Coast Runners)游戏的系统,这是一个挺老的赛船电子游戏。哪艘船得分最高且能划过终点,就是冠军。
然而结果却让人大吃一惊:赛船对屏幕上的绿色小物件(“吃”掉这些小物件就可以得分)太执着了。比起到达终点,AI 控制的赛船会疯狂地去捞分。这造成了无尽的循环,和其他船相撞,滑进石墙,不停地起火。Amodei 先生燃烧的赛船正是 AI 技术危险性的完美缩影。研究者开发出了自己进行任务学习的机器,其中最有名的就是横扫人类围棋世界的 AlphaGo。然而随着这些机器经过长时间的数据分析来进行训练,它们可能也发展出了意料之外的、人类不希望见到的、很可能有害的行为。
OpenAI 的一个重要使命,正是在发展通用 AI 的过程中,最大程度上避免这种情况的发生。
在 OpenAI,Amodei 和同事 Paul Christiano 一道,正在开发不仅能通过数小时的试错进行任务学习的算法,同时在这一过程中还能接受人类的引导。他们相信,这类算法——人类和机器的混合——能够保证 AI 系统是安全的。
多年以来,Elon Musk 和其他一些专家、思想家,也包括一些技术专家,一直在警告 AI 可能脱离人类的控制,产生违背他们设计者初衷的行为。而像 Amodei 这样的研究者则在努力走在风险的前面,从某种意义上说,他们将 AI 系统看作是需要父母引导的孩子。
在 AI 领域,许多专家相信强化学习是让机器通过不断的试错学习特定任务,从而实现人工智能的途径。研究者为机器设定奖赏,机器随机开始执行任务,不断地去获得最大化奖赏。比如在赛船游戏中,奖赏就是更多的分数。
如果 AI 能够学会在游戏《横行霸道》中开一辆车,研究者们相信,AI 在真实世界中也能学会去开一辆车。如果它能够用网页浏览器和其他 app,它也能学会理解自然语言,甚至展开对话。在谷歌,在 UC 伯克利,机器人已经开始使用此类技术学习执行简单任务,比如开门、捡东西了。
这就是为什么 Amodei 和 Christiano 正在努力开发能够接受人类指导的强化学习算法。这能够保证 AI 不失控。
最近,他们和 DeepMind 的研究者一起,发布了一些相关的研究报。这两家顶级实验室此前从未开展过合作,他们如今合作开发的算法被当作是 AI 安全性研究的重要一步。
UC 伯克利的研究人员 Dylan Hadfield-Menell 表示,这些联合研究验证了以前的一些想法,在未来 5 到 10 年都是非常有前景的研究。
和 OpenAI 、DeepMind 的开发团队致力于 AI 安全的研究一样,谷歌大脑也在做类似的事情,还有 UC 伯克利、斯坦福大学也在这些大企业的实验室合作,致力于此类问题的研究。
今年6月,OpenAI 还曾与DeepMind 联手发布了合作计划的第一项研究,让没有技术经验的人类给强化学习系统提供反馈,从而避免事先为系统指定目标的步骤。在某些情况下,这种方法只需要30分钟的反馈就足以训练系统,包括教会系统一个全新的、复杂的行为,例如使模拟机器人做后空翻。
大约用了900条来自人类的反馈来教这个算法做后空翻
今年6月,Open AI 著名研究员 Andrej Kapathy 加盟特斯拉,但是这一消息却让马斯克饱受质疑。
Hacker News上,有人开玩笑地评论,Andrej Kapathy 是从马斯克的一家非盈利组织(Non-profit)组织,跳槽到了马斯克的一家盈利公司(own for profit )。
Andrej Kapathy 毕业于斯坦福人工智能实验室,博士师从李飞飞教授,在谷歌大脑、DeepMind 实过习,也曾与吴恩达一起共事,业界几大深度学习实验室都待过,更重要的是,他乐于而且善于分享自己的经验和见解,在推特和Medium上非常活跃,有AI “网红”之称。
今年6月,特斯拉发布官方消息,称Andrej Kapathy加入特斯拉,作为新任命的 AI 及 Autopilot Vision 总监的 Karpathy 将直接向 Musk 汇报,但也会与特斯拉的 Jim Keller 紧密协作,后者曾负责特斯拉的 Autopilot 硬件部门,如今统管自动驾驶汽车司机辅助功能的软件及硬件部分。
针对此事,有网友在网上评论说,Open AI 已经成为马斯克招揽AI 人才的“后花园”。或许是因为一贯宣扬“人工智能威胁论”,媒体对马斯克创建Open AI 的初衷一直抱有怀疑。有媒体此前报道,在Open AI成立的会议上,马斯克之所以现身,主要是因为他和 Altman 私交甚笃,还因为他自己的企业经营多项业务,AI对于这些业务来说至关重要,对于未来的世界也至关重要。自动驾驶汽车必然会到来,汽车需要AI。SpaceX要将人类送入太空。
一些人警告说一旦系统足够强大,可以自行学习,人类可能会失去对系统的控制权。在警告者中,马斯克的噪门算是最高的了。
在HackNews上,网友unityByFreedom说:“OpenAI 一直都是Musk的一个人才渠道:他使用其他人的投资来吸引人才,然后再把这些人才放到自己的公司里去。我认为,这对员工和Musk 来说都是一件好事。我不确定Open AI 还有多少投资者,我很想知道他们在投资的时候都在想什么。”
对Musk的质疑也蔓延到了对OpenAI的质疑身上:
用户 randcraw 表示,OpenAI 的研究计划实际上并没有大多数人想的那么诗情画意,因为a)他们从未明确承诺过“改变世界”,而且b)他们的项目最终必须为既得利益者服务。
他不喜欢 OpenAI 的长期任务计划。“保持 AI 开放”(Keeping AI open)看起来相当平淡,难以在如今这样有目的性和动态的文化气质中长存。或许这样漫无目的的蜿蜒前行的结果没有达到 AK(指 Andrej Karpathy)最初的希望。
或者,也许特斯拉能比 KITT 拿出更多的东西?马斯克的野心那么大。我怀疑 Karpathy 被各种甜蜜的前景给迷昏了头。
还有人说,Open AI 很奇怪,他们的研究一般比其他顶级实验室的影响力更小——不是指在媒体上的影响力,虽然团队中确实有很多人才。OpenAI 迄今最重要的研究成果就是 InfoGAN,其他都没有那么惊艳。另一方面,开源的宗旨保持得很好,OpenAI Gym/Universe 以及现有的测试模型十分出色。
此外,还有传言说,OpenAI 有工程师裁员的情况出现。不过,这与前面说的又是两码事了。
文章转自新智元公众号,原文链接