李世石扳回一局！如何借助棋类游戏扩展人工智能极限？-阿里云开发者社区

多年之后，当李世石写起自己的回忆录时，他一定不会忘记那年春天的七个日夜，那或许是他一生中最难过（忘）的一周。从赛前的「信心满满」到第一天的「惊讶」；从第二天的「无话可说」再到第三天的绝望。但最应该让李世石及我们铭记的却是此次挑战赛胜败已定的第四天——李世石在连输 AlphaGo 3局后，在第4局凭借自己的绝妙应对和顽强抵抗上演了一场惊天逆转，当几乎所有人都对人类战胜 AlphaGo 失去信心时，却依靠人类棋手的强大潜能扳回了一局。

比赛一开始李世石就被 AlphaGo 强势压制，每一步棋考虑的时间都很长，当李世石的常规时间还剩6分钟时，场面处于极大劣势，而此时 AlphaGo 的常规时间还剩1小时14分钟，甚至古力当时都表示「比赛会在几分钟内分出胜负」。之后风云突变，李世石在78手弈出治孤妙手，局部出棋！致使 AlphaGo 连出多次昏招。而已经进入读秒阶段的李世石则好像完全卸下了连输三局的压力，异常冷静沉着的应对棋局，不断积累自己的优势。古力九段表示「如果是自己，现在 AlphaGo 的获胜机会只有10%了。但目前李世石时间太少，容易使棋手出现失误。」之后，李世石的表现近乎完美，非常稳定的将优势保持到最后，并首次让 AlphaGo 主动认输，将总比分扳成1:3。

樊麾在接受机器之心专访时所言：「它（AlphaGo ）就像一堵墙」在「这堵墙」面前，或许我们不应该再去纠结人类是否能够在围棋（或者棋类游戏）上打败机器。就像DeepMind AlphaGo项目负责人 David Silver 在第二局比赛开始前所说，我们想通过与顶级选手的比赛来观察AlphaGo是否有自己的比赛风格，是否能出现一些富有「创造力」的东西，这是我们选择与李世石对战的所有原因，我们需要真正能够推动AlphaGo继续向前进步的人，尝试不同的东西去挑战AlphaGo的极限，让我们可以看到AlphaGo如何应对一些新的情况，我们创造了它，但我们现在也只有静静地站在旁边，像其他人一样看着它的表现。

今天的AlphaGo位我们带来了一种新的表现，不会因为它败给李世石而使人工智能技术受到质疑，就像李世石在前三局输给它之后而使围棋受到质疑一样。这本来就是一次人工智能技术的伟大试验，而纵观人工智能发展的历史，出现了许多这样的测试。所以，在AlphaGo与李世石的对战背后，有一个更深层次的问题值得我们思考：为什么棋类游戏对于人工智能如此重要？

人工智能与棋牌游戏的历史

如果追溯历史，人工智能与游戏的历史渊远可以追溯到18世纪晚期，奥地利的沃尔夫冈·冯·肯佩伦制造了一个可以下棋的「机器」，在84年的「职业生涯」里，这台机器几乎击败了所有的人类挑战者，甚至包括大名鼎鼎的拿破仑·波拿巴和本杰明·富兰克林。但这终究只是一场骗局，这台机器里藏有一个象棋高手，整个机器也以复杂的构造误导观众，从而能保证藏在机器里的人不被发现。

微信图片_20211125231331.jpg

土耳其行棋傀儡的版画，来自1784年卡尔·戈特利布·冯·温迪施的作品《无生命的原因》

现代意义上的人工智能与棋类游戏的暧昧情节始于1956年，是的，就是包括约翰·麦卡锡、马文·明斯基等人创造出「人工智能」一词的那一年。Arthur Samuel 创造了一种西洋跳棋的应用程序，并使用强化学习来训练这个程序。1962年的时候，Arthur Samuel 的这个西洋跳棋程序打败了当时全美最强的业余选手 Robert Nealey。

西洋跳棋是一种两人棋盘游戏。玩家的棋子都是沿斜角走的。棋子可跳过敌方的棋子并吃掉它。它的历史比囯际象棋长久，始祖为中东跳棋。西洋跳棋的玩法有很多。最流行的游戏形式是被称为国际跳棋的波兰跳棋，其次为英国跳棋。

不过，机器就赢了一场，其他几次对决中，机器完败。尽管如此，一场比赛的胜利还是让当时方兴未艾的人工智能研究着实兴奋了一把，毕竟，这是机器第一次战胜了人类。

微信图片_20211125231404.jpg

Arthur Samuel 在IBM 701计算机上展示它的西洋跳棋

随着西洋跳棋程序的不断进化，上世纪80年代晚期时候，机器已经可以打败顶尖的人类选手。西洋跳棋领域最后一场人机大战发生在1996年，一个名叫「Chinook」的程序完胜人类选手。2007年，Chinook的开发者们在《科学》杂志发明论文称：Chinook已经解决了西洋跳棋领域的所有难题，Chinook可以打败任何一个对手——不论这个对手是机器还是人类。一个值得玩味的事实是，就在Chinook开发者们宣传Chinook 不会失败的前几天，或许是人类历史上最伟大的西洋跳棋选手Marion Tinsley 去世。这留个世人诸多疑问：Marion Tinsley 会成为Chinook 克星吗？或者这是人类时代结束而机器时代开始的前兆吗？

与西洋跳棋程序同时进化的还有十五子棋（又叫西洋双陆棋，它是一种古老的棋盘游戏，在棋盘或桌子上，靠掷两枚骰子决定走棋的步数，比赛的目的是要使自己的棋子先到达终点。这种棋戏把运气和技术结合在一起，通常两者对取胜都不可缺少。此类棋戏从20世纪后期开始风靡于世。）

微信图片_20211125231436.jpg

十五子棋

1979年，Hans Berliner 开发的 BKG 9.8 应用程序以7:1 的大比分打败了当时十五子棋的人类冠军 Luigi Villa。尽管 Berliner 和 Villa 都认为机器的胜利存在某种侥幸，但当时的电视转播评论员仍然抑制不住震撼「我不希望机器人来到新闻广播行业。」这可谓是又一个机器战胜人类的重要时刻。 BKG 9.8 之后，包括 TD-Gammon 以及随后的应用程序都要比人类玩得更好。

值得一提的是，「投身」十五子棋的 TD-Gammon 与如今无情「碾压」李世石的 alphaGo 在技术层面很相似，他们都采用神经网络模型，并运用了强化学习的方法（当然，AlphaGo 还有其他技术的融合），60年前的 Samuel 也用这种方法训练自己的西洋跳棋应用。强化学习可以让这些游戏程序学到超越人类教练水平的技巧或知识，比如游戏程序可以「自己向自己学习」。客观意义上，十五子棋的爱好者们完全可以向TD-Gammon 学习相关知识，将其作为自己的教练。

接下来就是国际象棋。在Arthur Samuel 打造他的西洋跳棋程序之前，克劳德·香农（信息论的开山鼻祖、同时也是「人工智能」一词的提出者）在1950年认为，国际象棋对人工智能研究来说是一项令人兴奋的挑战。「这个问题的解决方案将迫使我们承认机器是否能够思考的可能性，以及重新定义所谓思考的概念」。

但香农的预言显然是错了，在1997年IBM 的深蓝打败卡斯帕洛夫之后，人类并没有遇到上述难题的困扰。于是，在几乎所有棋类游戏被机器征服之后，唯一剩下的就是起源于中国的围棋。一方面，当西方的机器打败所有西方的棋类游戏后，站在东方人的舞台，向象征东方人最高思维难度的围棋宣战，这里有太多隐喻。另一方面，人工智能研究者们孜孜不倦的挑战各种棋类运动，也正是因为这些棋类提供了一种可衡量和可比较的标准。

为什么是围棋？

所谓可衡量的标准，部分原因就在于我们还无法理解「智能」一词。这也的确是一件颇为讽刺的事情，当人类还不清楚自身的「智能」时，却为了机器智能而奔波忙碌。

美国心理学家 Louis Lean Thurstone 在1920年代的研究中发现，一些受访者在回答问题时更倾向于回答一些相对意义或者比较意义的问题，比如类似这样的问题「你更喜欢谁的画，Kandinsky 还是 Rothko？」就比单纯回答「你对Kandinsky 画喜欢多少？」要容易简单的多。这套理论被称为「比较性判断准则（Law of Comparative Judgement）」。通过让人们每次比较多个对象中的两个，而最终可以计算出每个对象的测量分数（定距尺度）。其运用范围非常广泛，也被应用到机器学习领域。

微信图片_20211125231515.jpg Thurstone 的理论展示

按照Thurstone 的理论，棋类游戏就成为测量人类与机器的一种工具。如果说棋类游戏代表了智慧与智能，那么比赛的结果就能展现出人类与机器在这个领域的强弱。而在国际象棋领域，ELO排名体系是棋手最看重的排名。这个排名的最大重点，在于强手打败弱手时，赚不了多少积分；反之就能赚比平常多的积分。每位参赛者都有一个实力值，实力值越高则排位越前。某种意义上说，排名也就是胜负关系的预测。

ELO排名体系不仅仅适用与人类选手，在深蓝打败卡斯帕洛夫之后，多个国际象棋计算机程序在ELO排名体系上超过3300分。这个分数意味着这些计算机程序几乎可以打败任何一个人类选手。计算机科学家、国际象棋大师Ken Regan 的研究发现，如今的国际象棋已经进入到一个稳定期：机器之间的比赛分不出胜负，而人类在机器面前毫无胜算。

当国际象棋最终被机器征服之后，还有哪些衡量标准呢？

人工智能研究者也没有放弃对扑克的研究。相对于国际象棋和围棋，扑克没有所谓的完美信息：玩家们无法获取已发生事件的全部信息，诸如对手的底牌。比如虽然德州扑克的缺失信息比西洋跳棋少，但是这种不完美信息的特质计算机挑战德州扑克的难度颇大。

再来看个可能的测量标准，RoboCup。这是是一种完全机器人参与足球比赛，是当前国际上级别最高、规模最大、影响最广泛的机器人赛事。那么问题就来了，有没有可能将人类选手放在这些比赛里？或者再脑动一下，有没有可能将无人驾驶汽车（特别说明的是，纳斯卡的无人驾驶和谷歌、特斯拉的无人驾驶并不一样）放到纳斯卡或F1比赛中？

对于任何一个游戏来说，其规则的复杂性往往成为计算机能否快速并最终战胜人类的重要原因。Bill Robertie，三项棋牌游戏（国际象棋，扑克，西洋双陆）比赛的世界级专家曾做过一个统计，如下图所示，相较于国际象棋和西洋跳棋，围棋的难度要远远这些棋牌游戏，也正是如此，公众（准确地说是东亚三国的公众）如此震撼于Alpha Go对李世石的「碾压」。

微信图片_20211125231545.jpg

如前文所言，人工智能研究者使用棋类游戏作为智能的衡量标准，以此推进自身研究的发展。Alpha Go 缔造者、DeepMind 创始人 Hassabis 也强调，他要将 Alpha Go 延伸到更广泛的领域，由于 DeepMind 采用通用了的AI技术来研发AlphaGo，理论上其关键算法的确能够较快应用与其他领域。

当Alpha Go 一次次让人类代表李世石面露无奈的表情时，作为人类的我们当然需要为李世石的失败感到难过，但同样，但正如樊麾在接受机器之心专访时所言，Alpha Go或许发现了一种新的围棋的美，是我们想象不到。因此从某种意义上说，这不是谁的失败，而是整个人类的胜利，我们通过机器看到人性的光芒，利用机器推动人类智慧的进步，相比于一个五番旗的围棋比赛，在另一个更大的棋盘上，人类与机器还在继续「模仿」与「被模仿」的比赛。

李世石扳回一局！如何借助棋类游戏扩展人工智能极限？

人工智能与棋牌游戏的历史

为什么是围棋？

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

李世石扳回一局！如何借助棋类游戏扩展人工智能极限？

人工智能与棋牌游戏的历史

为什么是围棋？

热门文章

最新文章

相关课程

相关电子书

相关实验场景