我就是 AlphaGo!2017 年 1 月 4 日晚 9 时,Master 的神秘面纱终于被揭开了。在对局周睿羊 9 段的第 59 局比赛之后,名为 Master 的账号在腾讯野狐围棋平台上主动透露了自己的身份:「我是 AlphaGo 的黄博士(黄士杰)。」随后,在对阵古力 9 段的最后一局结束后,这场由中日韩三国多名旗手对阵人工智能历时 7 天的跨年大战宣告结束。
很快,Demis Hassabis 在自己的 Twitter 上发表了一份声明:
樊麾在微博上分享了这份声明并给出了中文版本:
网名 Master 的神秘棋手于 12 月 29 日出现在弈城网上围棋平台(最初名为 Magist)。三天时间对局数量达到 30 盘,全部胜利,对手包括朴廷桓、陈耀烨、芈昱廷、唐韦星等当今世界顶级棋手,其中对朴廷桓 4 比 0,对陈耀烨为 2 比 0。
随着 Master 的连胜,网络围棋平台瞬间受到了大量关注,不少人开始猜测 Master 的真实身份。有人询问了 AlphaGo 开发者黄士杰博士,得到了不置可否的回答。
随后,Master 在 2016 年 12 月 31 日宣布将休息一天。著名棋手柯洁在微博上表示:「我从三月份开始到现在研究了大半年的棋软,无数次的理论、实践,就是想知道计算机究竟强在哪里。昨晚辗转反侧,不想竟一夜无眠。人类数千年的实战演练进化,计算机却告诉我们人类全都是错的。我觉得,甚至没有一个人沾到围棋真理的边。但是我想说,从现在开始,我们棋手将会结合计算机,迈进全新的领域达到全新的境界。新的风暴即将来袭,我将尽我所有的智慧终极一战!」
在 1 月 1 日晚 11 时,Master 转战腾讯野狐围棋,与各路高手展开了新的对局。因为名声鹊起,从李钦诚到古力、柯洁、党毅飞、江维杰、辜梓豪、朴永训、柁嘉熹、姜东润、井山裕太等人纷纷申请与之对战,但随后纷纷负于这一仍未公开姓名的神秘对手。
到了 1 月 4 日下午,在网络围棋中与 Master 对战过的著名棋手包括柯洁、朴廷桓(韩国冠军)、井山裕太(日本冠军)、周俊勋(台湾省第一人)等人。1 月 4 日下午 3 点,中国「棋圣」聂卫平在与 Master 的对战中失利,这是 Master 的第 54 场胜利。
与柯洁的对战
1 月 3 日 Master 战胜柯洁后,聂卫平表示:「Master 改变了我们传统的厚薄理念,颠覆了多年的定式,围棋远不像我们想象的那么简单,还有巨大的空间等着我们人类去挖掘,AlphaGo 也好,Master 也罢,都是『围棋上帝』派来给人类引路的。而在第二天负于 Master 后,聂卫平表示:
Master 技术全面,从不犯错,是其最大优势,人类要打败它的话,必须在前半盘领先,然后中盘和官子也不出错,这样固然很难,但客观上也促进了人类在围棋技术上的提高。这盘棋我布局不错,但中盘时打了一个大勺子,断送好局,有些可惜。
1 月 4 日晚,在连续对阵申真谞 9 段、周睿羊 9 段、古力 9 段后,AlphaGo 的连胜纪录扩大到了 60 场,按照事先的计划,谷歌围棋程序的非正式比赛测试暂时告一段落。
Master 在快棋赛中多次盘中获胜(没到收官阶段对手就认输了,这说明 Master 的优势很大),展示了人类棋手无法企及的快棋水平。网络快棋是目前职业选手练习的主要方式之一,因为每一步思考时间很短,和带奖金的正式比赛相比,快棋赛中对决双方更加容易出错,所以这次「升级版」AlphaGo 的实际围棋水平如何还需要正式规则比赛的进一步检验。
值得一提的是,去年 12 月 13 日,多名谷歌高层曾经突访中国,他们在中国棋院与聂卫平、柯洁等人进行了交流,并达成了合作协议。随后在日本棋院 Journalist Club 的颁奖仪式上,Hassabis 曾表示:「2017 年对 AlphaGo 和围棋界都将是充满兴奋的一年。」人们没有意识到,在新的一年还未到来时,人工智能对于这项流传千年的古老技艺的冲击已经开始。
AlphaGo 的系统
AlphaGo 从高调宣战开始到 3 月底战胜李世乭,短短 2 个多月内已经博取了无数的眼球。如今再次出现了一个 Master,它是人?是 AI?还是二者的结合?业内猜疑不断。
外行看热闹,内行看门道。在下棋这件事上我们可能看的是热闹(小编着实不懂棋的套路),但下围棋的人工智能系统我们曾了解过。
在一月份的 Nature 封面报道中,曾详细地介绍了 AlphaGo 系统当时所采用的技术:
首先 DeepMind 使用了如今火热的深度学习技术,同时还加上了另一种模拟技术来对潜在的步法进行建模。深度学习需要对一个大型的神经网络进行训练,使其对数据中的模式做出反应。
AlphaGo 的关键在于使用的深度神经网络,而且 DeepMind 在 AlphaGo 中使用了两种不同的神经网络:第一种叫做策略网络(policy network),用来预测下一步;第二种叫做价值网络(value network),用来预测棋盘上不同的分布会带来什么不同的结果。
AlphaGo 使用这两种网络的方法是把非常复杂的搜索树减少到可操作的规模。所以,它并不是在每一步都要考虑几百种步数,而只考虑政策网络提供的几十种最有前景的步法,价值网络的作用是减少搜索的深度,所以,它的搜索深度并不是特别深,它并不是一下子搜索出直达比赛末尾的 300 多步,而是搜索更少的步数,比如 20 多步,并评估这些位置,而不是一路评估到底,看谁最终能赢。搜索并不是靠蛮力,而是与某种与想象力很相似的东西。
DeepMind 官方发布的 2016 年度总结中写道,「最激动人心的莫过于 AlphaGo 博弈过程中所呈现出来的创造力,有时,它的棋招甚至挑战了古老的围棋智慧。围棋,这一古往今来最富深谋远虑的游戏之一,AlphaGO 可以识别并分享其中洞见。」
就像首位和 AlphaGo 对战的专业选手樊麾在接受机器之心采访时表示:「AlphaGo 可能开辟出另外一种围棋的美,是我们想象不到的。」
如果观看了 AlphaGo 和李世乭的对弈,你或许不会对坐在李世乭对面的这位感到陌生。他就是 AlphaGo 的核心作者之一 Aja Huang(黄士杰),而这次代「Master」执子的也是黄士杰博士。值得注意的是,黄士杰还是 DeepMind 中唯一一位围棋高手(业余围棋 6 段),从他的硕博论文《计算机围棋打劫的策略》和《应用于计算机围棋之蒙地卡罗树搜寻法的新启发式算法》便可以看出他对围棋的热爱。
2011 年毕业于台湾师范大学计算机信息工程专业博士班的黄世杰在 2012 年便加入了 DeepMind 团队,也是该团队的早期核心成员之一。
在校期间,黄士杰的导师是曾研发 Crazy Stone 的 Rémi Coulom,而 Crazy Stone 正式在 AlphaGo 横空出世前最有名的围棋软件之一。
黄士杰的导师此前在接受媒体报道时曾透露,黄士杰读硕士时就锁定围棋为他的研究课题,为了写程序,黄士杰有时在实验室一呆就是 16 小时,并将他开发的围棋程序以其老婆的英文名「Erica」命名。
下面是黄士杰的论文引用情况。凭借发表于 Nature 的论文《Mastering the game of Go with deep neural networks and tree search》和另一篇论文《Move Evaluation in Go Using Deep Convolutional Neural Networks》的高引用量,黄士杰仅凭 4 篇论文就在短短两年时间内获得大约 388 到 851 之间的引用。
©本文由机器之心原创,转载请联系本公众号获得授权。