AlphaGo之父揭开打败柯洁的秘密：强AI是人类的终极工具-阿里云开发者社区

AlphaGo之父揭开打败柯洁的秘密：强AI是人类的终极工具

2017-08-02 1823

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

5月24日，在新版本AlphaGo首战以1/4子微弱优势战胜中国围棋职业九段棋手柯洁之后，“AlphaGo之父”DeepMind创始人兼CEO Demis Hassabis、AlphaGo团队负责人David Silver在人工智能高峰论坛上详解了AlphaGo的研发并就“AlphaGo意味着什么？”的问题进行了详细解答。

“AlphaGo已经展示出了创造力，也已经可以模仿人类直觉了。在过去一年，我们继续打造AlphaGo，我们想打造完美的AlphaGo，弥补它知识方面的空白。因为在与李世石的比赛中，它是有缺陷的。”Demis Hassabis说：“在未来我们能看到人机合作的巨大力量，人类智慧将通过人工智能进一步放大。强人工智能是人类研究和探寻宇宙的终极工具。”

为什么计算机下围棋非常困难？

Demis Hassabis坦言围棋非常困难，因为其复杂程度让穷举搜索都难以解决。对于计算机来说，围棋有两项难题：“不可能”写出评估程序以决定谁赢，搜索空间太过庞大。

围棋不像象棋等游戏靠计算，而是靠直觉。围棋中没有等级概念，所有棋子都一样。围棋是筑防游戏，因此需要盘算未来。小小一子可撼全局，“妙手”如受天启。

AlphaGo如何进行训练？

David Silver从技术角度详细解释了AlphaGo如何进行训练。

围棋对于机器的难点之一是评估程序的撰写。而AlphaGo团队用两种卷积神经网络去完成：策略网络和估值网络。策略网络的卷积神经网络用于决定下一步落子可能的位置，价值网络用于评估当前棋局获胜的概率。

为了应对围棋的巨大复杂性，AlphaGo 采用机器学习技术，结合了监督学习和强化学习的优势。通过训练形成一个策略网络（policy network），将棋盘上的局势作为输入信息，并对所有可行的落子位置生成一个概率分布。

然后，训练出一个价值网络（value network）对自我对弈进行预测，以 -1（对手的绝对胜利）到1（AlphaGo的绝对胜利）的标准，预测所有可行落子位置的结果。这两个网络自身都十分强大，而 AlphaGo将这两种网络整合进基于概率的蒙特卡罗树搜索（MCTS）中，实现了它真正的优势。

最后，新版的AlphaGo 产生大量自我对弈棋局，为下一代版本提供了训练数据，此过程循环往复。

AlphaGo 如何决定落子？

在获取棋局信息后，AlphaGo会根据策略网络探索哪个位置同时具备高潜在价值和高可能性，进而决定最佳落子位置。在分配的搜索时间结束时，模拟过程中被系统最频繁考察的位置将成为 AlphaGo的最终选择。在经过先期的全盘探索和过程中对最佳落子的不断揣摩后，AlphaGo的搜索算法就能在其计算能力之上加入近似人类的直觉判断。

David Silver总结：策略网络减少宽度，价值网络减少深度。AlphaGo做出多种模拟，不断反复，最终形成判断哪种方案是获胜概率最高的。