强化学习最常被引用的例子是 DeepMind 的 AlphaGo 系统。DeepMind 是 Alphabet(谷歌母公司)的子公司,创建了AlphaGo去玩中国古老的游戏—围棋。 赢棋策略非常不透明,就连大师也总是不能说清楚他们为什么选择所做出的移 子—他们说这些移子只是“觉得对”。围棋棋盘上棋子配置的可能性多过宇宙 中的原子数量。要创建出能够理解这种复杂游戏中细微差别和微妙策略的机器, 是一项巨大挑战。 AlphaGo 并没学习过游戏策略,它通过对很多场人类对人类的游戏开发出自 己的策略。在 2016 年 3 月,AlphaGo 与得过 18 次世界冠军,也是世界上最好的 (人类)围棋手李世石下棋。AlphaGo 以四比一打败了李世石。为了赢棋,AlphaGo 开发了几种新策略,这些策略与几百年来专业围棋手公认的智慧相悖。通 过观察 AlphaGo 的策略,人类围棋手也完善了他们的棋法。
以上信息摘自《创新之巅:未来十年重构商业的六大战略性技术》,这本电子书收录于开发者藏经阁,下载地址:https://developer.aliyun.com/ebook/download/7469
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。