阿法狗是如何工作的?卡内基梅隆大学博士用54页PPT给你答案

简介:

最绚烂的火花,永远产生于森然秩序被打破,天才超然于规律之外的那一瞬间


卡内基梅隆大学博士生用54页PPT解密阿法狗的工作原理


在刚刚结束的“AlphaGo”与韩国围棋高手李世石之间的人机大战第五局中,李世石执黑负,无缘两连胜。至此,人机大战五番棋全部结束,李世石1-4输掉对决,无缘100万美元赢棋奖金。


为了让大家从另外一面了解AlphaGo,Computer Science排名第一的卡内基梅隆大学的博士研究生 Shane Moon(个人主页:http://shanemoon.com/)做了一次演讲,他就读于卡内基梅隆大学著名的语言技术研究所,纯干货讲稿PPT奉上。



AlphaGo是如何工作的

演讲人:Shane Moon

2015年10月,AlphaGo与欧洲围棋冠军樊麾二段对弈

2016年3月9日-15日,AlphaGo与世界冠军李世乭九段展开对弈

电脑围棋人工智能


电脑围棋人工智能:定义

我们可以把棋盘想象成一个矩阵


当给出s,电脑围棋运算出最优移动a,得到s'

电脑围棋人工智能:一个可行的概念?

假设它模拟所有可能的棋盘落子位置呢?



进行这样的模拟直到游戏结束,然后报告输赢结果


这是不可能的,据说所有可能的棋盘排布种类总数超过了宇宙中原子的数量

关键在于:缩减搜索空间

缩减搜索空间的第一种方法:减少可选择的着法(横向缩减)

从搜索出的着法候选中把这些提前剔除

缩减搜索空间的第二种方法:提前评估落子位置(纵向缩减)

假设这里有一个函数可以计算V,即s的盘面形势评估

缩减搜索空间的两种方式:减少可选择的着法(横向),提前评估落子位置(纵向)


减少可选择的着法

得到P(下一次落子|现在的位置)

减少可选择的着法:模仿专业高手的着法(在指导下学习)

建立棋盘的预测模型

将预测模型模拟为矩阵进行运算

这个深度学习过程要经过13层“CNN”

CNN即卷积神经网络,是一种强大的图像识别任务处理模型,它将输入的图像通过卷积层抽象化

它们利用卷积神经网络模型去评估对局形势

围棋:胜利的关键在于抽象能力

卷积神经网络:抽象是其特长

模仿专业高手着法的模型

减少可选择的着法:通过自我对弈来提高(巩固学习)

两个专业高手着法模仿模型进行对弈

输赢两种结局

更新模型,不断进行新旧模型之间的对弈,最后一个版本的模型和初始版本对弈已经有了八成赢面

盘面形势评估


使用两个模型:上文最新版本的模仿模型与价值预测模型(复盘)


缩减搜索空间:横向上减少可选择的着法(策略网络),纵向上进行盘面形势评估(价值网络)


前瞻:蒙特卡洛树形研究模型

结果:AlphaGo不同成分的组合所呈现的表现李世乭九段与AlphaGo的能量功耗对比

据估测,AlphaGo的水准在业余五段左右


将CPU/GPU资源运用到极致?


AlphaGo每天都学习数以百万计的对局

如果AlphaGo学习了李世乭的策略会怎样?谷歌表示他们不会将李世乭的比赛数据用于AlphaGo的训练数据,即使它真的学习了,仅仅与李世乭对弈几盘就修改在海量数据下训练过的模型也是很难的AlphaGo的弱点是什么?留待研究




原文发布时间为:2016-03-22

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关文章
|
6月前
|
物联网 开发者
可图Kolors-LoRA风格故事挑战赛决赛入围名单出炉!决赛赛题首公开,奉上夺奖秘籍!
8月初,魔搭社区联合阿里云天池平台,结合快手旗下开源文生图大模型可图Kolors 模型,推出文生图创作大赛,30支队伍脱颖而出,晋级复赛。
可图Kolors-LoRA风格故事挑战赛决赛入围名单出炉!决赛赛题首公开,奉上夺奖秘籍!
|
7月前
|
安全
2024年江西省研究生数学建模竞赛C题: 聚变反应堆设计 问题分析、实现代码及参考论文
本文是关于2024年江西省研究生数学建模竞赛C题的解题分析,题目要求设计聚变反应堆,建立模型分析慢化区/增殖区中温度和中子通量的变化,确定反应堆尺寸以最小化单位电力输出的总成本,并计算相关物理量和分析等离子体的点火要求及稳态运行持续时间。
187 2
|
7月前
|
机器学习/深度学习 数据采集 算法
【2023 华数杯全国大学生数学建模竞赛】 C题 母亲身心健康对婴儿成长的影响 45页论文及python代码
本文通过收集390名3至12个月婴儿及其母亲的相关数据,运用结构方程模型、相关性分析和多种机器学习模型,研究了母亲身心健康对婴儿行为特征和睡眠质量的影响,并提出了改善母婴交互质量和提高婴儿睡眠质量的解决方案。
161 0
【2023 华数杯全国大学生数学建模竞赛】 C题 母亲身心健康对婴儿成长的影响 45页论文及python代码
|
人工智能 自然语言处理 机器人
DeepMind发30页长文:我们要给聊天机器人不同的「三观」
DeepMind发30页长文:我们要给聊天机器人不同的「三观」
122 0
|
机器学习/深度学习 编解码 算法
Reddit最热!本科毕业拿到Deepmind软件工程师Offer,几百页课程链接我帮你总结了(下)
Reddit机器学习板块的一个热帖引起了网友的热议!本科毕业,没有机器学习背景,这位小哥在blog分享了自己的实战经验:从自学ML到拿到Deepmind的offer。
166 0
Reddit最热!本科毕业拿到Deepmind软件工程师Offer,几百页课程链接我帮你总结了(下)
|
机器学习/深度学习 人工智能 自然语言处理
Reddit最热!本科毕业拿到Deepmind软件工程师Offer,几百页课程链接我帮你总结了(上)
Reddit机器学习板块的一个热帖引起了网友的热议!本科毕业,没有机器学习背景,这位小哥在blog分享了自己的实战经验:从自学ML到拿到Deepmind的offer。
192 0
Reddit最热!本科毕业拿到Deepmind软件工程师Offer,几百页课程链接我帮你总结了(上)
《Science》刊登中科院最新突破,用二氧化碳合成淀粉,网友已开始安排诺贝尔奖
《Science》刊登中科院最新突破,用二氧化碳合成淀粉,网友已开始安排诺贝尔奖
206 0
《Science》刊登中科院最新突破,用二氧化碳合成淀粉,网友已开始安排诺贝尔奖
学术规范与论文写作(雨课堂)(研究生)期末考试 正确顺序
学术规范与论文写作(雨课堂)(研究生)期末考试 正确顺序
682 0
学术规范与论文写作(雨课堂)(研究生)期末考试 正确顺序
你的论文,你做主—研究生毕业论文的写作过程
        写在前面:又到一年硕士研究生毕业论文开题时。这个时候,每个人的表现均不一样,有底的当然很镇静,没底的就到处寻求“支援”。本文旨在结合个人的经历,说一下研究生毕业论文的写作过程是怎样的。
1504 0
|
机器学习/深度学习 文字识别 安全
厉害了!阿里安全图灵实验室在ICDAR2017 MLT竞赛刷新世界最好成绩
近日,阿里安全图灵实验室(Alibaba Turing Lab)的ATL Cangjie OCR算法在ICDAR2017的MLT(Competition on Multi-lingual scene text detection)自然场景多语言文本检测竞赛中刷新了世界最好成绩,以73.52%的Hmean排名第一。
6148 0