洞悉AlphaGo超越围棋大师的力量:机器之心邀你一起强化学习-阿里云开发者社区

开发者社区> 开发者小助手-bz8> 正文

洞悉AlphaGo超越围棋大师的力量:机器之心邀你一起强化学习

简介: 美国计算机协会会刊(CACM)9 月发表了《强化学习的复兴》一文,深度介绍了强化学习的运用及其与深度学习的比较。强化学习是机器学习的主要三种类型之一,被应用在多种训练任务中。我们熟知的 AlphaGo 中就用到了大量的强化学习。「人工智能研学社· 强化学习组」将强化学习作为第一期学习内容,与大家分享有关深度学习的基本知识。本期教学内容推荐 Rich Suntton 教授关于强化学习的演讲视频——强化学习介绍及与函数近似结合的讨论。
+关注继续查看

一般而言,我们可以将机器学习分成三种类型:监督学习、无监督学习和强化学习。


监督学习是通过在带有标注的训练数据和输出对中寻找出需要学习到的模式;而无监督学习则是通过聚类分析来归纳没有标注的数据的模式;而强化学习则是通过代理对输入数据的不断反馈来接近一个问题的最佳解决方案。


强化学习(reinforcement learning)是受行为心理学启发的一个机器学习领域,其研究的是软件代理(agent)如何在一个环境(environment)中采取行动(action)以最大化我们想要的奖励(reward)。这是一个涵盖领域非常广的问题,也在博弈论、控制论、信息论、运筹学、基于模拟的优化、多代理系统、集群智能、统计学和遗传算法等许多学科领域得到了研究。在运筹学和控制论领域,强化学习方法所在的领域被称为近似动态规划(approximate dynamic programming)。这个问题曾在最优控制理论(theory of optimal control)领域得到过研究,尽管这个领域的大部分研究关注的是最优解决方案的存在以及它们的性质,而非学习或近似方面。在经济学和博弈论领域,强化学习可能能被用于解释有限理性(bounded rationality)下如何实现均衡(equilibrium)。


在机器学习领域,环境通常通常被阐释成一个马尔可夫决策过程(MDP),许多强化学习算法都是用了动态编程(dynamic programming)技术。传统技术和强化学习算法之间主要不同在于后者并不需要关于 MDP 的知识并且它们的目标是无法获取明确的方法的大型 MDP。


当然,强化学习并不是一个新东西。据了解,早在 1954 年,Minsky、Farley 和 Clark 等一些研究者就已经开始了对早期试错学习的研究。Minsky 在其博士论文《Theory of Neural-Analog Reinforcement Systems and Its Application to the Brain Model Problem》中探讨了强化学习模型,并且描述了一种模拟机(analog machine),这种模拟机由一种被他称为 SNARC(Stochastic Neural-Analog Reinforcement Calculator/随机神经模拟强化计算器)的组件构成。而 Farley 和 Clark 则描述了另一种设计用来进行试错学习的神经网络学习机器。


到了上世纪 60 年代,「强化(reinforcement)」和「强化学习(reinforcement learning)」就已经得到了很广泛的应用了(如,Waltz and Fu, 1965; Mendel, 1966; Fu, 1970; Mendel and McClaren, 1970)。其中特别要提的是 Minsky 1961 年的论文《Steps Toward Artificial Intelligence》,这篇论文集中地探讨了与强化学习相关的几个问题,包括信用分配问题(credit-assignment problem):对于可以涉及到的许多决策,该怎么为其中会成功的决策分配信用(credit)?


而强化学习从学术界走向大众认知的高潮还是在今年 3 月份的「AlphaGo vs. 李世石」的围棋世纪大战中。在这次举世瞩目的人机对决中,DeepMind 基于深度神经网络和强化学习的混合形态——「深度强化学习(deep reinforcement learning)」——所开发的围棋程序 AlphaGo 以 4:1 的巨大优势击败了世界顶级围棋大师李世石,掀起了一波鼓吹「机器超越人类」的狂潮。


在比赛后,阿尔伯塔大学计算机科学家、有现代强化学习教父之称的 Rich Sutton 表示强化学习和使用深度神经网络的深度学习这两种类型的学习可以很漂亮地互相补充。他解释说:「深度学习是有史以来最伟大的事情,但其很快就变得受限于数据了。如果我们能使用强化学习自动生成数据,即使这些数据的标注比人类的标注弱很多,但因为我们自动生成它们,我们就可以得到远远更多的数据,所以这两种技术可以很好地配合在一起。」


这里推荐一个 Rich Sutton 教授做的 tutorial 演讲《Introduction to Reinforcement Learning with Function Approximation(强化学习介绍及与函数近似结合的讨论)》。该演讲介绍如下:

09F7A49F-C9B8-47B8-B67E-71D282FCBD1F.jpeg

点击查看原视频

强化学习是近三十年来机器学习与运筹学社区里发展的最优序贯决策(optimal sequential decision making)的理论和技术的主体,其分别在心理学和神经科学中都扮演重要角色。这个 tutorial 将会让你对基本的形式问题(马尔可夫决策过程)及其核心的解决方法(包括动态编程、蒙特卡罗方法和时间差分学习)有一个直观理解。这个 tutorial 将关注这些方法如何与参数函数近似(parametric function approximation,其中包括深度学习)进行结合以给大得无法用其它方式解决的问题找到好的近似解决方案。最后,我们还将简要介绍一些函数近似、资格痕迹(eligibility traces)和离策略学习(off-policy learning)上的最近进展。




 相关补充学习资料:





推荐者介绍:本期研习材料由 Yuxi Li 博士推荐。Yuxi Li 博士是加拿大阿尔伯塔大学 (University of Alberta) 计算机系博士、博士后。致力于深度学习、强化学习、机器学习、人工智能等前沿技术及其应用。曾任电子科技大学副教授;在美国波士顿任资深数据科学家等。目前在筹备深度相关的创业项目。Yuxi Li 博士也将在组内参与专家答疑。



这里也列举一些机器之心曾经发表过的介绍强化学习的文章:



对于强化学习这样一个既有历史沉淀又有未来前景的技术领域,你一定充满了好奇和想要学习的渴望。也许你在机器学习和计算机方面已经有了一定的技术积累,但要进入一个新的领域,你可能还是常常感到:


1. 找不到合适的学习资料

2. 有学习动力,但无法坚持

3. 学习效果无法评估

4. 遇到问题缺乏讨论和解答的途径


因此,为了帮助「强化学习新手」进入这一领域,机器之心发起了一个互助式学习小组——「人工智能研学社· 强化学习组」。本小组将通过优质资料分享、教材研习、论文阅读、群组讨论、专家答疑、讲座与分享等形式加强参与者对强化学习和深度学习的理解和认知。


面向人群:有一定的机器学习技术基础,在强化学习方面处于学习阶段的学习者

学习形式:资料推荐、统一进度学习(教材或论文)、群组讨论、专家答疑、讲座等。

加入方式:

1)长按下面二维码添加小助手微信,并注明:加入强化学习组

2)点击「阅读原文」完成小助手发送的入群测试(题目会根据每期内容变化),填写相关资料(教育背景 、从事行业和职务 、人工智能学习经历等)。

3)小助手将邀请成功通过测试的朋友进入「人工智能研学社· 强化学习组」

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
使用NAT网关轻松为单台云服务器设置多个公网IP
在应用中,有时会遇到用户询问如何使单台云服务器具备多个公网IP的问题。 具体如何操作呢,有了NAT网关这个也不是难题。
25921 0
阿里云服务器如何登录?阿里云服务器的三种登录方法
购买阿里云ECS云服务器后如何登录?场景不同,大概有三种登录方式:
2517 0
阿里云服务器ECS远程登录用户名密码查询方法
阿里云服务器ECS远程连接登录输入用户名和密码,阿里云没有默认密码,如果购买时没设置需要先重置实例密码,Windows用户名是administrator,Linux账号是root,阿小云来详细说下阿里云服务器远程登录连接用户名和密码查询方法
9573 0
阿里云服务器端口号设置
阿里云服务器初级使用者可能面临的问题之一. 使用tomcat或者其他服务器软件设置端口号后,比如 一些不是默认的, mysql的 3306, mssql的1433,有时候打不开网页, 原因是没有在ecs安全组去设置这个端口号. 解决: 点击ecs下网络和安全下的安全组 在弹出的安全组中,如果没有就新建安全组,然后点击配置规则 最后如上图点击添加...或快速创建.   have fun!  将编程看作是一门艺术,而不单单是个技术。
9001 0
windows server 2008阿里云ECS服务器安全设置
最近我们Sinesafe安全公司在为客户使用阿里云ecs服务器做安全的过程中,发现服务器基础安全性都没有做。为了为站长们提供更加有效的安全基础解决方案,我们Sinesafe将对阿里云服务器win2008 系统进行基础安全部署实战过程! 比较重要的几部分 1.
8126 0
阿里云服务器如何登录?阿里云服务器的三种登录方法
购买阿里云ECS云服务器后如何登录?场景不同,阿里云优惠总结大概有三种登录方式: 登录到ECS云服务器控制台 在ECS云服务器控制台用户可以更改密码、更换系.
10593 0
如何设置阿里云服务器安全组?阿里云安全组规则详细解说
阿里云安全组设置详细图文教程(收藏起来) 阿里云服务器安全组设置规则分享,阿里云服务器安全组如何放行端口设置教程。阿里云会要求客户设置安全组,如果不设置,阿里云会指定默认的安全组。那么,这个安全组是什么呢?顾名思义,就是为了服务器安全设置的。安全组其实就是一个虚拟的防火墙,可以让用户从端口、IP的维度来筛选对应服务器的访问者,从而形成一个云上的安全域。
6075 0
阿里云服务器如何登录?阿里云服务器的三种登录方法
购买阿里云ECS云服务器后如何登录?场景不同,云吞铺子总结大概有三种登录方式: 登录到ECS云服务器控制台 在ECS云服务器控制台用户可以更改密码、更换系统盘、创建快照、配置安全组等操作如何登录ECS云服务器控制台? 1、先登录到阿里云ECS服务器控制台 2、点击顶部的“控制台” 3、通过左侧栏,切换到“云服务器ECS”即可,如下图所示 通过ECS控制台的远程连接来登录到云服务器 阿里云ECS云服务器自带远程连接功能,使用该功能可以登录到云服务器,简单且方便,如下图:点击“远程连接”,第一次连接会自动生成6位数字密码,输入密码即可登录到云服务器上。
20973 0
1549
文章
0
问答
文章排行榜
最热
最新
相关电子书
更多
《Nacos架构&原理》
立即下载
《看见新力量:二》电子书
立即下载
云上自动化运维(CloudOps)白皮书
立即下载