开发者社区 > 云计算 > 正文

《EasyRL强化学习入门与实践》第三课

发布者:开发者说 2020-03-03 16:06:11 1290
视频介绍

近年来,研究人员借助深度神经网络与传统强化学习算法的结合,在包括围棋,视频游戏,NP难组合优化问题等多种高维度复杂环境取得了前所未有的成功。

与此同时,阿里巴巴PAI团队支持集团各业务部门在搜索、推荐、多轮会话等场景上应用强化学习算法,取得了丰硕的业务成果[1],并沉淀下 EasyRL 这一易用、可扩展,且算法种类齐全的强化学习算法库。

在实践中,强化学习相较于监督学习对工程师往往提出了更高的要求,包括但不限于:

  • 监督学习往往只需要在计算图中描述目标函数并选择优化器,强化学习需要描述策略,值函数,目标的估计等等多个模块。
  • 在分布式训练的设定下,监督学习仅需要在进程间交换同质的梯度和参数,而强化学习还需要传递格式更复杂的样本(即(state, action, reward, next state)元组组成的序列)。
  • 不同流派的强化学习算法在不同场景中往往各有优劣。工程师往往需要一套较为齐全的算法库来尝试和验证不同算法。

EasyRL针对上述困难与挑战而设计,在易用性上满足用户能一键运行各种算法(包括单机和分布式设定),同时提供清晰的接口和扁平的类层次关系方便开发者复用已有模块来定制新算法。

本课内容:

  1. 强化学习实践(demo详解,EasyRL的设计,如何二次开发)
  2. 分布式强化学习(Actor-learner架构,EasyRL完全基于TensorFlow的设计与实现)

讲师介绍:

王桢(阿里巴巴 | 算法专家)
曾获 ACM/ICPC 亚洲区域赛银牌。在 MSRA 实习期间从事知识图谱方面的研究,曾在 AAAI, EMNLP 发表论文。加入阿里巴巴后关注强化学习的研发,在若干电商场景取得业务效果的提升,总结为论文或demo发表在 AAMAS和SIGIR。作为伯克利大学Ray项目的 committer 给 RLLib 贡献若干强化学习算法,同时是本次介绍的EasyRL开源项目的主要开发人员。

相关课程

03-17 19:00《EasyRL强化学习入门与实践》第一课

03-18 19:00《EasyRL强化学习入门与实践》第二课

03-19 19:00《EasyRL强化学习入门与实践》第三课