近年来,研究人员借助深度神经网络与传统强化学习算法的结合,在包括围棋,视频游戏,NP难组合优化问题等多种高维度复杂环境取得了前所未有的成功。
与此同时,阿里巴巴PAI团队支持集团各业务部门在搜索、推荐、多轮会话等场景上应用强化学习算法,取得了丰硕的业务成果[1],并沉淀下 EasyRL 这一易用、可扩展,且算法种类齐全的强化学习算法库。
在实践中,强化学习相较于监督学习对工程师往往提出了更高的要求,包括但不限于:
EasyRL针对上述困难与挑战而设计,在易用性上满足用户能一键运行各种算法(包括单机和分布式设定),同时提供清晰的接口和扁平的类层次关系方便开发者复用已有模块来定制新算法。
王桢(阿里巴巴 | 算法专家)
曾获 ACM/ICPC 亚洲区域赛银牌。在 MSRA 实习期间从事知识图谱方面的研究,曾在 AAAI, EMNLP 发表论文。加入阿里巴巴后关注强化学习的研发,在若干电商场景取得业务效果的提升,总结为论文或demo发表在 AAMAS和SIGIR。作为伯克利大学Ray项目的 committer 给 RLLib 贡献若干强化学习算法,同时是本次介绍的EasyRL开源项目的主要开发人员。
03-17 19:00《EasyRL强化学习入门与实践》第一课