近年来,研究人员借助深度神经网络与传统强化学习算法的结合,在包括围棋,视频游戏,NP难组合优化问题等多种高维度复杂环境取得了前所未有的成功。
与此同时,阿里巴巴PAI团队支持集团各业务部门在搜索、推荐、多轮会话等场景上应用强化学习算法,取得了丰硕的业务成果[1],并沉淀下 EasyRL 这一易用、可扩展,且算法种类齐全的强化学习算法库。
在实践中,强化学习相较于监督学习对工程师往往提出了更高的要求,包括但不限于:
EasyRL针对上述困难与挑战而设计,在易用性上满足用户能一键运行各种算法(包括单机和分布式设定),同时提供清晰的接口和扁平的类层次关系方便开发者复用已有模块来定制新算法。
03-17 19:00《EasyRL强化学习入门与实践》第一课