试错和延迟奖励是强化学习的两个重要特征。1954—2013年为强化学习早期阶段,早期强化学习发展的过程中有3个分支,分别是最优控制、试错和时序差分,在20世纪80年代后期,3个分支融汇在一起,产生了我们现在所看到的强化学习。
进入21世纪,得益于深度学习的兴起和算力迅速的提升,海量数据得以充分使用,不仅为人工智能注入了新的机会,还推动了强化学习与深度学习更进一步的结合。2013年,DeepMind公司发布了Deep Q-Network(DQN)算法,用于Atari游戏。这掀起了深度强化学习的热潮,其应用范围从控制复杂的机械、调配网络资源,到数据中心大幅节能、市场交易策略、游戏智能、内容推荐,甚至对机器学习算法自动调参。2015年,OpenAI公司致力于研究通用人工智能。2016年3月,AlphaGo在围棋比赛中以4∶1击败顶尖职业棋手。2016年,弗拉基米尔·明(Volodymyr Mnih)等提出并行式的深度强化学习(A3C),在多个Atari游戏中胜出。2017年,AlphaZero使用纯强化学习,将价值网络和策略网络整合成一个网络,击败了AlphaGo。至此,掀起了深度强化学习研究热潮,近年来顶级会议论文不断产出,强化学习的理论进步,开源框架的逐步成熟,推动深度强化学习成为人工智能领域的新方向。
强化学习是机器学习的一个重要分支,是多学科、多领域交叉的一个产物,将深度学习的感知能力和强化学习的决策能力结合,端到端地实现从原始输入到输出的控制。早前强化学习主要用于解决控制问题,在融入了深度学习算法后应用更加广泛,例如可以获得大量自带标注的优质训练数据的游戏领域,特别是博弈类策略游戏的AlphaGo和工业级机器人等。此外,还有自然语言处理、机器翻译、文本生成、计算机视觉、推荐系统、神经网络调参、金融、医疗保健、智能电网和智能交通系统等场合。
强化学习从游戏中诞生了众多具有代表性的算法,在一些游戏中的表现甚至超过了人类玩家,如DQN算法及其各类变体在Atari游戏中表现优异。回合制棋类游戏程序“Alpha系列”使用蒙特卡洛树搜索(Monte Carlo Tree Search,MCTS)的基础架构,结合价值网络、策略网络和快速走子模块,形成完整的下棋系统。强化学习拓展了搜索树的深度和宽度,平衡探索(Exploration)与利用(Exploitation)的关系,获得了非常显著的效果。在地图不完全公开的多人电子游戏中,OpenAI Five系统在地形高度复杂、游戏地图局部观测、玩家高度配合的情况下,在游戏中战胜人类高手。
亚马逊SageMaker通过强化学习训练智能体对市场做出相应最优决策,腾讯公司也把强化学习应用于游戏中,并通过开悟等强化学习平台,联合学术界推动强化学习的创新应用。智能体将选择是否按照给定的价格买入或卖出某项资产,以实现最大长期利润。百度在强化学习方面投入大量研究和实践,将其用于新闻推荐。滴滴的人工智能实验室用强化学习为乘客匹配司机,最小化乘客等待时间。