【AAAI 2020 阿里巴巴论文】不使用模型的强化学习算法比如DDPG虽然在一些问题上获得了成功,但是由于需要样本数量过大,采样效率过低,在真实的场景应用能力有限。因而我们考虑使用模型的方式,对环境和奖励函数进行建模以及学习,从而提高样本利用效率。而传统的基于模型生成虚拟样本的方法,虽然能够带来采样效率提升,但是和真实环境存在误差,容易陷入局部最优。因而我们直接利用模型优化确定性策略,首先证明了该场景下的长期奖励函数梯度存在性。然后,结合基于模型的确定性值梯度估计器和无模型的确定性策略梯度估计器,我们提出了确定性的价值策略梯度算法(DVPG)。 我们在几个标准的强化学习算法评估环境上,将DVPG与其他分支的强化学习算法进行了比较。结果表明,DVPG在采样效率和最终效果上明显优于SVG(随机值函数梯度),DDPG,TRPO(无模型的随机策略算法)和其他基于模型的强化学习算法。 业务结合情况:目前算法技术已用于lazada搜索场景的重排序算法中。
纬地;潘玲;唐平中