【NeurIPS 2019】最大熵的蒙特卡洛规划算法-阿里云开发者社区

【NeurIPS 2019】最大熵的蒙特卡洛规划算法

2023-08-05 125

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【NeurIPS 2019】最大熵的蒙特卡洛规划算法

论文题目：Maximum Entropy Monte-Carlo Planning

所解决的问题？

作者提出了一个新的stochastic softmax bandit框架；
将其扩展到MCTS上，得到了Maximum Entropy for Tree Search (MENTS)算法。

将softmax state value引入，在back-propaganda过程中会更容易收敛。作者在理论和实验部分都验证了这两个想法。

背景

MCTS

Monte Carlo Tree Search (MCTS)是一种非常好的能够获取全局最优的算法，同时也可以通过引入先验知识对其进行加强。它的核心问题在于exploitation和exploration的平衡。而MCTS的收敛性高度依赖于state value的 estimation。而MCTS通过simulation获得当前状态的估计这种做法并不是非常高效，因此在sample的过程中你的policy会发生改变，导致你的序列期望收益会发生漂移(drift)，因此 UCT can only guarantee a polynomial convergence rate of ﬁnding the best action at the root。MCTS主要可以分为两步：1. tree policy选择action，直到到达叶子节点。2. 一个evaluation function需要评估simulation return，你可以选择近函数近似的方式来逼近这个值，但是在MCTS中采用的是roll-out policy获取simulation return。