- 论文题目:Reinforcement Learning with Parameterized Actions
所解决的问题?
背景
参数化动作空间说的就是一个离散动作带有一个向量化的参数。在每个决策步,一个智能体需要决策哪个动作去执行,并且这个动作带哪个参数去执行。
所采用的方法?
其算法伪代码为:
作者还提供了一个理论分析证明,之后要是会用到再补吧。
参数化动作空间说的就是一个离散动作带有一个向量化的参数。在每个决策步,一个智能体需要决策哪个动作去执行,并且这个动作带哪个参数去执行。
其算法伪代码为:
作者还提供了一个理论分析证明,之后要是会用到再补吧。