- 论文题目:Autonomous Helicopter Control using Reinforcement Learning Policy Search Methods
所解决的问题?
将策略搜索方法用于直升机控制(外环控制)。并建立了一个对所学得的model鲁棒性更强的框架。
背景
传统的基于模型的强化学习算法make a certainty equivalence assumption on their learned models,然后使用动态规划的算法进行求解,然而将其用于实际问题还是会存在许多问题:
- 实际问题状态观测通常是非完美的,是POMDP问题。
- Physical Systems 通常具有较高维度的状态空间,存在维度灾难问题(curse of dimensionality)。并且不管你使用何种学习算法,其都不能学习到控制系统的微妙之处,因此我们期望控制算法对undermodeling(model bias)具有一定的鲁棒性。
- 在实际的问题中采样成本比较高。算法需要权衡探索和利用的关系,用于最大程度减少采样。
所采用方法
modeling
控制器
控制器用的PD和贝叶斯优化什么的,作者在总结中提到了将策略搜索用于内层循环,也就是Dyna框架。
感兴趣的看原文吧,我已经看地晕晕地。看早些年的论文经常都是看得不明不白。