【CoRL 2018】通过元策略优化的MBRL算法

简介: 【CoRL 2018】通过元策略优化的MBRL算法
  • 论文题目:Model-Based Reinforcement Learning via Meta-Policy Optimization

所解决的问题?

  提出一种不依赖于learned dynamic model精度的学习算法Model-Based Meta-Policy-Optimization (MB-MPO),。同样是使用emsemble的方法集成learned model,然后用meta-train的方法学一个policy,使得其能够对任意一个model都具有较好的学习效果。最终使得算法的鲁棒性更强。

背景

  之前的大多数model-based方法都集中在trajectory sample和dynamic model train这两个步骤。如用贝叶神经网络的这些方法。贝叶斯的方法一般用于低维空间,神经网络虽然具备用于高维空间的潜力,但是很大程度会依赖模型预测的精度才能取得较好效果。

  也有前人工作是解决model学习不准确的问题,与本文最相似的就是EM-TRPO算法,而本文采用的是元学习算法,指在模型不精确的情况下加强其鲁棒性。

所采用的方法?

Model Learning

  在学习model的时候,作者学习的是状态的改变量。用的是one-step预测:

image.png

 为了防止过拟合,作者采用以下三点:

  1. early stopping the training based on the validation loss;
  2. normalizing the inputs and outputs of the neural network;
  3. weight normalization
  • T.Salimans and D.P.Kingma. Weight Normalization: A Simple Reparameterization to Accelerate Training of Deep Neural Networks. In NIPS, 2 2016.

Meta-Reinforcement Learningon Learned Models

  Each task constitutes a different belief about what the dynamics in the true environment could be. 优化目标为:

image.png

20200408164640299.png


  这里是直接学习如何调整θ \thetaθ,而不是从学好的模型的数据中学习policy,这也是与ME-TRPO的区别。

取得的效果?

  与model-free算法对比:

20200408165630856.png

  与model-based算法对比:

  作者还做了一些实验与MR-TRPO算法对比,感兴趣可以参考原文。

所出版信息?作者信息?

  Ignasi Clavera 加州大学伯克利分校 CS的三年级博士生,导师伯克利人工智能研究(BAIR)实验室的Pieter Abbeel。研究方向是机器学习与控制的交集,旨在使机器人系统能够学习如何有效地执行复杂的任务。

参考链接


相关文章
|
1天前
|
存储 关系型数据库 分布式数据库
PolarDB的PolarStore存储引擎以其高效的索引结构、优化的数据压缩算法、出色的事务处理能力著称
PolarDB的PolarStore存储引擎以其高效的索引结构、优化的数据压缩算法、出色的事务处理能力著称。本文深入解析PolarStore的内部机制及优化策略,包括合理调整索引、优化数据分布、控制事务规模等,旨在最大化其性能优势,提升数据存储与访问效率。
11 5
|
15天前
|
算法 调度
基于遗传模拟退火混合优化算法的车间作业最优调度matlab仿真,输出甘特图
车间作业调度问题(JSSP)通过遗传算法(GA)和模拟退火算法(SA)优化多个作业在并行工作中心上的加工顺序和时间,以最小化总完成时间和机器闲置时间。MATLAB2022a版本运行测试,展示了有效性和可行性。核心程序采用作业列表表示法,结合遗传操作和模拟退火过程,提高算法性能。
|
16天前
|
人工智能 算法 大数据
Linux内核中的调度算法演变:从O(1)到CFS的优化之旅###
本文深入探讨了Linux操作系统内核中进程调度算法的发展历程,聚焦于O(1)调度器向完全公平调度器(CFS)的转变。不同于传统摘要对研究背景、方法、结果和结论的概述,本文创新性地采用“技术演进时间线”的形式,简明扼要地勾勒出这一转变背后的关键技术里程碑,旨在为读者提供一个清晰的历史脉络,引领其深入了解Linux调度机制的革新之路。 ###
|
26天前
|
人工智能 算法 数据安全/隐私保护
基于遗传优化的SVD水印嵌入提取算法matlab仿真
该算法基于遗传优化的SVD水印嵌入与提取技术,通过遗传算法优化水印嵌入参数,提高水印的鲁棒性和隐蔽性。在MATLAB2022a环境下测试,展示了优化前后的性能对比及不同干扰下的水印提取效果。核心程序实现了SVD分解、遗传算法流程及其参数优化,有效提升了水印技术的应用价值。
|
26天前
|
存储 缓存 算法
优化轮询算法以提高资源分配的效率
【10月更文挑战第13天】通过以上这些优化措施,可以在一定程度上提高轮询算法的资源分配效率,使其更好地适应不同的应用场景和需求。但需要注意的是,优化策略的选择和实施需要根据具体情况进行详细的分析和评估,以确保优化效果的最大化。
|
27天前
|
并行计算 算法 IDE
【灵码助力Cuda算法分析】分析共享内存的矩阵乘法优化
本文介绍了如何利用通义灵码在Visual Studio 2022中对基于CUDA的共享内存矩阵乘法优化代码进行深入分析。文章从整体程序结构入手,逐步深入到线程调度、矩阵分块、循环展开等关键细节,最后通过带入具体值的方式进一步解析复杂循环逻辑,展示了通义灵码在辅助理解和优化CUDA编程中的强大功能。
|
27天前
|
存储 缓存 算法
前端算法:优化与实战技巧的深度探索
【10月更文挑战第21天】前端算法:优化与实战技巧的深度探索
21 1
|
28天前
|
机器学习/深度学习 算法 数据安全/隐私保护
基于贝叶斯优化CNN-LSTM网络的数据分类识别算法matlab仿真
本项目展示了基于贝叶斯优化(BO)的CNN-LSTM网络在数据分类中的应用。通过MATLAB 2022a实现,优化前后效果对比明显。核心代码附带中文注释和操作视频,涵盖BO、CNN、LSTM理论,特别是BO优化CNN-LSTM网络的batchsize和学习率,显著提升模型性能。
|
28天前
|
数据采集 缓存 算法
算法优化的常见策略有哪些
【10月更文挑战第20天】算法优化的常见策略有哪些
|
28天前
|
缓存 分布式计算 监控
算法优化:提升程序性能的艺术
【10月更文挑战第20天】算法优化:提升程序性能的艺术