【ICLR 2018】模型集成的TRPO算法【附代码】

简介: 【ICLR 2018】模型集成的TRPO算法【附代码】
  • 论文题目:model-ensemble trust-region policy optimization

所解决的问题?

  model free的方法具有high sample complexity ,难将其用于real-world。用ensemble的方式来克服model bias。

背景

  标准的model-based方法是交替使用model learning和policy aptimization。model learning通常就是用智能体与环境的交互数据做监督学习,而策略优化部分是基于learned model做搜索,寻求策略改进。这一类算法被称作vanilla model-based RL。此类算法需要足够多的数据来学习model,所学的模型越准确,优化策略越好,在real world中也会有较好的表现。

  vanilla model-based RL在低维相对较简单问题上会有较好的处理效果,然而在连续控制问题上效果较差,并且非常不稳定。 The reason is that the policy optimization tends to exploit regions where insufficient data is available to train the model, leading to catastrophic failures. 这类问题被称作model-bias,或者也可以被视为过拟合。处理过拟合问题,当然可以从监督学习算法方面寻求灵感,比如加regularization或者cross validation,这类算法处理的数据满足独立同分布,而model-based强化学习算法中数据稀缺,模型不精准,如果再引入像神经网络这样的expressive models只会恶化结果。

  model-based的方法最多的用于机器人领域。效果较好的是线性模型的方法。然而这种方法对复杂非线性系统,或者说高维状态空间系统效果不好。另一种办法就是非参数的高斯过程的方法(GP),这类方法有维度灾难的问题,目前主要用于低维空间。

  尽管也有一些基于神经网络的model-based 强化学习方法效果还是不太好。对于一些较难的控制对象,通常会结合model-free的强化学习方法或者是结合特定领域的学习和规划算法。

所采用方法

  原始的MBRL方法:

  作者采用一个ensemble Neural Network来处理enviorment中数据的不确定性。其实说白了就是model的学习用了一个集成的神经网络来做。使用交替执行model learning和policy learning,与固定dataset学习model的方法相比,能够处理更具挑战性的任务。

  本文是假定奖励函数已知,而状态转移概率未知来做的,因此并未学习奖励函数。

Model Learning

  model learning的过程中,作者使用神经网络去预测状态的改变量,而不是预测下一个状态。这会使得神经网络不需要去记住输入状态。这种做法在上下状态改变较小的情况下会比较有效。其loss函数如下:

image.png

Policy Learning

  Policy Learning的目标是:

image.png


  其中ϕ \phiϕ表示的就是model用的是所学的model。

ME-TRPO

取得的效果?

  策略学习效果鲁棒性更强,较好避免过拟合。达到了与SOTA model-free算法相同的结果。

所出版信息?作者信息?

  一篇来自伯克利的文章,一作Thanard Kurutach是加州大学伯克利分校AI研究(BAIR)的博士,由Stuart Russell教授和Pieter Abbeel教授共同指导。兴趣是开发使机器人能够通过学习和计划有效解决复杂决策问题的算法。

  个人主页:http://people.eecs.berkeley.edu/~thanard.kurutach/

其它链接

相关文章
|
12天前
|
IDE Linux API
轻松在本地部署 DeepSeek 蒸馏模型并无缝集成到你的 IDE
本文将详细介绍如何在本地部署 DeepSeek 蒸馏模型,内容主要包括 Ollama 的介绍与安装、如何通过 Ollama 部署 DeepSeek、在 ChatBox 中使用 DeepSeek 以及在 VS Code 中集成 DeepSeek 等。
1061 14
轻松在本地部署 DeepSeek 蒸馏模型并无缝集成到你的 IDE
|
4天前
|
机器学习/深度学习 算法
扩散模型=进化算法!生物学大佬用数学揭示本质
在机器学习与生物学交叉领域,Tufts和Harvard大学研究人员揭示了扩散模型与进化算法的深刻联系。研究表明,扩散模型本质上是一种进化算法,通过逐步去噪生成数据点,类似于进化中的变异和选择机制。这一发现不仅在理论上具有重要意义,还提出了扩散进化方法,能够高效识别多解、处理高维复杂参数空间,并显著减少计算步骤,为图像生成、视频合成及神经网络优化等应用带来广泛潜力。论文地址:https://arxiv.org/pdf/2410.02543。
31 21
|
10天前
|
人工智能 算法 搜索推荐
单纯接入第三方模型就无需算法备案了么?
随着人工智能的发展,企业接入第三方模型提升业务能力的现象日益普遍,但算法备案问题引发诸多讨论。根据相关法规,无论使用自研或第三方模型,只要涉及向中国境内公众提供算法推荐服务,企业均需履行备案义务。这不仅因为服务性质未变,风险依然存在,也符合监管要求。备案内容涵盖模型基本信息、算法优化目标等,且需动态管理。未备案可能面临法律和运营风险。建议企业提前规划、合规管理和积极沟通,确保合法合规运营。
|
1月前
|
人工智能 数据可视化 开发者
FlowiseAI:34K Star!集成多种模型和100+组件的 LLM 应用低代码开发平台,拖拽组件轻松构建程序
FlowiseAI 是一款开源的低代码工具,通过拖拽可视化组件,用户可以快速构建自定义的 LLM 应用程序,支持多模型集成和记忆功能。
112 14
FlowiseAI:34K Star!集成多种模型和100+组件的 LLM 应用低代码开发平台,拖拽组件轻松构建程序
|
23天前
|
人工智能 JSON 数据可视化
集成500+多模态现实任务!全新MEGA-Bench评测套件:CoT对开源模型反而有害?
多模态模型在处理图像、文本、音频等数据方面能力不断提升,但其性能评估一直是个挑战。为此,研究团队推出了MEGA-Bench评测套件,集成505个现实任务,涵盖广泛领域和数据类型,由16位专家标注。它采用灵活输出格式,提供多维度评估指标,并配有交互式可视化工具,为模型优化提供了重要支持。然而,评估过程复杂且耗时,COT方法对开源模型性能的影响也值得探讨。论文链接:https://arxiv.org/abs/2410.10563
56 29
|
1月前
|
机器学习/深度学习 人工智能 算法
机器学习算法的优化与改进:提升模型性能的策略与方法
机器学习算法的优化与改进:提升模型性能的策略与方法
265 13
机器学习算法的优化与改进:提升模型性能的策略与方法
|
2月前
|
算法
基于模糊PI控制算法的龙格库塔CSTR模型控制系统simulink建模与仿真
本项目基于MATLAB2022a,采用模糊PI控制算法结合龙格-库塔方法,对CSTR模型进行Simulink建模与仿真。通过模糊控制处理误差及变化率,实现精确控制。核心在于将模糊逻辑与经典数值方法融合,提升系统性能。
|
2月前
|
存储 算法
基于HMM隐马尔可夫模型的金融数据预测算法matlab仿真
本项目基于HMM模型实现金融数据预测,包括模型训练与预测两部分。在MATLAB2022A上运行,通过计算状态转移和观测概率预测未来值,并绘制了预测值、真实值及预测误差的对比图。HMM模型适用于金融市场的时间序列分析,能够有效捕捉隐藏状态及其转换规律,为金融预测提供有力工具。
|
1天前
|
算法 数据安全/隐私保护 计算机视觉
基于FPGA的图像双线性插值算法verilog实现,包括tb测试文件和MATLAB辅助验证
本项目展示了256×256图像通过双线性插值放大至512×512的效果,无水印展示。使用Matlab 2022a和Vivado 2019.2开发,提供完整代码及详细中文注释、操作视频。核心程序实现图像缩放,并在Matlab中验证效果。双线性插值算法通过FPGA高效实现图像缩放,确保质量。
|
1月前
|
算法 数据安全/隐私保护 计算机视觉
基于Retinex算法的图像去雾matlab仿真
本项目展示了基于Retinex算法的图像去雾技术。完整程序运行效果无水印,使用Matlab2022a开发。核心代码包含详细中文注释和操作步骤视频。Retinex理论由Edwin Land提出,旨在分离图像的光照和反射分量,增强图像对比度、颜色和细节,尤其在雾天条件下表现优异,有效解决图像去雾问题。

热门文章

最新文章