【ICLR 2018】模型集成的TRPO算法【附代码】

简介: 【ICLR 2018】模型集成的TRPO算法【附代码】
  • 论文题目:model-ensemble trust-region policy optimization

所解决的问题?

  model free的方法具有high sample complexity ,难将其用于real-world。用ensemble的方式来克服model bias。

背景

  标准的model-based方法是交替使用model learning和policy aptimization。model learning通常就是用智能体与环境的交互数据做监督学习,而策略优化部分是基于learned model做搜索,寻求策略改进。这一类算法被称作vanilla model-based RL。此类算法需要足够多的数据来学习model,所学的模型越准确,优化策略越好,在real world中也会有较好的表现。

  vanilla model-based RL在低维相对较简单问题上会有较好的处理效果,然而在连续控制问题上效果较差,并且非常不稳定。 The reason is that the policy optimization tends to exploit regions where insufficient data is available to train the model, leading to catastrophic failures. 这类问题被称作model-bias,或者也可以被视为过拟合。处理过拟合问题,当然可以从监督学习算法方面寻求灵感,比如加regularization或者cross validation,这类算法处理的数据满足独立同分布,而model-based强化学习算法中数据稀缺,模型不精准,如果再引入像神经网络这样的expressive models只会恶化结果。

  model-based的方法最多的用于机器人领域。效果较好的是线性模型的方法。然而这种方法对复杂非线性系统,或者说高维状态空间系统效果不好。另一种办法就是非参数的高斯过程的方法(GP),这类方法有维度灾难的问题,目前主要用于低维空间。

  尽管也有一些基于神经网络的model-based 强化学习方法效果还是不太好。对于一些较难的控制对象,通常会结合model-free的强化学习方法或者是结合特定领域的学习和规划算法。

所采用方法

  原始的MBRL方法:

  作者采用一个ensemble Neural Network来处理enviorment中数据的不确定性。其实说白了就是model的学习用了一个集成的神经网络来做。使用交替执行model learning和policy learning,与固定dataset学习model的方法相比,能够处理更具挑战性的任务。

  本文是假定奖励函数已知,而状态转移概率未知来做的,因此并未学习奖励函数。

Model Learning

  model learning的过程中,作者使用神经网络去预测状态的改变量,而不是预测下一个状态。这会使得神经网络不需要去记住输入状态。这种做法在上下状态改变较小的情况下会比较有效。其loss函数如下:

image.png

Policy Learning

  Policy Learning的目标是:

image.png


  其中ϕ \phiϕ表示的就是model用的是所学的model。

ME-TRPO

取得的效果?

  策略学习效果鲁棒性更强,较好避免过拟合。达到了与SOTA model-free算法相同的结果。

所出版信息?作者信息?

  一篇来自伯克利的文章,一作Thanard Kurutach是加州大学伯克利分校AI研究(BAIR)的博士,由Stuart Russell教授和Pieter Abbeel教授共同指导。兴趣是开发使机器人能够通过学习和计划有效解决复杂决策问题的算法。

  个人主页:http://people.eecs.berkeley.edu/~thanard.kurutach/

其它链接

相关文章
|
14小时前
|
机器学习/深度学习 人工智能 自然语言处理
算法金 | Transformer,一个神奇的算法模型!!
**Transformer 模型的核心是自注意力机制,它改善了长序列理解,让每个单词能“注意”到其他单词。自注意力通过查询、键和值向量计算注意力得分,多头注意力允许并行处理多种关系。残差连接和层归一化加速训练并提升模型稳定性。该机制广泛应用于NLP和图像处理,如机器翻译和图像分类。通过预训练模型微调和正则化技术可进一步优化。**
17 1
算法金 | Transformer,一个神奇的算法模型!!
|
14小时前
|
机器学习/深度学习 人工智能 分布式计算
Java中的机器学习模型集成与训练
Java中的机器学习模型集成与训练
|
19小时前
|
机器学习/深度学习 分布式计算 算法
Java中的机器学习模型集成与训练实践
Java中的机器学习模型集成与训练实践
|
19小时前
|
机器学习/深度学习 算法 Java
Java中的机器学习模型集成与训练策略
Java中的机器学习模型集成与训练策略
|
1天前
|
人工智能 算法
从RLHF到DPO再到TDPO,大模型对齐算法已经是token-level
【7月更文挑战第1天】在AI领域的语言模型对齐研究中,新提出的TDPO算法实现了Token-level的直接优化。不同于以往在答案级别评估的方法,TDPO利用前向KL散度和Bradley-Terry模型,直接在生成过程的Token层面上调整对齐,提高微调精度和多样性。实验显示,TDPO优于DPO和RLHF,在某些任务上表现出色,但也面临计算资源需求高、处理复杂任务时局限性等问题,需要进一步验证和改进。[论文链接](https://arxiv.org/abs/2404.11999)
15 8
|
1天前
|
机器学习/深度学习 人工智能 Java
Java与AI集成开发:机器学习模型部署
Java与AI集成开发:机器学习模型部署
|
2天前
|
机器学习/深度学习 算法 Python
使用Python实现深度学习模型:演化策略与遗传算法
使用Python实现深度学习模型:演化策略与遗传算法
5 0
|
5天前
|
算法 数据可视化 网络安全
清华等高校推出首个开源大模型水印工具包MarkLLM,支持近10种最新水印算法
【6月更文挑战第27天】清华大学等高校发布了开源工具MarkLLM,这是首个专注于大语言模型水印的工具包,支持近10种先进算法。该工具统一了水印实现,便于比较和使用,旨在促进水印技术在保障信息真实性和网络安全上的应用。MarkLLM提供直观界面、可视化及自动化评估,推动了大模型水印研究的进步。[论文链接:](https://arxiv.org/abs/2405.10051)**
10 5
|
4天前
|
消息中间件 Java Kafka
教程:Spring Boot集成Kafka Streams流处理框架
教程:Spring Boot集成Kafka Streams流处理框架
|
4天前
|
安全 Java API
技术笔记:SpringBoot集成Swagger3.0(详细)
技术笔记:SpringBoot集成Swagger3.0(详细)