强化学习中,如何从稀疏和不明确的反馈中学习泛化

简介: 谷歌 AI 新发布的博文

雷锋网 AI 科技评论按,强化学习(RL)为优化面向目标的行为提供了一个统一而灵活的框架,在解决诸如玩电子游戏、连续控制和机器人学习等具有挑战性的任务方面取得了显著的成功。在这些应用领域中,RL 算法的成功通常取决于高质量和高密度反馈的可用性。然而,将 RL 算法的适用范围扩大到稀疏和反馈不明确的环境是一个持续的挑战。

近日,谷歌 AI 发布以一篇博文讨论了这个问题,雷锋网 AI 科技评论编译整理如下。

研究此类问题中 RL 算法性能的一种常用方法是通过语言理解任务,在该任务中,代理接收自然语言输入,并且生成复杂的响应以实现输入中指定的目标,同时它只接收二进制形式的成功或者失败反馈。

例如一个「盲」代理,通过遵循一系列自然语言命令(例如,「right,up,up,right」)来获得迷宫中目标的位置。给定输入文本,代理(绿圈)需要解释命令,并根据这些解释采取措施来生成操作序列(a)。如果达到目标(红星),代理将获得 1 次奖励,否则没有奖励。由于代理无法访问任何可视信息,因此代理完成此任务并归纳出新指令的唯一方法是正确理解指令。

TB1Ac24JAPoK1RjSZKbXXX1IXXa.png

可以看到,按照轨迹 a1、a2 和 a3 可以达到目标。

在这些任务中,RL 代理需要从稀疏(只有一些轨迹会产生反馈)和未指定(没有区分有意义的成功和偶然的成功)反馈中学习泛化。重要的是,由于未指定反馈,代理可能会收到虚假的正反馈。这可能导致奖励黑客行为,使得部署实际系统时出现意外和有害行为。

在「从稀疏和不确定的反馈中学习泛化」时,我们通过开发元奖励学习(MeRL)来解决反馈不确定的问题,该方法通过优化辅助奖励函数向代理提供更精细的反馈。MERL 使用一种新的探索策略与成功轨迹的记忆缓冲区相结合,并从稀疏反馈中学习。我们方法的有效性在语义分析上得到了证明,语义分析的目标是学习从自然语言到逻辑形式的映射(例如,将问题映射到 SQL 程序)。本文研究了弱监督问题的设置,其目的是在没有任何形式的程序监督的情况下,自动从问答对中发现逻辑程序。例如,给定问题「哪个国家获得的银牌最多?」以及与之相关的维基百科表格,代理需要生成一个类似 SQL 的程序,从而得到正确的答案(例如,「尼日利亚」)。

TB1jzj.JxYaK1RjSZFnXXa80pXa.png

该方法在 WikiTableQuestions 和 WikiSQL 达到了最先进成果的基准,相比于之前的方法,其效果分别提高了 1.2% 和 2.4%。不同于以前的学习方法,MeRL 自动学习辅助奖励函数而不需要任何专家演示,这使其应用更加广泛。下图是我们方法的概述:

TB1vIH3JAzoK1RjSZFlXXai4VXa.png

本文方法概述。我们采用(1)涵盖探索的模式,在内存缓冲区中收集一组不同的成功轨迹;(2)采用元学习或贝叶斯优化,以学习辅助奖励,为策略优化提供更精确的反馈。

元奖励学习(MeRL)

MeRL 在处理不明确反馈方面的关键是,意外成功的虚假轨迹和程序对代理的泛化性能有害。例如,代理可能只能处理上面迷宫问题的特定实例。然而,如果它在训练中学习了虚假的实例,那么当它遇到没有见过的指令时,很可能会失败。为了改善这个问题,MeRL 优化了一个更精细的辅助奖励函数,它可以根据轨迹的特征区分是否为意外成功。

TB13.bYJpYqK1RjSZLeXXbXppXa.png

MeRL 示意图:通过从辅助奖励模型中获得的奖励信号对 RL 代理进行训练,而辅助奖励则通过代理的泛化误差进行训练。

从稀疏反馈中学习

要从稀疏反馈中学习,有效的探索对于找到一系列成功的轨迹至关重要。本文利用 Kullback–Leibler (KL) 散度的两个方向来解决这一挑战。在下面的例子中,我们使用 kl 散度来最小化固定双峰(紫色阴影)和学习高斯(绿色阴影)分布之间的差异,这可以分别表示代理的最优策略和我们的学习策略的分布。KL 目标的一个方向学习一个分布,该分布试图涵盖两种模式,而其他目标学习的分布寻求一种特定模式(即,它更喜欢一种模式而不是另一种模式)。我们的方法利用了 KL 集中于多个峰值模式的倾向来收集不同的成功轨迹集,并通过模式寻找 KL 在轨迹之间的隐含偏好来学习一个稳健的策略。

TB1KLjZJyrpK1RjSZFhXXXSdXXa.png

左:覆盖模式 KL,右:寻优模式 KL

结论

设计区分最优和次优行为的奖励函数对于将 RL 应用到实际中至关重要。这项研究在没有任何人类监督的情况下,朝着创建奖励函数的方向迈出了一小步。在今后的工作中,我们希望从自动学习密集奖励函数的角度来解决 RL 中的信用分配问题。雷锋网(公众号:雷锋网)

via:https://ai.googleblog.com/2019/02/learning-to-generalize-from-sparse-and.html

雷锋网版权文章,未经授权禁止转载。详情见转载须知。

目录
相关文章
|
2月前
|
机器学习/深度学习 资源调度 算法
增强回归模型的可解释性:基于MCMC的混合建模与特征选择方法研究
本文介绍了一种基于正态回归混合模型的通用实现方法,结合MCMC算法,在参数估计的同时实现模型选择和特征选择。该方法突破了正态性假设限制,适用于非正态和非线性数据集,并通过回归混合和特征选择机制提升模型可解释性和性能。实验结果表明,该模型在复杂数据分类和参数估计方面表现出色,错误率仅为6%。此方法在客户群体识别、医疗数据分析等领域具有广泛应用价值。
80 10
增强回归模型的可解释性:基于MCMC的混合建模与特征选择方法研究
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
C++构建 GAN 模型:生成器与判别器平衡训练的关键秘籍
生成对抗网络(GAN)是AI领域的明星,尤其在C++中构建时,平衡生成器与判别器的训练尤为关键。本文探讨了GAN的基本架构、训练原理及平衡训练的重要性,提出了包括合理初始化、精心设计损失函数、动态调整学习率、引入正则化技术和监测训练过程在内的五大策略,旨在确保GAN模型在C++环境下的高效、稳定训练,以生成高质量的结果,推动AI技术的发展。
110 10
|
5月前
|
机器学习/深度学习 算法 安全
大模型进阶微调篇(二):基于人类反馈的强化学习RLHF原理、优点介绍,但需要警惕LLMs的拍马屁行为
本文探讨了基于人类反馈的强化学习(RLHF)方法的优缺点。作者指出,虽然RLHF能够使模型更好地满足用户需求,但也存在缺乏多样性、创新不足、偏好固化和难以适应动态变化等问题。文章通过具体实验和示例代码,详细解析了RLHF的工作原理,并强调了其在实际应用中的潜在风险。
505 6
|
9月前
|
机器学习/深度学习 人工智能 算法
【机器学习】RLHF:在线方法与离线算法在大模型语言模型校准中的博弈
【机器学习】RLHF:在线方法与离线算法在大模型语言模型校准中的博弈
407 6
|
10月前
|
机器学习/深度学习
【机器学习】噪声数据对贝叶斯模型有什么样的影响?
【5月更文挑战第10天】【机器学习】噪声数据对贝叶斯模型有什么样的影响?
|
10月前
|
机器学习/深度学习 人工智能 运维
【机器学习】Adaboost: 强化弱学习器的自适应提升方法
在机器学习领域,集成学习是一种通过结合多个弱模型以构建更强大预测模型的技术。Adaptive Boosting,简称Adaboost,是集成学习中的一种经典算法,由Yoav Freund和Robert Schapire于1996年提出。Adaboost通过迭代方式,自适应地调整数据样本的权重,使得每个后续的弱学习器更加关注前序学习器表现不佳的样本,以此逐步提高整体预测性能。本文将深入探讨Adaboost的工作原理、算法流程、关键特性、优势及应用场景,并简要介绍其实现步骤。
154 1
|
9月前
|
机器学习/深度学习 人工智能 自然语言处理
【机器学习】自然语言引导下的单目深度估计:泛化能力与鲁棒性的新挑战
【机器学习】自然语言引导下的单目深度估计:泛化能力与鲁棒性的新挑战
102 0
|
10月前
|
自然语言处理
论文推荐:用多词元预测法提高模型效率与速度
《Better & Faster Large Language Models via Multi-token Prediction》论文提出了一种多词元预测框架,改善了大型语言模型(LLMs)的样本效率和推理速度。该方法通过一次预测多个词元,而非单个词元,提高了模型在编程和自然语言任务中的性能。实验显示,多词元预测在HumanEval和MBPP任务上性能提升,推理速度最高可提升3倍。此外,自我推测解码技术进一步优化了解码效率。尽管在小模型中效果不明显,但该方法为大模型训练和未来研究开辟了新途径。
243 0
|
10月前
|
机器学习/深度学习 自然语言处理 算法
【大模型】关于减轻 LLM 训练数据和算法中偏差的研究
【5月更文挑战第6天】【大模型】关于减轻 LLM 训练数据和算法中偏差的研究
|
10月前
|
数据采集
【大模型】大语言模型训练数据中的偏差概念及其可能的影响?
【5月更文挑战第5天】【大模型】大语言模型训练数据中的偏差概念及其可能的影响?