强化学习之DQN论文介绍

简介: 强化学习之DQN论文介绍

DQN


摘要


1.基于Q-learning从高维输入学习到控制策略的卷积神经网络。


2.输入是像素,输出是奖励函数。


3.主要训练、学习Atari 2600游戏,在6款游戏中3款超越人类专家。


介绍


DQN(Deep Q-Network)是一种基于深度学习的强化学习算法,它使用深度神经网络来学习Q值函数,实现对环境中的最优行为的学习。DQN算法通过将经验存储在一个经验回放缓冲区中,以解决Q值函数的相关性问题,并使用固定的目标网络来稳定学习。在训练过程中,DQN通过选择最大Q值的动作来更新神经网络的参数,以优化Q值函数的预测能力。DQN算法在许多不同的强化学习任务中都表现出色,例如游戏玩耍和机器人控制等领域。


问题


没有大量的人工标签


数据样本之间相互独立


数据分布会发生变化


特点


DQN算法的主要特点包括:


1.基于深度学习的模型学习:DQN使用深度神经网络来学习Q值函数,可以处理高维状态空间和动作空间的问题,并且可以自动学习复杂的特征表示。


2.经验回放:DQN通过将经验存储在一个经验回放缓冲区中,以解决Q值函数的相关性问题,并从经验池中随机选择数据进行训练,以提高学习的效率和稳定性。


3.固定的目标网络:DQN使用固定的目标网络来稳定学习过程,减少Q值函数的震荡和不稳定性。


4学习的离线和在线:DQN可以通过从回放缓冲区中提取数据进行离线学习,也可以在实时任务中进行在线学习。


5.适用范围广:DQN算法适用于许多不同的强化学习任务,包括游戏玩耍、机器人控制、交通控制等领域。


6.高性能:DQN在许多强化学习任务中表现出色,甚至可以超过人类水平。


经验回放


经验回放是一种将智能体在环境中收集的经验存储在缓冲区中,以便智能体可以从中随机抽取样本进行学习的技术。以下是一个简单的经验回放示例:


考虑一个强化学习智能体正在玩一个电子游戏,每个时间步它都会观察到当前的游戏状态,并采取一个动作。该智能体将当前状态、采取的动作、获得的奖励以及转移到的下一个状态保存在一个经验元组中,然后将其添加到经验回放缓冲区中。


当智能体需要进行学习时,它可以从经验回放缓冲区中随机选择一批经验元组进行训练。通过从经验池中随机选择样本,智能体可以消除经验的时序相关性,减少样本之间的相关性,提高学习的效率和稳定性。在训练期间,智能体可以使用这些样本来更新其策略和价值函数,从而提高其性能并学会在游戏中取得更高的得分。


相关工作


在此之前最先进的是:TD-gammon。在双陆棋上取得卓越成效。


与我们工作最相近的是:NFQ。


实验


到目前为止,我们已经在七款流行的ATARI游戏上进行了实验。我们对奖励结构进行了一次更改。由于各场比赛的得分水平差异很大,我们将所有正奖励固定为1所有负奖励固定为−10奖励不变。以这种方式削减奖励限制了误差衍生工具的规模,并使其更容易在多个游戏中使用相同的学习率。同时,这可能会影响性能。因为它无法区分不同数量的奖励。


算法流程


DQN算法的流程如下:


1.初始化深度神经网络和经验回放存储器。


2.对于每个时间步,首先观察当前状态,然后根据某个随机策略或当前深度网络的输出确定一个动作。


3.执行动作,并观察下一个状态和奖励信号。


4.将当前状态、动作、奖励和下一个状态存储到经验回放存储器中。


5.从经验回放存储器中随机采样一批经验,然后计算相应的Q值,并使用MSE损失函数训练深度神经网络。


6.每隔一段时间将当前深度网络的参数复制到一个目标网络中,用于计算目标Q值。


7.重复执行2-6步,直到达到预设的训练次数或目标性能。


在训练过程中,DQN算法使用深度神经网络估计状态-动作对的Q值,并使用经验回放存储器来平稳训练,从而提高算法的收敛性和稳定性。同时,使用目标网络来稳定训练,减小训练过程中的更新幅度,从而避免Q值的不稳定性和过度估计


结论


本论文介绍了一种新的强化学习深度学习模型,并展示了其仅使用原始像素作为输入就能掌握Atari 2600电脑游戏中困难的控制策略的能力。我们还提出了一种在线Q-learning的变体,将随机小批量更新与经验回放内存相结合,以便轻松训练用于强化学习的深度网络。我们的方法在七个受测试的游戏中,在六个游戏中给出了最先进的结果,没有对架构或超参数进行任何调整。

目录
相关文章
|
存储 数据采集 分布式计算
一篇文章搞懂数据仓库:四种常见数据模型(维度模型、范式模型等)
一篇文章搞懂数据仓库:四种常见数据模型(维度模型、范式模型等)
一篇文章搞懂数据仓库:四种常见数据模型(维度模型、范式模型等)
|
10月前
|
监控 负载均衡 安全
静态IP代理与动态IP代理:提升速度与保障隐私的技术解析
本文探讨了静态IP代理和动态IP代理的特性和应用场景。静态IP代理通过高质量服务提供商、网络设置优化、定期更换IP与负载均衡及性能监控提升网络访问速度;动态IP代理则通过隐藏真实IP、增强安全性、绕过封锁和提供独立IP保障用户隐私。结合实际案例与代码示例,展示了两者在不同场景下的优势,帮助用户根据需求选择合适的代理服务以实现高效、安全的网络访问。
358 1
|
机器学习/深度学习 数据可视化
【tensorboard】深度学习的日志信息events.out.tfevents文件可视化工具
【tensorboard】深度学习的日志信息events.out.tfevents文件可视化工具
|
12月前
|
机器学习/深度学习 算法 网络安全
CCS 2024:如何严格衡量机器学习算法的隐私泄露? ETH有了新发现
在2024年CCS会议上,苏黎世联邦理工学院的研究人员提出,当前对机器学习隐私保护措施的评估可能存在严重误导。研究通过LiRA攻击评估了五种经验性隐私保护措施(HAMP、RelaxLoss、SELENA、DFKD和SSL),发现现有方法忽视最脆弱数据点、使用较弱攻击且未与实际差分隐私基线比较。结果表明这些措施在更强攻击下表现不佳,而强大的差分隐私基线则提供了更好的隐私-效用权衡。
288 14
如何在 Arduino 中使用 PWM
PWM(脉冲宽度调制)是 Arduino 中常用的技术,用于控制电机速度、LED 亮度等。通过设置数字引脚的 `analogWrite()` 函数,可以生成不同占空比的 PWM 信号,实现精确控制。
2085 2
|
C语言 C++
CLion2022安装与使用
CLion2022安装与使用
442 0
CLion2022安装与使用
|
JSON 自然语言处理 物联网
大语言模型数据增强与模型蒸馏解决方案
本方案以通义千问2(Qwen2)大语言模型为基础,为您介绍大语言模型数据增强和蒸馏解决方案的完整开发流程。
|
分布式计算 大数据 Hadoop
数据仓库(13)大数据数仓经典最值得阅读书籍推荐
从事数仓工作,在工作学习过程也看了很多数据仓库方面的数据,此处整理了数仓中经典的,或者值得阅读的书籍,推荐给大家一下,希望能帮助到大家。建议收藏起来,后续有新的书籍清单会更新到这里。
1268 2
数据仓库(13)大数据数仓经典最值得阅读书籍推荐
|
PHP 数据库 数据安全/隐私保护
Unity数据加密☀️ 三、加密DLL供Unity使用
Unity数据加密☀️ 三、加密DLL供Unity使用
|
前端开发 调度 文件存储
NR paging
IMS 是基于PS domain的网络。LTE时代,IMS建网初期,UE虽然注册IMS,但是网络仍然会下发CS domain paging,进而引起CSFB的问题。当时不少有客户提case,询问这个问题是否正常。其实这个问题只是建网初期,网络端架构不成熟引起的现象,谈不上不正常,能不漏掉paging的手机 ,都是好手机。