【5分钟 Paper】Playing Atari with Deep Reinforcement Learning

简介: 【5分钟 Paper】Playing Atari with Deep Reinforcement Learning
  • 论文题目:Playing Atari with Deep Reinforcement Learning

所解决的问题?

  解决从高维传感器获取数据而端到端实现控制的难题(以前很多都是使用手工提取的特征)。所使用的例子:直接用图像数据学会控制Atari游戏,并且达到了人类水平。

背景

  在这之前已经有很多研究工作是直接从高维数据直接获取输出结果的例子。如视觉和语音方面(文末参考文献中有具体文献)。作者将这种处理技术直接用于强化学习中。而由于强化学习学习方式的特殊性(奖励延迟稀疏、状态之间高度相关,强化学习其所学习的数据会发生改变,并不会满足一个固定的分布)。因此将神经网络直接用于强化学习还是会有一定的难度的。

所采用的方法?

  文章基于1992年文献1Q-Learning算法的强化学习框架,结合卷积神经网络强大的图像处理能力从而提出了一个最基本的端到端的高维像素控制策略。

  上述框架是能处理像素这种高维数据的问题,但是强化学习本身的这种数据之间的这种相关性和数据分布的不平稳性依然没有得到解决。作者依据1993年文献2采用经验回放机制来解决这个问题。这种经验回放机制,期望强化学习,学习的分布能够从最开始随机的数据中的慢慢过渡到现在的效果比较好的这种情况中来。

  为了提高强化学习的泛化能力,采用函数近似的方法来评估动作-值函数。Q ( s , a ; θ ) ≈ Q ∗ ( s , a ) Q(s,a;\theta) \approx Q^{*}(s,a)Q(s,a;θ)Q(s,a)。其核心算法和网络的描述原文如下所示:

  这里需要看懂这个Target Network,以及公式3所有符号以及下标的含义。这个模型的算法是Model-freeoff-policy的。

  其算法伪代码如下所示:

  相比于标准的Q-Learning算法,DQN算法改进如下:

  1. 采用经验回放,样本的使用效率提高;
  2. 随机从经验池中采样,减少数据之间的相关性,会减少更新过程中的方差问题;
  3. 使用经验回放数据会不容易发散。其原文解释如下:

取得的效果?

  作者在2013年文献3所提供的环境Arcade Learning Environment (ALE)中的Atari游戏中实验。同一个网络参数和框架在三个游戏中打败了人类专家。

  最左边这两幅图描述的是平均奖励,看起来是没有收敛;但是右边两幅图预测的最大Q值要平稳很多。也算是给神经网络收敛性做了一个实验证明吧。最终取得的效果以及对后世的影响都是非常巨大的。其性能可与人类选手媲美。

所出版信息?作者信息?

  这篇文章是arXiv上面的一篇文章。第一作者Volodymyr Mnih是Toronto大学的机器学习博士,师从Geoffrey Hinton,同时也是谷歌DeepMind的研究员。硕士读的Alberta大学,师从Csaba Szepesvari

参考链接

  1. Q-Learning算法:Christopher JCH Watkins and Peter Dayan. Q-learning. Machine learning, 8(3-4):279–292, 1992.
  2. experience replay mechanism:Long-Ji Lin. Reinforcement learning for robots using neural networks. Technical report, DTIC Document, 1993.
  3. Marc G Bellemare, Yavar Naddaf, Joel Veness, and Michael Bowling. The arcade learning environment: An evaluation platform for general agents. Journal of Artificial Intelligence Research, 47:253–279, 2013.
视觉方面:
  • Alex Krizhevsky, Ilya Sutskever, and Geoff Hinton. Imagenet classification with deep convolutional neural networks. In Advances in Neural Information Processing Systems 25, pages 1106–1114, 2012.
  • Volodymyr Mnih. Machine Learning for Aerial Image Labeling. PhD thesis, University of Toronto, 2013.
  • Pierre Sermanet, Koray Kavukcuoglu, Soumith Chintala, and Yann LeCun. Pedestrian detection with unsupervised multi-stage feature learning. In Proc. International Conference on Computer Vision and Pattern Recognition (CVPR 2013). IEEE, 2013.
语音方面:
  • George E. Dahl, Dong Yu, Li Deng, and Alex Acero. Context-dependent pre-trained deep neural networks for large-vocabulary speech recognition. Audio, Speech, and Language Processing, IEEE Transactions on, 20(1):30 –42, January 2012.
  • Alex Graves, Abdel-rahman Mohamed, and Geoffrey E. Hinton. Speech recognition with deep recurrent neural networks. In Proc. ICASSP, 2013.

我的微信公众号名称:深度学习与先进智能决策

微信公众号ID:MultiAgent1024

公众号介绍:主要研究分享深度学习、机器博弈、强化学习等相关内容!期待您的关注,欢迎一起学习交流进步!

相关文章
离线安装htop
离线安装htop
1199 0
|
缓存 NoSQL Redis
Redis高并发场景下秒杀超卖解决
Redis高并发场景下秒杀超卖解决
764 0
|
数据采集 人工智能 API
Qwen2.5-Coder深夜开源炸场,Prompt编程的时代来了!
通义千问团队开源「强大」、「多样」、「实用」的 Qwen2.5-Coder 全系列,致力于持续推动 Open Code LLMs 的发展。
|
9月前
|
人工智能 JavaScript API
DeepSeek-R1满血版上线阿里云,新用户专享100万token额度,5分钟快速部署!
DeepSeek是当前AI领域的热门话题,尤其其大模型备受关注。由于网页版访问时常超时,推荐使用阿里云百炼的API调用方式快速体验。此方法仅需五分钟,提供100万免费Token,有效期至2025年7月26日。用户可通过注册阿里云账户、开通服务、创建API-Key、安装并配置ChatBox客户端等步骤轻松上手。测试结果显示,DeepSeek-R1在回答问题、解释数学概念及编写代码等方面表现优异。部署成本低、操作简便,是体验DeepSeek的理想选择。
DeepSeek-R1满血版上线阿里云,新用户专享100万token额度,5分钟快速部署!
|
10月前
|
机器学习/深度学习 人工智能 自然语言处理
Agent Laboratory:AI自动撰写论文,AMD开源自动完成科研全流程的多智能体框架
Agent Laboratory 是由 AMD 和约翰·霍普金斯大学联合推出的自主科研框架,基于大型语言模型,能够加速科学发现、降低成本并提高研究质量。
889 23
Agent Laboratory:AI自动撰写论文,AMD开源自动完成科研全流程的多智能体框架
|
11月前
|
安全 数据挖掘 BI
代理商级差制分销系统模式开发技术规则
代理商级差制分销系统开发技术规则涵盖系统架构设计、用户角色与权限管理、佣金结算、数据分析、商品分类、激励机制及合规性、技术实现与优化等方面,旨在构建稳定、安全、高效的分销平台,满足多层次代理商管理需求,提升用户体验。
|
弹性计算 自然语言处理 Windows
通义灵码 Visual Studio 下载安装指南(附安装包)
本安装步骤适用于 Windows 10 及以上操作系统中安装和使用通义灵码。
135990 21
|
网络安全 Perl
Nikto——基本使用
Nikto——基本使用
341 0
|
存储 Shell 网络安全
一文吃透 VS Code+Git 操作(vs code中git的相关配置与使用)(1)
一文吃透 VS Code+Git 操作(vs code中git的相关配置与使用)(1)
6103 0
一文吃透 VS Code+Git 操作(vs code中git的相关配置与使用)(1)
|
存储
汉字和数字站几个字节,估算内存占用情况
该文内容讲述了字符和字节的关系:中文标点占3字节,英文字母或数字占1字节,英文标点也占1字节。1字节等于8字位,1字位是1个二进制数。此外,还介绍了存储单位的换算:1B=8b,1KB=1024B,1MB=1024KB,1GB=1024MB。其中,b代表字位,B代表字节,KB是千字节,MB是兆字节,GB是吉字节。
698 2