【5分钟 Paper】Playing Atari with Deep Reinforcement Learning

简介: 【5分钟 Paper】Playing Atari with Deep Reinforcement Learning
  • 论文题目:Playing Atari with Deep Reinforcement Learning

所解决的问题?

  解决从高维传感器获取数据而端到端实现控制的难题(以前很多都是使用手工提取的特征)。所使用的例子:直接用图像数据学会控制Atari游戏,并且达到了人类水平。

背景

  在这之前已经有很多研究工作是直接从高维数据直接获取输出结果的例子。如视觉和语音方面(文末参考文献中有具体文献)。作者将这种处理技术直接用于强化学习中。而由于强化学习学习方式的特殊性(奖励延迟稀疏、状态之间高度相关,强化学习其所学习的数据会发生改变,并不会满足一个固定的分布)。因此将神经网络直接用于强化学习还是会有一定的难度的。

所采用的方法?

  文章基于1992年文献1Q-Learning算法的强化学习框架,结合卷积神经网络强大的图像处理能力从而提出了一个最基本的端到端的高维像素控制策略。

  上述框架是能处理像素这种高维数据的问题,但是强化学习本身的这种数据之间的这种相关性和数据分布的不平稳性依然没有得到解决。作者依据1993年文献2采用经验回放机制来解决这个问题。这种经验回放机制,期望强化学习,学习的分布能够从最开始随机的数据中的慢慢过渡到现在的效果比较好的这种情况中来。

  为了提高强化学习的泛化能力,采用函数近似的方法来评估动作-值函数。Q ( s , a ; θ ) ≈ Q ∗ ( s , a ) Q(s,a;\theta) \approx Q^{*}(s,a)Q(s,a;θ)Q(s,a)。其核心算法和网络的描述原文如下所示:

  这里需要看懂这个Target Network,以及公式3所有符号以及下标的含义。这个模型的算法是Model-freeoff-policy的。

  其算法伪代码如下所示:

  相比于标准的Q-Learning算法,DQN算法改进如下:

  1. 采用经验回放,样本的使用效率提高;
  2. 随机从经验池中采样,减少数据之间的相关性,会减少更新过程中的方差问题;
  3. 使用经验回放数据会不容易发散。其原文解释如下:

取得的效果?

  作者在2013年文献3所提供的环境Arcade Learning Environment (ALE)中的Atari游戏中实验。同一个网络参数和框架在三个游戏中打败了人类专家。

  最左边这两幅图描述的是平均奖励,看起来是没有收敛;但是右边两幅图预测的最大Q值要平稳很多。也算是给神经网络收敛性做了一个实验证明吧。最终取得的效果以及对后世的影响都是非常巨大的。其性能可与人类选手媲美。

所出版信息?作者信息?

  这篇文章是arXiv上面的一篇文章。第一作者Volodymyr Mnih是Toronto大学的机器学习博士,师从Geoffrey Hinton,同时也是谷歌DeepMind的研究员。硕士读的Alberta大学,师从Csaba Szepesvari

参考链接

  1. Q-Learning算法:Christopher JCH Watkins and Peter Dayan. Q-learning. Machine learning, 8(3-4):279–292, 1992.
  2. experience replay mechanism:Long-Ji Lin. Reinforcement learning for robots using neural networks. Technical report, DTIC Document, 1993.
  3. Marc G Bellemare, Yavar Naddaf, Joel Veness, and Michael Bowling. The arcade learning environment: An evaluation platform for general agents. Journal of Artificial Intelligence Research, 47:253–279, 2013.
视觉方面:
  • Alex Krizhevsky, Ilya Sutskever, and Geoff Hinton. Imagenet classification with deep convolutional neural networks. In Advances in Neural Information Processing Systems 25, pages 1106–1114, 2012.
  • Volodymyr Mnih. Machine Learning for Aerial Image Labeling. PhD thesis, University of Toronto, 2013.
  • Pierre Sermanet, Koray Kavukcuoglu, Soumith Chintala, and Yann LeCun. Pedestrian detection with unsupervised multi-stage feature learning. In Proc. International Conference on Computer Vision and Pattern Recognition (CVPR 2013). IEEE, 2013.
语音方面:
  • George E. Dahl, Dong Yu, Li Deng, and Alex Acero. Context-dependent pre-trained deep neural networks for large-vocabulary speech recognition. Audio, Speech, and Language Processing, IEEE Transactions on, 20(1):30 –42, January 2012.
  • Alex Graves, Abdel-rahman Mohamed, and Geoffrey E. Hinton. Speech recognition with deep recurrent neural networks. In Proc. ICASSP, 2013.

我的微信公众号名称:深度学习与先进智能决策

微信公众号ID:MultiAgent1024

公众号介绍:主要研究分享深度学习、机器博弈、强化学习等相关内容!期待您的关注,欢迎一起学习交流进步!

相关文章
|
12月前
|
机器学习/深度学习 人工智能 资源调度
Reinforcement Learning, RL
强化学习(Reinforcement Learning, RL)是机器学习的一种方法,主要用于训练智能体在某个环境中如何做出最佳决策以获得最大奖励。与监督学习和无监督学习不同
62 6
|
机器学习/深度学习 语音技术
“Zero-shot Learning”、“One-shot Learning”和“Few-shot Learning”
你知道吗?在机器学习的世界里,有一种名为“Zero-shot Learning”、“One-shot Learning”和“Few-shot Learning”的策略,它们主要是为了解决神经网络模型因为训练数据少,导致模型泛化能力差的问题。
219 1
|
机器学习/深度学习 人工智能 自动驾驶
Reinforcement Learning
强化学习(Reinforcement Learning,简称 RL)是机器学习中的一种方法,主要用于训练智能体(Agent)在不确定环境中做出最佳决策。强化学习通过反复试验,根据智能体采取的行动所产生的奖励或惩罚信号来调整其行为策略。与监督学习和无监督学习不同,强化学习是一种无模型学习方法,不需要大量标注数据。
68 3
|
机器学习/深度学习 人工智能 算法
【5分钟 Paper】Reinforcement Learning with Deep Energy-Based Policies
【5分钟 Paper】Reinforcement Learning with Deep Energy-Based Policies
120 0
|
机器学习/深度学习 编解码 算法
【5分钟 Paper】Dueling Network Architectures for Deep Reinforcement Learning
【5分钟 Paper】Dueling Network Architectures for Deep Reinforcement Learning
116 0
|
机器学习/深度学习 搜索推荐 算法
SysRec2016 | Deep Neural Networks for YouTube Recommendations
YouTube有很多用户原创内容,其商业模式和Netflix、国内的腾讯、爱奇艺等流媒体不同,后者是采购或自制的电影,并且YouTube的视频基数巨大,用户难以发现喜欢的内容。本文根据典型的两阶段信息检索二分法:首先描述一种深度候选生成模型,接着描述一种分离的深度排序模型。
256 0
SysRec2016 | Deep Neural Networks for YouTube Recommendations
|
机器学习/深度学习
Zero-shot Learning / One-shot Learning / Few-shot Learning/传统 Learning
在 迁移学习 中,由于传统深度学习的 学习能力弱,往往需要 海量数据 和 反复训练 才能修得 泛化神功 。为了 “多快好省” 地通往炼丹之路,炼丹师们开始研究 Zero-shot Learning / One-shot Learning / Few-shot Learning。
|
机器学习/深度学习 人工智能 数据挖掘
Geoffrey Hinton's Capsule Networks: A Novel Approach to Deep Learning
The Capsule Network proposed by Dr. Geoffrey Hinton brings a new perspective to Deep Learning as compared to Convolutional Neural Networks.
5426 0