深度神经进化大有可为?Uber详解如何用它优化强化学习 | 5篇论文

简介:
本文来自AI新媒体量子位(QbitAI)

109109ac87c246bb845fb12614685147d8b2e92a

在深度学习领域,目前训练有很多层和数百万连接的深度神经网络(DNN)的常规方法,是随机梯度下降(SGD)。很多人认为,SGD有效计算梯度的能力至关重要。

然而,我们要发布5篇系列论文,支持一种正在兴起的认识:通过用进化算法来优化神经网络的神经进化(neuroevolution)也是为强化学习(RL)训练深度神经网络的一种有效方法。

遗传算法是训练深度神经网络的一种有效替代方法

我们发明了一项新技术来有效地演化DNN,发现一个极度简单的遗传算法(GA)可以用来训练有400多万个参数的深度卷积网络来靠输入像素玩雅达利游戏,在很多游戏上胜过了现代的深度强化学习算法,比如DQN、A3C、和进化策略(ES),也因为并行性更好而实现了更快的速度。

这样的结果会让人惊讶,既是因为没想到不基于梯度的GA能很好地适应这么大的参数空间,也是因为没想到把GA用到RL上能够实现媲美或超越最先进的技术。

我们进一步表明,GA的新颖性搜索等增强提高了它的能力,也适用于DNN的规模,可以促进探索,解决DQN、A3C、ES、GA等奖励最大化算法容易遇到的局部最优等欺骗性问题。

645ff04f4626b1d29ae0efa46a7ec2bf8403a09d

左:GA策略在Frostbite游戏中得到了10500分,DQN、A3C、ES等得分不足1000。
右:GA策略玩行星游戏玩得不错,平均分超过了DQN和ES,但不及A3C。

通过梯度计算实现安全变异

在另一篇论文中,我们展示了梯度可以与神经进化结合起来,提高演化循环神经网络和非常深的深度神经网络的能力,实现100层以上DNN的演化,远超过以前神经进化可能达到的水平。

我们通过计算网络输出相对于权重的梯度来实现这一点,不同于传统深度学习中的误差梯度。这让我们能校准随机变异,来更惊喜地处理最敏感的参数,也就解决了大型网络随机突变的主要问题。

5bc966ff29034b1bddbb31c4c44a0349e62d205a

 两个动画分别显示了一个走迷宫(从左下角到左上角)的网络中的一组变异,普通变体大多不能到达终点,而安全变体基本上保留了这种能力,同时还产生了多样性,这说明安全变异具有显著优势。

ES和SGD的关系

我们有一篇论文对OpenAI首先提出的一个发现做了补充,这个发现是:神经元进化策略的变体可以在深度RL任务上对深度神经网络进行有竞争力的优化。然而到目前为止,这个结果仍然隐含着大量猜测。

为了给基于ES的进一步探索奠定基础,我们进行了全面的研究,检测了在MNIST上,ES梯度近似与SGD为每个mini-batch计算出的最佳梯度有多接近,以及这个近似值要有多接近才能表现良好。通过这些研究,我们更深入地探索了ES与SGD的关系。

研究显示,如果有足够的计算力来优化梯度近似,ES在MNIST上可以达到99%的准确率,这也暗示出了ES在深度强化学习中为什么越来越具有竞争力:随着计算力的增加,没有哪种方法能获得完美的梯度信息。

ES不只是传统有限差分

还有一项研究,在经验上证实了ES在有足够大的扰动参数时,行为与SGD不同,因为它为由概率分布描述的预期奖励而优化,而SGD为一个单独的策略而优化奖励,前者是搜索空间中的一个晕,而后者是搜索空间中的一个点。

这种不同,让ES会访问搜索空间中的不同区域,无论好坏。对一群参数扰动进行整体优化的另一个结果是,ES获得了SGD所不具备的奖状性特征。

强调ES对一群参数进行优化同样也凸显了ES和贝叶斯方法之间的联系。


 由TRPO学习的步行者权重发生随机扰动,导致它与ES演化出来的相同质量步行者发生随机扰动相比,步态明显更不稳定。每个九宫格中心显示的是原始的步行者。

102284cb9918ba9483c5a85d5be8352c24db683e

 传统有限差分(梯度下降)不能跨越低适应性的窄沟,而ES能够轻松跨越它,到右侧寻找更高的适应性。

2a06839f0a685f158593808f556677a8fe4a3a59

 当高适应性路径收窄时,ES迟疑了;而传统的有限差分(梯度下降)没有任何问题地穿过了相同的路径。这与上面的视频一起显示出了两种方法的差异和取舍。

增强ES中的探索

深度神经进化的研究带来了一个非常exciting的结果:为神经进化而开发的那些工具,现在成了加强深度神经网络训练的备选方法。

为抓住这个领域的机会,我们提出了一种新算法,将ES的优化能力和可扩展性,与专门用于神经进化的方法——激励一群agent用不同的方式行动来探索强化学习域两者结合起来。

后面这种基于群体的探索,与包括深度强化学习最新探索在内的传统单一agent强化学习方法不同。我们的实验表明,增加这种新型的探索,能在很多需要通过探索来避开欺骗性局部最优化的领域提高ES的性能,包括一些Atari游戏和Mujoco模拟器中的人形机器人动作任务。

37b7c58bfda7d3b10f386c717a4359463bcdc1e3

 ES(左)和增加了探索方法的ES(右)

用我们的超参数设置,图左展示的ES会快速收敛到局部最优,agent不会暂时放弃奖励、上浮获取氧气。而加上探索方法之后,agent学会了浮到水面上获取氧气,从而在未来获取更多奖励。

8aadd538b67c69bc982915e0a7108045eeac7f4f

 训练过程中的奖励

在没有探索方法的情况下,ES会无限期地卡在某个局部最优里面。


 ES(左)和增加了探索方法的ES(右)

上图中agent的任务是往前跑得尽可能远。ES总是掉进陷阱里,而加上探索的压力之后,agent学会了绕过陷阱。

fc6257e78b49bc58b088031283334456101fea74

 训练过程中的奖励

结论

对想走近深度神经网络的神经进化研究者来说,有这几项重要的事情需要考虑:

首先,这类实验比过去所需要的计算力更高,上文所提及新论文中的实验,每次运行都同时用到了上百个、甚至上千个CPU。然而,这种对更多CPU或GPU的需求不应该被视作一种负担,从长远来看,将进化策略用到大规模平行计算中心所带来的简单程度,意味着神经进化可能是未来世界的最佳选择。

新结果和之前在低维神经进化中观察到的截然不同,它们有效地推翻了多年以来的直觉,特别是高维搜索的影响。

正如在深度学习中所发现的那样,在某种复杂性的门槛之上,高维上的搜索其实越来越容易,因为它不易受局部最优的影响。这种在深度学习领域广为人知的思考方式,正在神经进化领域开始慢慢被消化和理解。

神经进化的再度出现,也是旧算法和现代计算力良好结合的一个例子,神经进化的可行性很有意思,因为神经进化的研究群体已经开发出来的很多技术可以立即在DNN上规模化使用,每一种技术都为解决挑战性问题提供了不同的工具。

另外,正如我们在上述论文中提到的,神经进化的搜索方法与SGD不同,因此为机器学习提供了一种有趣的替代性工具。

我们想知道深度神经进化是否会像深度学习一样复兴,如果是这样,2017年可能就标志着这个时代的开端,我们也激动于看到今后还会发生什么。

今天我们发布的论文共有5篇,以下是它们的下载地址:

Deep Neuroevolution: Genetic Algorithms are a Competitive Alternative for Training Deep Neural Networks for Reinforcement Learning

http://eng.uber.com/wp-content/uploads/2017/12/deep-ga-arxiv.pdf

Safe Mutations for Deep and Recurrent Neural Networks through Output Gradients

http://eng.uber.com/wp-content/uploads/2017/12/arxiv-sm.pdf

On the Relationship Between the OpenAI Evolution Strategy and Stochastic Gradient Descent

http://eng.uber.com/wp-content/uploads/2017/12/ES_SGD.pdf

ES Is More Than Just a Traditional Finite Difference Approximator

http://eng.uber.com/wp-content/uploads/2017/12/arxiv-fd.pdf

Improving Exploration in Evolution Strategies for Deep Reinforcement Learning via a Population of Novelty-Seeking Agents

http://eng.uber.com/wp-content/uploads/2017/12/improving-es-arxiv.pdf

博客原文:
https://eng.uber.com/deep-neuroevolution/

本文作者:Kenneth O. Stanley & Jeff Clune  (夏乙 编译)
原文发布时间:2017-12-19
相关文章
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
揭秘深度学习:从理论到实践的探索之旅
深度学习,这个听起来有些高冷的技术名词,其实已经悄然渗透进我们生活的方方面面。本文将深入浅出地介绍深度学习的基本概念、核心算法以及在多个领域的应用实例,帮助读者理解这一前沿技术的魅力所在,并探讨其未来的发展趋势。让我们一起踏上这段揭秘深度学习的奇妙旅程吧!
|
5月前
|
机器学习/深度学习 自然语言处理 负载均衡
揭秘混合专家(MoE)模型的神秘面纱:算法、系统和应用三大视角全面解析,带你领略深度学习领域的前沿技术!
【8月更文挑战第19天】在深度学习领域,混合专家(Mixture of Experts, MoE)模型通过整合多个小型专家网络的输出以实现高性能。从算法视角,MoE利用门控网络分配输入至专家网络,并通过组合机制集成输出。系统视角下,MoE需考虑并行化、通信开销及负载均衡等优化策略。在应用层面,MoE已成功应用于Google的BERT模型、Facebook的推荐系统及Microsoft的语音识别系统等多个场景。这是一种强有力的工具,能够解决复杂问题并提升效率。
185 2
|
5月前
|
机器学习/深度学习 传感器 人工智能
深度学习:从理论到实践的探索之旅
在人工智能领域,深度学习已成为推动技术进步的核心动力。本文将深入浅出地介绍深度学习的基本概念、关键技术以及实际应用案例,帮助读者理解这一复杂领域的基本原理和实践方法。通过本文的学习,你将能够掌握深度学习的基础框架,并了解如何将这些知识应用于解决实际问题。
|
8月前
|
机器学习/深度学习 人工智能 自然语言处理
深度理解深度学习:从理论到实践的探索
【5月更文挑战第3天】 在人工智能的浪潮中,深度学习以其卓越的性能和广泛的应用成为了研究的热点。本文将深入探讨深度学习的核心理论,解析其背后的数学原理,并通过实际案例分析如何将这些理论应用于解决现实世界的问题。我们将从神经网络的基础结构出发,逐步过渡到复杂的模型架构,同时讨论优化算法和正则化技巧。通过本文,读者将对深度学习有一个全面而深刻的认识,并能够在实践中更加得心应手地应用这些技术。
|
机器学习/深度学习 算法 数据挖掘
深度学习实践篇 第十一章:imgaug
简要介绍imgaug和基础用法。
192 0
|
机器学习/深度学习 存储 人工智能
AIGC背后的技术分析 | 构建神经网络
你会羡慕机器的强大算力吗?事实上,我们的大脑也能做到很多普通计算机无法做到的事情。 例如,我们只需要瞥一眼照片中的人,就能快速识别出这个人我们是不是认识。如果是,那么这个人的各种性格特征以及关于他的种种故事也会出现在我们的脑海中;如果不是,我们也能给出对这个人的第一印象描述。
245 0
AIGC背后的技术分析 | 构建神经网络
|
机器学习/深度学习 人工智能 编解码
逐步揭开模型面纱!首篇深度视觉建模中的可解释AI综述
深度视觉模型在高风险领域有着广泛的应用。因此它们的黑匣子性质目前吸引了研究界的极大兴趣。论文在《可解释的人工智能》中进行了第一次调查,重点是解释深度视觉模型的方法和指标。涵盖了最新技术的里程碑式贡献,论文不仅提供了现有技术的分类组织,还挖掘了一系列评估指标,并将其作为模型解释的不同特性的衡量标准进行整理。在深入讨论当前趋势的同时,论文还讨论了这一研究方向的挑战和未来途径。
逐步揭开模型面纱!首篇深度视觉建模中的可解释AI综述
|
机器学习/深度学习 算法 测试技术
【吴恩达深度学习笔记-改善深层神经网络】——第一周深度学习的实用层面(1.1)
【吴恩达深度学习笔记-改善深层神经网络】——第一周深度学习的实用层面(1.1)
【吴恩达深度学习笔记-改善深层神经网络】——第一周深度学习的实用层面(1.1)
|
机器学习/深度学习 算法 网络架构
【吴恩达深度学习笔记-改善深层神经网络】——第一周深度学习的实用层面(1.3)
【吴恩达深度学习笔记-改善深层神经网络】——第一周深度学习的实用层面(1.3)
【吴恩达深度学习笔记-改善深层神经网络】——第一周深度学习的实用层面(1.3)
|
机器学习/深度学习 存储
【吴恩达深度学习笔记-改善深层神经网络】——第一周深度学习的实用层面(1.4)
【吴恩达深度学习笔记-改善深层神经网络】——第一周深度学习的实用层面(1.4)
【吴恩达深度学习笔记-改善深层神经网络】——第一周深度学习的实用层面(1.4)