精彩回顾|阿里算法专家详解,最易用强化学习开源库EasyRL从入门到实践

简介: 精彩回顾|阿里算法专家详解,最易用强化学习开源库EasyRL从入门到实践

昨天,“EasyRL强化学习入门与实践”第一课的直播已圆满结束!阿里巴巴算法专家王桢为大家带来了强化学习开源库EasyRL的介绍。

内容包括强化学习的入门与实践,从基本的概念到具体的例子,如何利用EasyRL快速运行强化学习算法解决一些实际的问题。

今天会进行第二课的直播,具体直播安排如下:

直播时间:今晚19:00-20:00

课程内容:

1. 马尔可夫决策过程(值函数与贝尔曼方程)

2. 强化学习算法(基于值的方法,策略梯度方法,算法归类)

直播传送门:阿里云开发者社区

https://developer.aliyun.com/live/2287


接下来让我们回顾一下昨日的精彩内容!没能观看直播的同学可以通过以下链接观看回放,再配上下面的内容回顾,妙哉啊!

第一课回放:

https://study.163.com/course/courselive/1280452094.htm?share=2&shareId=10146755

关键词:人工智能,大数据,分布式强化学习算法,开源EasyRL,马尔可夫决策过程

EasyRL简介


概述

在实践中,强化学习相较于监督学习对工程师往往提出了更高的要求,包括但不限于:

  • 监督学习往往只需要在计算图中描述目标函数并选择优化器,强化学习需要描述策略,值函数,目标的估计等等多个模块。  
  • 在分布式训练的设定下,监督学习仅需要在进程间交换同质的梯度和参数,而强化学习还需要传递格式更复杂的样本(即(state, action, reward, next state)元组组成的序列)。  
  • 不同流派的强化学习算法在不同场景中往往各有优劣。工程师往往需要一套较为齐全的算法库来尝试和验证不同算法。  

EasyRL针对上述困难与挑战而设计,在易用性上满足用户能一键运行各种算法(包括单机和分布式设定),同时提供清晰的接口和扁平的类层次关系方便开发者复用已有模块来定制新算法。

设计理念

1. 轻量易用

绝大多数已有的强化学习算法库依赖MPI,NCCL,或者Ray来实现分布式强化学习算法,给用户在搭建环境,二次开发,或移植部署等环节造成了一定困难。

EasyRL完全基于TensorFlow开发实现,包括表达算法本身的计算图描述以及分布式模式下不同进程间的通信。  

用户可以方便地跑通我们提供的任意算法,安装、移植、以及嵌入业务代码中都是非常方便的。


2. 可扩展性

如下图所示,EasyRL将不同进程在概念上划分为四种角色,统一地表达了不同Actor-Learner架构:

  • Actor:负责和环境交互产生样本。  
  • Replay Memory:存储交互产生的样本,提供重复采样。  
  • Learner:利用收集的数据计算梯度,更新模型。  
  • Parameter Server (PS):参数服务器。  

Actor利用CPU资源,和环境交互产生样本并存入Replay Memory中;Learner从Replay Memory取出数据,利用GPU计算梯度并将梯度更新到PS上。  

具体地,每个actor上维护一份本地的模型副本,间隔地从PS上同步最新的模型参数,在与环境进行交互的过程中不需要额外的通信开销。  

为了进一步提高系统的样本吞吐,EasyRL为actor提供了wrapper将环境包装在独立进程中执行,独立于主进程中actor的推理步骤,使得actor可以与多个进程的环境同时交互,充分利用单个actor上的cpu资源。  

除了PS之外,每个actor,memory 或者learner与其他角色的通信均由独立的线程负责,与主线程用队列通信,主线程仅负责计算,一定程度将计算和通信的开销重叠,从而提高效率。  

我们提供了多种replay memory:均匀采样的replay buffer,按priority进行采样的priority replay buffer,用于on-policy算法的仅保存单个trajectoryTrajectoryBuffer,以及适用于Evolutional strategy (ES)/PPO,累积存储多个actor采样数据,一次性读取的AggregateBuffer。  

由于设计上将replay memory作为一种角色,针对memory采样策略的二次开发变得非常方便。  

Learner和PS则类似监督学习中的PS-worker架构,进行纯粹的分布式训练,避免了其他数据流的处理,learner可以更好地利用GPU的算力。  

Ape-X架构下支持异步训练的随机梯度下降,可以根据整个系统吞吐增加learner的数量进行扩展。    

在ES/PPO等每一轮迭代都需要同步的算法,目前的设计是1个learner+多个actors的模式,重点是提高交互的效率(例如ES算法需要大量的实验来收集数据),通过单机多卡并行的方式,提高模型训练的效率。  

这其中不同角色的进程的数量均可以任意调节,从而避免某一个角色的进程成为系统的瓶颈。

3. 模块化

models模块采用了扁平的设计仅通过基类描述了一些必要实现的接口,提供了常用算法的实现,不同model之间没有耦合,方便算法同学对模型进行定制。    

model类构建计算图的逻辑分解成相对独立的类方法,主要包括:构建网络结构、构建策略输出的动作分布、计算目标/损失函数、使用的优化器(包括对梯度的处理)四个部分。

开发者可以根据自己的需求,继承Model类并单独重载需要定制的类方法,例如修改网络结构、实现新的损失函数、或者是采用更加复杂的优化器。

同时,EasyRL也提供了一种通过配置文件来自动构建网络结构的途径。  


4. 算法种类齐全

EasyRL提供的算法种类全面,且覆盖单机和分布式的实现,下面通过一个表格显示与其它开源库的对比。  

o:表示支持该功能;x:表示不支持该功能(表中调研的各开源库的功能覆盖情况截止2019年3月)

对上述开源强化学习库调研发现,部分项目缺乏持续更新,例如RLLab、Tensorflow Agents;部分项目算法种类过于单一,例如Dopamine 仅提供了 DQN(Rainbow)算法,而PARL、TensorForce没有提供Rainbow的实现,RLGraph则是一个meta graph的实现,开发复杂并且缺少DDPG、模仿学习等。  


另一些项目则缺少良好分布式的实现,例如OpenAI的Baselines没有actor-learner的架构;包括coach,PARL没有对Ape-X的支持。  


部分项目仅是op层面的优化工作,例如Uber-research/ape-x和Trfl。  


Ray RLlib是功能全面且分布式性能优异的项目,但是不支持任意扩展leanrer进程的数量,在样本产出速度非常快的场景会导致learner成为瓶颈。


性能比较

本节比较EasyRL与Ray RLLibActor-Learner架构下的吞吐和收敛速度。


使用的环境Atari-Pong是一个视频游戏,其状态经过预处理后是一个形状为(42, 42, 4)的numpy数组,可以比较典型的反映系统对交互产出的样本进行通信和消费的效率。

1. IMPALA架构


针对actor-leaner资源灵活配置的特性,我们动态调节actor和learner的数量,同时保持memory和learner数量一致,观察整个系统的吞吐变化。  

可以看到当learner与actor数量保持1:8时,sample产生的速率和消耗的大致速率达到一个平衡。

此时,只有继续增加learner之后,再次增加actor的数量才能使整体的吞吐提升。  

在16个learner和128个actor的配置下,系统平均每秒可以产生和训练12万条样本,并且在这个配置下,继续增加资源还能提升整体吞吐。    

再看模型的收敛效果:  

如上图所示,a代表actor,m代表memory,l代表learner,我们分别在5组配置下进行了收敛性的实验。  

其中actor和memory使用CPU机器,learner使用GPU机器。可以看到随着系统的吞吐提升,平均累积奖励达到17+的时间也越来越短。  

这里记录了不同配置下,第一个episode累积奖励达到17+所用的时间:  

相较于Ray RLLib IMPALA算法在Atari-Pong环境下所得到的实验结果。


  • Ray RLLib使用2个V100 GPU+32个actors在6~7分钟左右episode累积奖励达到17+,其吞吐为10k samples/sec左右;
  • EasyRL使用同样的GPU+16个actors在400~500s左右episode累积奖励达到17+,吞吐在16k samples/sec左右。  

其中吞吐更大而收敛偏慢,在于我们的learner是处在不同机器上,进行的异步训练,而Ray RLLib是单机多卡的实现。  

单机多卡使得梯度更新同步做的更好,但是同时限制了其扩展性,超出单机卡数的更多learner的并行成为其瓶颈。


2. Ape-X架构


在Ape-X下,由于replay buffer的存在,样本会被重复使用,因而actor端样本产生的速率变得不那么关键。  

当使用priority replay buffer时,由于priority采样和更新的开销巨大,系统的瓶颈处在memory上。  

EasyRL可以通过增加memory的数量来消除priority replay造成的瓶颈。  

可以看到在1个learner设定下,通过增加priority buffer的数量,可以提高整体的吞吐。  

priority buffer数量达到4个之后,继续增加,则获得的提升非常小,此时系统性能的瓶颈已经从memory转移到learner上了。  

收敛性实验:  

IMPALA参数含义相同,在Ape-X上我们做了四组实验,保持actor和learner的数量不变,增加priority replay memory的数量,通过提高整体throughput从而减少episode累积奖励达到17+的时间。    

Ray RLLib Ape-X算法在Atari-Pong上的实验结果:

https://ray.readthedocs.io/en/latest/rllib-algorithms.html#distributed-prioritized-experience-replay-ape-x

可以看到同样1个GPU配置下,Ray RLlib Ape-X利用32个cpu需要接近1个小时才能达到17+,而EasyRL在1个learner+8个memory+4actor设定下,需要1200s~1400s就可以让episode累积奖励达到17+,时间减少了一半以上。

马尔可夫决策过程

定义与样例

马尔可夫决策过程(MDP)是一个四元组,由状态空间,动作空间,状态转移概率,奖励函数四个元素定义。如下图所示,给出了一个简单的MDP样例,绿色节点代表状态 ,红色节点代表动作,从红色节点指向绿色节点的边上标出了状态转移概率和奖励。

求解MDP

求解马可夫决策过程,是去学习某种策略,最大化智能体接收到的标量信号(称之为收益)累积和的概率期望值。

所谓策略就是从环境当中观察到智能体所处的一个状态,根据策略去选取某个动作,然后去执行并反馈给这个环境。或者说我们作用于这个环境,这个环境会按照它本身MDP的这个状态转移以及奖励函数相应的反馈给智能体一个奖励的信号,即一个实数。然后内在的环境会跳转到下一个状态,再根据策略去选取某个动作,以此类推。

强化学习有两种,第一种是回合式任务,比如走迷宫,走到出口,智能体和环境交互的过程就结束了。第二种是持续性任务,智能体和环境的交互永远没有一个终止的状态。为了使得总的奖励在持续性任务中不趋于无穷大,且使其在上述两种任务中有一个统一的表示法,引入一个衰减因子gamma,是一个小于1的正的实数。

更多样例

如下图所示,分别给出了4个不同任务的MDP四元组的描述。

从贪心策略到动态规划

在算法和数据结构的课程中,有两种常用的算法,贪心策略和动态规划。如下图所示,左图中的MDP的求解,如果采用贪心策略,我们会在第一步选择a1,而最优策略应该是选择a0。右图以经典的求解最长公共子序列为例,将其描述成MDP四元组,用动态规划求出这张表,再从后往前根据表格中数值贪心地做决策,从而求解出最长公共子序列

值函数与贝尔曼方程

为了解释下图中的表格是什么含义,需要引入值函数的概念。值函数是状态(或状态与动作二元组)的函数,用来评估当前智能体在给定状态(或给定状态与动作)下总奖励的期望值。当然,智能体期望未来能得到的收益取决于智能体所选择的动作。因此,值函数是与特定的行为方式相关的,称之为策略。严格地说,策略是从状态到每个动作的选择概率之间的映射。

值函数有一个基本特性,就是它们满足某种递归关系,如下图所示,在给出状态值函数和动作值函数的表达式之后,以此为基础,进一步定义了状态(动作)值函数的最优贝尔曼方程。最优策略是最优贝尔曼方程的唯一解。

在强化学习中,动态规划的核心思想是使用值函数来结构化地组织对最优策略的搜索。下图中的表格是最优状态值函数的表,它是从前往后计算得到的。再根据最优贝尔曼方程的递推式,从后往前推理决策,就得到图中黄色的路径,即最优策略。

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
相关文章
|
3月前
|
机器学习/深度学习 算法 搜索推荐
从理论到实践,Python算法复杂度分析一站式教程,助你轻松驾驭大数据挑战!
【10月更文挑战第4天】在大数据时代,算法效率至关重要。本文从理论入手,介绍时间复杂度和空间复杂度两个核心概念,并通过冒泡排序和快速排序的Python实现详细分析其复杂度。冒泡排序的时间复杂度为O(n^2),空间复杂度为O(1);快速排序平均时间复杂度为O(n log n),空间复杂度为O(log n)。文章还介绍了算法选择、分而治之及空间换时间等优化策略,帮助你在大数据挑战中游刃有余。
95 3
|
2月前
|
算法 安全 数据安全/隐私保护
Crypto++库支持多种加密算法
【10月更文挑战第29天】Crypto++库支持多种加密算法
108 4
|
3天前
|
机器学习/深度学习 算法 PyTorch
深度强化学习中SAC算法:数学原理、网络架构及其PyTorch实现
软演员-评论家算法(Soft Actor-Critic, SAC)是深度强化学习领域的重要进展,基于最大熵框架优化策略,在探索与利用之间实现动态平衡。SAC通过双Q网络设计和自适应温度参数,提升了训练稳定性和样本效率。本文详细解析了SAC的数学原理、网络架构及PyTorch实现,涵盖演员网络的动作采样与对数概率计算、评论家网络的Q值估计及其损失函数,并介绍了完整的SAC智能体实现流程。SAC在连续动作空间中表现出色,具有高样本效率和稳定的训练过程,适合实际应用场景。
24 7
深度强化学习中SAC算法:数学原理、网络架构及其PyTorch实现
|
1月前
|
机器学习/深度学习 人工智能 算法
深入解析图神经网络:Graph Transformer的算法基础与工程实践
Graph Transformer是一种结合了Transformer自注意力机制与图神经网络(GNNs)特点的神经网络模型,专为处理图结构数据而设计。它通过改进的数据表示方法、自注意力机制、拉普拉斯位置编码、消息传递与聚合机制等核心技术,实现了对图中节点间关系信息的高效处理及长程依赖关系的捕捉,显著提升了图相关任务的性能。本文详细解析了Graph Transformer的技术原理、实现细节及应用场景,并通过图书推荐系统的实例,展示了其在实际问题解决中的强大能力。
163 30
|
20天前
|
机器学习/深度学习 算法
强化学习之父Richard Sutton给出一个简单思路,大幅增强所有RL算法
Richard Sutton领导的团队提出了一种称为“奖励中心化”的方法,通过从观察到的奖励中减去其经验平均值,使奖励更加集中,显著提高了强化学习算法的性能。该方法在解决持续性问题时表现出色,尤其是在折扣因子接近1的情况下。论文地址:https://arxiv.org/pdf/2405.09999
58 15
|
1月前
|
存储 人工智能 自然语言处理
Delta-CoMe:清华联合OpenBMB等高校开源的新型增量压缩算法
Delta-CoMe是由清华大学NLP实验室联合OpenBMB开源社区、北京大学和上海财经大学提出的新型增量压缩算法。该算法通过结合低秩分解和低比特量化技术,显著减少了大型语言模型的存储和内存需求,同时保持了模型性能几乎无损。Delta-CoMe特别适用于处理数学、代码和多模态等复杂任务,并在推理速度上有所提升。
66 6
Delta-CoMe:清华联合OpenBMB等高校开源的新型增量压缩算法
|
1月前
|
存储 算法
深入解析PID控制算法:从理论到实践的完整指南
前言 大家好,今天我们介绍一下经典控制理论中的PID控制算法,并着重讲解该算法的编码实现,为实现后续的倒立摆样例内容做准备。 众所周知,掌握了 PID ,就相当于进入了控制工程的大门,也能为更高阶的控制理论学习打下基础。 在很多的自动化控制领域。都会遇到PID控制算法,这种算法具有很好的控制模式,可以让系统具有很好的鲁棒性。 基本介绍 PID 深入理解 (1)闭环控制系统:讲解 PID 之前,我们先解释什么是闭环控制系统。简单说就是一个有输入有输出的系统,输入能影响输出。一般情况下,人们也称输出为反馈,因此也叫闭环反馈控制系统。比如恒温水池,输入就是加热功率,输出就是水温度;比如冷库,
293 15
|
2月前
|
机器学习/深度学习 人工智能 算法
探索人工智能中的强化学习:原理、算法与应用
探索人工智能中的强化学习:原理、算法与应用
|
2月前
|
机器学习/深度学习 人工智能 算法
探索人工智能中的强化学习:原理、算法及应用
探索人工智能中的强化学习:原理、算法及应用
|
3月前
|
机器学习/深度学习 算法 Python
探索机器学习中的决策树算法:从理论到实践
【10月更文挑战第5天】本文旨在通过浅显易懂的语言,带领读者了解并实现一个基础的决策树模型。我们将从决策树的基本概念出发,逐步深入其构建过程,包括特征选择、树的生成与剪枝等关键技术点,并以一个简单的例子演示如何用Python代码实现一个决策树分类器。文章不仅注重理论阐述,更侧重于实际操作,以期帮助初学者快速入门并在真实数据上应用这一算法。

热门文章

最新文章