AIGC背后的技术分析 | 强化学习

2023-05-22 326

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： PyTorch是当前主流深度学习框架之一，其设计追求最少的封装、最直观的设计，其简洁优美的特性使得PyTorch代码更易理解，对新手非常友好。本文主要介绍深度学习领域中强化学习部分。

# 1、什么是强化学习

强化学习是机器学习的一个重要分支，它与非监督学习、监督学习并列为机器学习的三类主要学习方法，三者之间的关系如图1.7所示。强化学习强调如何基于环境行动，以取得最大化的预期利益，所以强化学习可以被理解为决策问题。它是多学科、多领域交叉的产物，其灵感来自心理学的行为主义理论，即有机体如何在环境给予的奖励或惩罚的刺激下，逐步形成对刺激的预期，产生能获得最大利益的习惯性行为。强化学习的应用范围非常广泛，各领域对它的研究重点各有不同，我们专注于强化学习的通用概念。

■ 图1 强化学习、监督学习、非监督学习关系示意图

在实际应用中，人们常常会把强化学习、监督学习和非监督学习这三者混淆，为了更深刻地理解强化学习和它们之间的区别，首先介绍监督学习和非监督学习的概念。

监督学习是通过带有标签或对应结果的样本训练得到一个最优模型，再利用这个模型将所有的输入映射为相应的输出，以实现分类。

非监督学习即在样本的标签未知的情况下，根据样本间的相似性对样本集进行聚类，使类内差距最小化，学习出分类器。

上述两种学习方法都会学习到输入到输出的一个映射，它们学习到的是输入和输出之间的关系，可以告诉算法什么样的输入对应着什么样的输出，而强化学习得到的是反馈，它是在没有任何标签的情况下，通过先尝试做出一些行为、得到一个结果，通过这个结果是对还是错的反馈，调整之前的行为。在不断的尝试和调整中，算法学习到在什么样的情况下选择什么样的行为可以得到最好的结果。此外，监督学习的反馈是即时的，而强化学习的结果反馈有延时，很可能需要走了很多步以后才知道之前某一步的选择是好还是坏。
1●强化学习的4个元素

强化学习主要包含4个元素：智能体（agent）、环境状态（state）、行动（action）、反馈（reward）,它们之间的关系如图1.8所示，详细定义如下。

agent：智能体是执行任务的客体，只能通过与环境互动来提升策略。

state：在每个时间节点，agent所处的环境的表示即为环境状态。

action：在每个环境状态中，agent可以采取的动作即为行动。

reward：每到一个环境状态，agent就有可能会收到一个反馈。

2●强化学习算法的目标

强化学习算法的目标就是获得最多的累计奖励（正反馈）。以“幼童学习走路”为例，幼童需要自主学习走路，没有人指导他应该如何完成“走路”，他需要通过不断的尝试和获取外界对他的反馈来学习走路。

在此例中，如图1.8所示，幼童即为agent，“走路”这个任务实际上包含以下几个阶段：站起来，保持平衡，迈出左腿，迈出右腿……幼童采取行动做出尝试，当他成功完成了某个子任务时（如站起来等），他就会获得一个巧克力（正反馈）；当他做出了错误的动作时，他会被轻轻拍打一下（负反馈）。幼童通过不断地尝试和调整，找出了一套最佳的策略，这套策略能使他获得最多的巧克力。显然，他学习到的这套策略能使他顺利完成“走路”这个任务。

■ 图2 强化学习的4个元素

3●特征

（1）没有监督者，只有一个反馈信号。

（2）反馈是延迟的，不是立即生成的。

（3）强化学习是序列学习，时间在强化学习中具有重要的意义。

（4） agent的行为会影响以后所有的决策。

2、强化学习算法简介

强化学习主要可以分为Model-Free(无模型的)和Model-Based(有模型的)两大类。Model-Free算法又分成基于概率的和基于价值的。

1●Model-Free和Model-Based

如果agent不需要去理解或计算出环境模型，算法就是Model-Free的；相应地，如果需要计算出环境模型，那么算法就是Model-Based的。实际应用中，研究者通常用如下方法进行判断：在agent执行它的动作之前，它是否能对下一步的状态和反馈做出预测？如果可以，那么就是Model-Based方法；如果不能，即为Model-Free方法。

两种方法各有优劣。Model-Based方法中，agent可以根据模型预测下一步的结果，并提前规划行动路径。但真实模型和学习到的模型是有误差的，这种误差会导致agent虽然在模型中表现很好，但是在真实环境中可能达不到预期结果。Model-Free的算法看似随意，但这恰好更易于研究者们去实现和调整。

2●基于概率的算法和基于价值的算法

基于概率的算法是指直接输出下一步要采取的各种动作的概率, 然后根据概率采取行动。每种动作都有可能被选中, 只是可能性不同。基于概率的算法的代表算法为policy-gradient，而基于价值的算法输出的则是所有动作的价值, 然后根据最高价值来选择动作。相比基于概率的方法, 基于价值的决策部分更为死板——只选价值最高的，而基于概率的, 即使某个动作的概率最高, 但是还是不一定会选到它。基于价值的算法的代表算法为Q-Learning。

3、强化学习的应用

1●交互性检索

交互性检索是在检索用户不能构建良好的检索式（关键词）的情况下，通过与检索平台交流互动并不断修改检索式，从而获得较准确检索结果的过程。

当用户想要搜索一个竞选演讲（Wu & Lee,INTERSPEECH 16）时，他不能提供直接的关键词，其交互性搜索过程如图1.9所示。在交互性检索中，机器作为agent，在不断的尝试中（提供给用户可能的问题答案）接受来自用户的反馈（对答案的判断），最终找到符合要求的结果。

2●新闻推荐

新闻推荐，如图3所示。一次完整的推荐过程包含以下过程：一个用户单击 App 底部刷新或者下拉，后台获取到用户请求，并根据用户的标签召回候选新闻，推荐引擎则对候选新闻进行排序，最终给用户推出 10 条新闻。如此往复，直到用户关闭 App，停止浏览新闻。将用户持续浏览新闻的推荐过程看成一个决策过程，就可以通过强化学习学习每一次推荐的最佳策略，从而使得用户从开始打开 App 到关闭 App 这段时间内的点击量最高。

■ 图3 交互性检索

■ 图4 新闻推荐

在此例中，推荐引擎作为agent，通过连续的行动即推送10篇新闻，获取来自用户的反馈，即单击：如果用户浏览了新闻，则为正反馈，否则为负反馈，从中学习出奖励最高（点击量最高）的策略。

AIGC背后的技术分析 | 强化学习

2、强化学习算法简介

3、强化学习的应用

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

AIGC背后的技术分析 | 强化学习

2、强化学习算法简介

3、强化学习的应用

热门文章

最新文章

相关课程

相关电子书

相关实验场景