强化学习相关的主要概念和术语简介

简介: 强化学习相关的主要概念和术语简介

介绍

今天,人工智能(AI)已经经历了令人印象深刻的进步。根据机器逻辑独立执行智能任务的能力,人工智能可以分为三个不同的层次:

窄AI:机器在执行非常特定的任务时比人类更有效率(但不会尝试执行其他类型的任务)。

强AI:机器在不同领域(在我们可能或根本无法执行的任务中)都比人类表现得更好。

通用AI:机器和人类一样智能。

现在,因为机器学习我们已经能够在有限的人工智能水平上获得良好的能力。主要有三种机器学习算法:

监督学习:使用有标记的训练集来训练模型,然后对没有标记的数据进行预测。

无监督学习:给一个模型一个未标记的数据集,然后模型试图在数据中找到模式来做出预测。

强化学习:通过奖励机制训练模型,在表现良好的情况下鼓励积极行为(特别是在基于agent的模拟、游戏和机器人中)。

而强化学习,现在被认为是最有前途的技术,以推动AI范式的下一个层次(图1)。

640.gif

强化学习(RL)

强化学习之所以在今天获得如此多的关注,其中一个原因是它的跨学科性。这一领域的核心概念实际上遵循了基本的博弈论、进化和神经科学原则。

与所有其他形式的机器学习相比,事实上,RL可以被认为是试图复制人类和动物学习方式的最接近的方法。

强化学习提倡人类最常用于学习的主要方式是通过使用传感器并与环境互动(因此,在有监督的学习中,无需像外部指导那样,而是通过反复试验的过程)。

在日常生活中,我们试图完成新的任务,而我们尝试的结果会影响我们周围的环境。通过评估我们的尝试,我们可以从经验中学习,确定哪些行动给我们带来了更大的好处(因此最方便重复),哪些应该避免。图2总结了这种迭代过程,并表示了大多数基于强化学习算法的主要工作流程。

640.png

强化学习系统的两个主要挑战是:

探索与开发的问题:如果AGENT发现一个可以给他带来适度高额报酬的行动,可能会不尝试任何其他可用的行动,因为害怕这样做可能会不太成功。同时,如果AGENT甚至不尝试其他操作,则可能永远不会发现有可能获得更好的回报。

延迟奖励的处理:不告诉AGENT要采取何种行动,而应提出不同的解决方案,对其进行测试,最后根据收到的奖励对它们进行评估。AGENT不应该仅仅根据他们的立即回报来评估他们的行动。实际上,选择某种类型的行动可能会不会立即产生更大的回报,而应看长期的回报。

核心组件

根据Richard S. Sutton等人的说法。[3],强化学习算法由4个主要关键部分组成:策略,奖励,价值函数,环境模型。

策略:定义AGENT行为(将不同的状态映射到操作)。由于每个特定操作都与要选择的概率相关联,因此策略最有可能是随机的。

奖励:一种信号,用于提醒代理如何最好地修改其策略以实现已定义的目标(在短时间内)。每次执行操作时,都会从环境中收到对代理商的奖励。

价值函数:用于从长远角度了解哪些动作可以带来更大的回报。它的工作原理是为不同的状态分配值,以评估代理商从任何特定状态开始应该期望的报酬。

环境模型:模拟代理所处环境的动态,以及环境应如何响应代理所采取的不同措施。取决于应用程序,某些RL算法不一定需要环境模型(无模型方法),因为可以使用试错法进行处理。虽然基于模型的方法可以使RL算法处理需要计划的更复杂的任务。

总结

如果您有兴趣了解有关强化学习的更多信息,Richard S. Sutton和Andrew G. Barto的“Reinforcement Learning: An Introduction”和Open AI Gym(将在我的下一篇文章中讨论!)是两个不错的起点 。

目录
相关文章
|
人工智能 自然语言处理 运维
钉钉MCP能力上新:AI如何提效你的工作流程
钉钉通讯录 & 部门管理、日程管理、待办任务、机器人&通知等高频场景API提供MCP服务
钉钉MCP能力上新:AI如何提效你的工作流程
|
Java 关系型数据库 MySQL
SpringBoot 实现 MySQL 百万级数据量导出并避免 OOM 的解决方案!
SpringBoot 实现 MySQL 百万级数据量导出并避免 OOM 的解决方案!
1036 0
|
前端开发 开发者 容器
CSS进阶-Flexbox高级布局技巧
【6月更文挑战第16天】Flexbox是CSS3的布局模块,简化响应式设计和复杂多列布局。文章探讨了Flex容器与项目属性的区分、垂直居中、防止元素溢出等常见问题及解决方案。此外,还分享了等宽不同高列、圣杯布局和自适应间距等高级技巧。通过示例展示了如何创建垂直居中布局,强调实践和理解核心概念是掌握Flexbox的关键。
412 10
|
编解码 测试技术 数据库
图书馆管理系统系统分析与设计(上)
图书馆管理系统系统分析与设计(上)
618 0
|
Kubernetes 应用服务中间件 nginx
docker镜像编译与docker-compose部署与编排
docker镜像编译与docker-compose部署与编排
282 0
|
人工智能 Java 物联网
C# 成为 2023 年度编程语言之王!
2023 年 TIOBE 年度编程语言已经正式公布,C# 在稳居前 10 名 20 多年之久后,首次摘下年度编程语言桂冠。TIOBE 数据显示,C# 在 2023 年的涨幅达 1.43%,远超过竞争对手 Scratch 的 0.83% 和 Fortran 的 0.64%。
756 1
C# 成为 2023 年度编程语言之王!
|
安全 Ubuntu Linux
Linux 网络操作命令Telnet
Linux 网络操作命令Telnet
411 0
Linux 网络操作命令Telnet
|
设计模式 缓存 安全
代理模式揭秘-软件世界的“幕后黑手”
在这篇精细剖析的文章中,我们将探索代理模式这一软件设计的神秘法术,揭开其定义、核心思想及各种代理(静态代理、动态代理和虚拟代理)的神秘面纱。通过直观的结构图和有趣的场景实例,我们比较了使用和不使用代理模式的实现差异,深入理解代理在软件设计中扮演的关键角色。 接下来,文章将带你进入现实世界,在应用与实战中实地展示代理模式的威力。我们将讲述如何巧妙地使用代理来优化软件的设计,并分享一些鲜活的工作案例,帮助读者更好地把握代理模式带来的优势和必须注意的缺点。 最后,我们讨论了实施代理模式时应避免的陷阱和广为人...
1120 0
代理模式揭秘-软件世界的“幕后黑手”
|
弹性计算 缓存 开发框架
企业用户如何选择云服务器?2024年阿里云企业级服务器价格配置表整理汇总
企业在选择云服务器之前,快速云提醒要留意好以下几个要点: 1、CPU:如果网站访问流量较大,动态页面比较多,建议选择2核以上的CPU。 2、内存:内存越大,则可用缓存越大,打开速度越快,建议选择1G以上的内存。 3、硬盘:硬盘的大小要根据网站的大小来决定,在选择时应该考虑留一部分的剩余空间。 4、带宽:带宽越大,访问速度越快,支持访问人数也就越多,网站应用这类型的网站,至少要2M以上的带宽。 5、操作系统:在选择操作系统时,对哪种操作系统比较了解就选择哪种操作系统,windows系统对asp程序支持较好,不过占用内存较多;而Linux系统对php程序支持较好,更省内存。
694 2