提到强化学习只知道AlphaGo?其实,RL在工业界还有这些应用

简介:
本文来自AI新媒体量子位(QbitAI)

关于作者:
Ben Lorica,O’Reilly Media的首席数据科学家,同时是Strata Data Conference和O’Reilly Artificial Intelligence Conference的项目主任。

89866a909314bb1731c4b6b3c7e30d3fe23e007d

AlphaGo Zero的出现让人们再次提起了对强化学习的兴趣。紧随深度学习之后,强化学习成为了目前AI领域最热门的话题。

大部分公司对强化学习这个事做了调查和评估,然而很少有人真正搞明白它究竟能做什么。

考虑到RL的概念现在已经被混淆进了一大坨乱七八糟的问题和技术里,我们有必要先给它下个定义。

一般而言,RL的目标是学会如何将观测结果和测量值映射到一系列行为,同时最大化长期奖励。这个概念通常将那些“智能体与环境进行交互并学会最佳决策序列”的应用包括在内。

事实上,很多RL的最初应用都处于那些长期在寻求自动化序列决策的领域。

有别于传统的在线学习(online learning)——你经常得到这样的组合:延迟的反馈、稀少的奖励,以及会在交互时对环境造成影响的智能体——RL提出了一系列全然不同的挑战。

DL已经被许多公司用到了各种各样的应用上,与之相比RL的应用领域还相对有限,而我们想给它来个盘点。

98a915d613f934677304ce7da240492889faa021

在我开始之前,我想先谈谈RL在实际中遇到的一些难处。

正如吴恩达在旧金山AI大会上的主旨发言中所说,RL需要大量的数据,与此同时,需要与那些能够获取模拟数据的领域(比如游戏和机器人)建立联系。

从论文中汲取养分并将它们应用于实际同样不易:即便是对于RL的研究者而言,要重复研究结果依然十分困难,更别说是一般的数据科学家了;而随着机器学习被部署到关键性的任务中,可重复性以及预估错误的能力就变得不可或缺。

因此,至少就现在而言,对于需要持续控制的关键任务应用而言,RL可能并不是理想选择。

尽管如此,还是有不少有趣的应用和产品要依赖于RL。由RL帮忙实现的序列决策自动化能给包括个性化、明确界定任务自动化在内的许多设置带来益处。

对于公司而言,他们的首要任务就是搞定复合这些描述的简单案例,而不是去纠结那些过于复杂、“需要AI”的大坑。

好了,下面我就把这些RL开始出现的关键领域给你高亮。

机器人和工业自动化

RL在高维控制问题中的应用,比如机器人,已经成为学术和工业界的一大研究主题。与此同时,一些创业公司也开始用RL为工业机器人来打造产品。

工业自动化则是另一个前景不错的领域。

目前看来,DeepMInd提供的RL技术帮助谷歌显著地降低了自己数据中心的能源消耗。创业公司们已经意识到在自动化解决方案领域中存在着一个巨大的市场,有几家创业公司正在为一些公司制作能让后者将RL和其他技术用进工业应用的工具,Bonsai就是其中之一。一个例子是调试机器和设备,而这一领域目前被人类专家所垄断。

3c825ac558d8a641eeb595e02b5a7f26760196f1

对照工业系统,Bonsai最近列出了如下几个“考虑下RL没亏吃”的标准:

1. 你在进行模拟,因为要教会机器通过试验、避开错误,你的系统和过程太复杂了。
2. 你正在处理大型状态空间。
3. 你希望为人类分析师和领域专家提供操作效率优化和决策支持。

数据科学和机器学习

使用机器学习库正在变得更容易,不过对于数据科学家而言,选择一个合适的模型或模型架构依然有点难度。
随着深度学习更多地为数据科学家和机器学习工程师所用,能帮助人们搭建、调整神经网络架构的工具已经成了热门研究领域。

有几组研究人员提出了利用RL来让设计神经网络架构的过程更为开放。谷歌的AutoML使用RL来为计算机视觉和语言建模创造最先进的机器生成神经网络架构。

9eb6cd1f16f1a6af5b663d1ce136b0ca4447dbb2

 AutoML相关论文

https://arxiv.org/abs/1611.01578

除了能够简化机器学习的生成过程,一些人认为RL将能够帮助软件工程师编写计算机程序。

教育和培训

在线平台已经在进行利用机器学习来打造个性化体验的试验。有几位研究者正在研究RL和其他机器学习方法在辅导系统和个性化学习中的应用。

RL的使用将促成全新培训系统的出现,系统将能够根据学生需求来对指导和材料进行调整。有一组研究者正在开发RL算法和统计学方法,以降低未来辅导系统的数据需求。

医疗健康

RL中与环境进行交互并根据行为回收反馈的智能体设置与医药科学中治疗方案的学习问题存在很多类似之处。

事实上,许多医疗保健领域的RL应用就是为了寻找最佳治疗方案。最近有几篇论文,研究了强化学习在医疗器械、药物剂量和两阶段临床试验中的应用,例如:

A Reinforcement Learning Approach to Weaning of Mechanical Ventilation in Intensive Care Units
https://arxiv.org/abs/1704.06300

Optimal medication dosing from suboptimal clinical examples: a deep reinforcement learning approach
https://www.ncbi.nlm.nih.gov/pubmed/28268938

Informing sequential clinical decision-making through reinforcement learning: an empirical study
http://pubmedcentralcanada.ca/pmcc/articles/PMC3143507/

文本、语音和对话系统

好的非结构化文本解锁工具总是不会缺少买家。

今年早些时候,SalesForce的AI研究者们把深度RL用在了在提取文本摘要(从原始文本文档中抽象出的内容中自动生成摘要的技术)上。现在许多公司都在寻找更好的文本挖掘解决方案,RL在这一领域估计要吸一大批粉。

RL还让对话式系统(比如聊天机器人)从用户的交互行为中学习,从而随着时间而不断提升(许多商业化的聊天机器人现在用的是决策树)。

媒体和广告

微软最近公布了一套可在Azure上获取的、名为“决策服务”的内部系统。他们的论文介绍了“决策服务”在内容推荐和广告上的应用。更普遍点说,“决策服务”面向的是那些遭遇了“反馈循环和偏见、分散的数据收集、环境的变化、弱爆了的监测和故障排除”等失败模式的机器学习产品。

其他RL应用还包括跨渠道营销优化和在线广告展示的实时竞价系统。

金融

这块稍微有点尴尬。作为一名曾经的数据分析师,我遇到过不少对DL和RL进行过评估的交易者和分析师,但是除了小的指引,很少有人把这些工具用到以外的地方。关于这方面的论文是不少,但很少有公司真正去做这类软件。

不过有一个例外:摩根大通的一套用于交易执行的系统。依托于RL,这套系统被用于以可能的最快速度和最佳价格来执行交易。

像所有其他的新技术一样,使用RL的关键在于理解它的优势和弱点,然后找到简单的应用案例来尝试它。别被那些铺天盖地的AI宣传弄花了眼,你应该把RL看作一种有用的机器学习技术,尽管它只是对某些特定的问题有效。

原文:https://www.oreilly.com/ideas/practical-applications-of-reinforcement-learning-in-industry?imm_mid=0f9d5c&cmp=em-data-na-na-newsltr_ai_20171218
本文作者:唐旭
原文发布时间:2017-12-22
相关文章
|
12月前
|
机器学习/深度学习 存储 人工智能
《C++ 赋能强化学习:Q - learning 算法的实现之路》
本文探讨了如何用C++实现强化学习中的Q-learning算法。强化学习通过智能体与环境的交互来学习最优策略,Q-learning则通过更新Q函数估计动作回报。C++凭借高效的内存管理和快速执行,在处理大规模数据和复杂计算时表现出色。文章详细介绍了环境建模、Q表初始化、训练循环及策略提取等关键步骤,并分析了其在游戏开发、机器人控制等领域的应用前景,同时指出了可能面临的挑战及应对策略。
370 11
|
8月前
|
机器学习/深度学习 自然语言处理 搜索推荐
《让机器人读懂你的心:情感分析技术融合奥秘》
情感分析技术正赋予机器人理解人类情绪的能力,使其从冰冷的工具转变为贴心伙伴。通过语音、面部表情和文本等多模态信息,机器人可精准识别情绪并做出相应反应。然而,多模态数据融合、个性化情感理解及自然情感表达仍是技术难点。一旦突破,机器人将在医疗、教育和养老等领域大放异彩,成为患者助手、个性化教师和老人陪伴者,开启人机交互新纪元。这不仅是一次技术飞跃,更是机器人迈向情感世界的深刻变革。
519 0
|
10月前
|
机器学习/深度学习 人工智能 自然语言处理
Logic-RL: 小模型也能强推理,通过基于规则的强化学习提升大语言模型结构化推理能力
这篇论文探讨了基于规则的强化学习(RL)如何提升大型语言模型(LLM)的高级推理能力。通过在程序生成的逻辑谜题上训练并强制执行结构化思考,即使是较小的模型也能开发出可转移的问题解决策略。研究引入了多层次奖励系统,包括格式、答案、推理一致性和反思奖励,以引导模型形成严谨的推理过程。实验结果表明,这种方法不仅提高了模型在逻辑任务上的性能,还在数学问题解决、代码调试等领域展现出显著的泛化能力。此外,该方法在较小模型上实现了与大模型相当甚至更优的推理表现,为资源受限环境下的高效推理提供了新途径。
889 0
Logic-RL: 小模型也能强推理,通过基于规则的强化学习提升大语言模型结构化推理能力
|
机器学习/深度学习 存储 算法
使用深度强化学习预测股票:DQN 、Double DQN和Dueling Double DQN对比和代码示例
深度强化学习可以将深度学习与强化学习相结合:深度学习擅长从原始数据中学习复杂的表示,强化学习则使代理能够通过反复试验在给定环境中学习最佳动作。通过DRL,研究人员和投资者可以开发能够分析历史数据的模型,理解复杂的市场动态,并对股票购买、销售或持有做出明智的决策。
419 4
|
机器学习/深度学习 人工智能 算法
强化学习在复杂环境中的应用与挑战
【8月更文第9天】强化学习(Reinforcement Learning, RL)是一种机器学习方法,通过智能体与环境的交互来学习最优策略。近年来,随着计算能力的提升和算法的进步,强化学习被广泛应用于各种复杂环境下的任务,如机器人导航、游戏策略优化等。本文将探讨强化学习在这些领域中的应用案例,并分析所面临的挑战及其潜在的解决方案。
1041 4
主流开源网关比较
主流开源网关比较
345 0
|
机器学习/深度学习 传感器 安全
基于云的强化学习在汽车控制功能开发中的应用
摘要 汽车控制功能变得越来越复杂,其开发也越来越精细,这导致在开发过程中强烈需要自动化解决方案。在这里,强化学习为功能开发提供了巨大的潜力,可以以自动化的方式生成优化的控制功能。尽管它成功地部署在各种控制任务中,但在汽车行业中仍然缺乏基于强化学习的功能开发标准工具解决方案。为了解决这一差距,我们提出了一个灵活的框架,将传统的开发过程与开源的强化学习库相结合。它具有相关车辆部件的模块化物理模型、与微观交通模拟的协同模拟以生成真实场景,并实现分布式和并行训练。我们在一项可行性研究中证明了我们提出的方法的有效性,该研究旨在学习城市交通场景中电动汽车自动纵向控制的控制函数。进化的控制策略产生了一个平滑
449 0
|
Cloud Native IDE Java
阿里巴巴正式开源云原生应用脚手架
12 月 3 日,微服务 x 容器开源开发者 Meetup 上海站上,阿里云智能技术专家,云原生应用脚手架项目负责人良名宣布阿里巴巴云原生应用脚手架项目正式开源,并在现场做了相关内容介绍。
855 96
阿里巴巴正式开源云原生应用脚手架
|
并行计算 编译器 C++
CUDA 中的线程组织
CUDA 中的线程组织
314 0
|
机器学习/深度学习 算法 自动驾驶
【强化学习】常用算法之一 “SAC”
强化学习(Reinforcement Learning,RL)是一种机器学习的分支,其目标是让智能体(agent)通过与环境的交互学习到最优的行为策略。SAC(Soft Actor-Critic)算法是近年来在强化学习领域取得重要突破的算法之一,它是一种基于策略优化和价值函数学习的算法。相对于传统的强化学习算法,SAC算法在优化过程中引入了熵正则化和软化策略更新的概念,使得智能体能够更好地探索未知的状态,提高学习效率。
4395 0
【强化学习】常用算法之一 “SAC”