提到强化学习只知道AlphaGo?其实,RL在工业界还有这些应用

简介:
本文来自AI新媒体量子位(QbitAI)

关于作者:
Ben Lorica,O’Reilly Media的首席数据科学家,同时是Strata Data Conference和O’Reilly Artificial Intelligence Conference的项目主任。

89866a909314bb1731c4b6b3c7e30d3fe23e007d

AlphaGo Zero的出现让人们再次提起了对强化学习的兴趣。紧随深度学习之后,强化学习成为了目前AI领域最热门的话题。

大部分公司对强化学习这个事做了调查和评估,然而很少有人真正搞明白它究竟能做什么。

考虑到RL的概念现在已经被混淆进了一大坨乱七八糟的问题和技术里,我们有必要先给它下个定义。

一般而言,RL的目标是学会如何将观测结果和测量值映射到一系列行为,同时最大化长期奖励。这个概念通常将那些“智能体与环境进行交互并学会最佳决策序列”的应用包括在内。

事实上,很多RL的最初应用都处于那些长期在寻求自动化序列决策的领域。

有别于传统的在线学习(online learning)——你经常得到这样的组合:延迟的反馈、稀少的奖励,以及会在交互时对环境造成影响的智能体——RL提出了一系列全然不同的挑战。

DL已经被许多公司用到了各种各样的应用上,与之相比RL的应用领域还相对有限,而我们想给它来个盘点。

98a915d613f934677304ce7da240492889faa021

在我开始之前,我想先谈谈RL在实际中遇到的一些难处。

正如吴恩达在旧金山AI大会上的主旨发言中所说,RL需要大量的数据,与此同时,需要与那些能够获取模拟数据的领域(比如游戏和机器人)建立联系。

从论文中汲取养分并将它们应用于实际同样不易:即便是对于RL的研究者而言,要重复研究结果依然十分困难,更别说是一般的数据科学家了;而随着机器学习被部署到关键性的任务中,可重复性以及预估错误的能力就变得不可或缺。

因此,至少就现在而言,对于需要持续控制的关键任务应用而言,RL可能并不是理想选择。

尽管如此,还是有不少有趣的应用和产品要依赖于RL。由RL帮忙实现的序列决策自动化能给包括个性化、明确界定任务自动化在内的许多设置带来益处。

对于公司而言,他们的首要任务就是搞定复合这些描述的简单案例,而不是去纠结那些过于复杂、“需要AI”的大坑。

好了,下面我就把这些RL开始出现的关键领域给你高亮。

机器人和工业自动化

RL在高维控制问题中的应用,比如机器人,已经成为学术和工业界的一大研究主题。与此同时,一些创业公司也开始用RL为工业机器人来打造产品。

工业自动化则是另一个前景不错的领域。

目前看来,DeepMInd提供的RL技术帮助谷歌显著地降低了自己数据中心的能源消耗。创业公司们已经意识到在自动化解决方案领域中存在着一个巨大的市场,有几家创业公司正在为一些公司制作能让后者将RL和其他技术用进工业应用的工具,Bonsai就是其中之一。一个例子是调试机器和设备,而这一领域目前被人类专家所垄断。

3c825ac558d8a641eeb595e02b5a7f26760196f1

对照工业系统,Bonsai最近列出了如下几个“考虑下RL没亏吃”的标准:

1. 你在进行模拟,因为要教会机器通过试验、避开错误,你的系统和过程太复杂了。
2. 你正在处理大型状态空间。
3. 你希望为人类分析师和领域专家提供操作效率优化和决策支持。

数据科学和机器学习

使用机器学习库正在变得更容易,不过对于数据科学家而言,选择一个合适的模型或模型架构依然有点难度。
随着深度学习更多地为数据科学家和机器学习工程师所用,能帮助人们搭建、调整神经网络架构的工具已经成了热门研究领域。

有几组研究人员提出了利用RL来让设计神经网络架构的过程更为开放。谷歌的AutoML使用RL来为计算机视觉和语言建模创造最先进的机器生成神经网络架构。

9eb6cd1f16f1a6af5b663d1ce136b0ca4447dbb2

 AutoML相关论文

https://arxiv.org/abs/1611.01578

除了能够简化机器学习的生成过程,一些人认为RL将能够帮助软件工程师编写计算机程序。

教育和培训

在线平台已经在进行利用机器学习来打造个性化体验的试验。有几位研究者正在研究RL和其他机器学习方法在辅导系统和个性化学习中的应用。

RL的使用将促成全新培训系统的出现,系统将能够根据学生需求来对指导和材料进行调整。有一组研究者正在开发RL算法和统计学方法,以降低未来辅导系统的数据需求。

医疗健康

RL中与环境进行交互并根据行为回收反馈的智能体设置与医药科学中治疗方案的学习问题存在很多类似之处。

事实上,许多医疗保健领域的RL应用就是为了寻找最佳治疗方案。最近有几篇论文,研究了强化学习在医疗器械、药物剂量和两阶段临床试验中的应用,例如:

A Reinforcement Learning Approach to Weaning of Mechanical Ventilation in Intensive Care Units
https://arxiv.org/abs/1704.06300

Optimal medication dosing from suboptimal clinical examples: a deep reinforcement learning approach
https://www.ncbi.nlm.nih.gov/pubmed/28268938

Informing sequential clinical decision-making through reinforcement learning: an empirical study
http://pubmedcentralcanada.ca/pmcc/articles/PMC3143507/

文本、语音和对话系统

好的非结构化文本解锁工具总是不会缺少买家。

今年早些时候,SalesForce的AI研究者们把深度RL用在了在提取文本摘要(从原始文本文档中抽象出的内容中自动生成摘要的技术)上。现在许多公司都在寻找更好的文本挖掘解决方案,RL在这一领域估计要吸一大批粉。

RL还让对话式系统(比如聊天机器人)从用户的交互行为中学习,从而随着时间而不断提升(许多商业化的聊天机器人现在用的是决策树)。

媒体和广告

微软最近公布了一套可在Azure上获取的、名为“决策服务”的内部系统。他们的论文介绍了“决策服务”在内容推荐和广告上的应用。更普遍点说,“决策服务”面向的是那些遭遇了“反馈循环和偏见、分散的数据收集、环境的变化、弱爆了的监测和故障排除”等失败模式的机器学习产品。

其他RL应用还包括跨渠道营销优化和在线广告展示的实时竞价系统。

金融

这块稍微有点尴尬。作为一名曾经的数据分析师,我遇到过不少对DL和RL进行过评估的交易者和分析师,但是除了小的指引,很少有人把这些工具用到以外的地方。关于这方面的论文是不少,但很少有公司真正去做这类软件。

不过有一个例外:摩根大通的一套用于交易执行的系统。依托于RL,这套系统被用于以可能的最快速度和最佳价格来执行交易。

像所有其他的新技术一样,使用RL的关键在于理解它的优势和弱点,然后找到简单的应用案例来尝试它。别被那些铺天盖地的AI宣传弄花了眼,你应该把RL看作一种有用的机器学习技术,尽管它只是对某些特定的问题有效。

原文:https://www.oreilly.com/ideas/practical-applications-of-reinforcement-learning-in-industry?imm_mid=0f9d5c&cmp=em-data-na-na-newsltr_ai_20171218
本文作者:唐旭
原文发布时间:2017-12-22
相关文章
|
机器学习/深度学习 算法 PyTorch
深度学习经典算法PPO的通俗理解
#1 前置知识点 基本概念 [https://www.yuque.com/docs/share/04b60c4c-90ec-49c7-8a47-0dae7d3c78c7?#](https://www.yuque.com/docs/share/04b60c4c-90ec-49c7-8a47-0dae7d3c78c7?#) (部分符合的定义在这里) 要理解PPO,就必须先理解Actor
9077 0
|
5天前
|
机器学习/深度学习 算法
强化学习之父Richard Sutton给出一个简单思路,大幅增强所有RL算法
Richard Sutton领导的团队提出了一种称为“奖励中心化”的方法,通过从观察到的奖励中减去其经验平均值,使奖励更加集中,显著提高了强化学习算法的性能。该方法在解决持续性问题时表现出色,尤其是在折扣因子接近1的情况下。论文地址:https://arxiv.org/pdf/2405.09999
30 15
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
深度学习还不如浅层网络?RL教父Sutton持续反向传播算法登Nature
【9月更文挑战第24天】近年来,深度学习在人工智能领域取得巨大成功,但在连续学习任务中面临“损失可塑性”问题,尤其在深度强化学习中更为突出。加拿大阿尔伯塔大学的研究人员提出了一种名为“持续反向传播”的算法,通过选择性地重新初始化网络中的低效用单元,保持模型的可塑性。该算法通过评估每个连接和权重的贡献效用来决定是否重新初始化隐藏单元,并引入成熟度阈值保护新单元。实验表明,该算法能显著提升连续学习任务的表现,尤其在深度强化学习领域效果明显。然而,算法也存在计算复杂性和成熟度阈值设置等问题。
79 2
|
5月前
|
机器学习/深度学习 存储 数据采集
强化学习系列:A3C算法解析
【7月更文挑战第13天】A3C算法作为一种高效且广泛应用的强化学习算法,通过结合Actor-Critic结构和异步训练的思想,实现了在复杂环境下的高效学习和优化策略的能力。其并行化的训练方式和优势函数的引入,使得A3C算法在解决大规模连续动作空间和高维状态空间的问题上表现优异。未来,随着技术的不断发展,A3C算法有望在更多领域发挥重要作用,推动强化学习技术的进一步发展。
|
7月前
|
机器学习/深度学习 人工智能 算法
【机器学习】探究Q-Learning通过学习最优策略来解决AI序列决策问题
【机器学习】探究Q-Learning通过学习最优策略来解决AI序列决策问题
288 1
|
机器学习/深度学习 算法
深度强化学习常用算法
深度强化学习常用算法
175 0
|
机器学习/深度学习 算法
ZAO 背后的深度学习算法原理浅析
ZAO最近火爆,成为现象级产品之一,引起大家的广泛关注,ATA上面已经有同学做了一些说明分析,链接如下: https://www.atatech.org/articles/148375?spm=ata.13269325.0.0.27ad49fa0Vr2gG 上面文章介绍了ZAO是基于deep fake算法演变出来的一种产品,并提供了deepFake lab的下载地址,计算机硬件的要求等等。本文
|
机器学习/深度学习 存储 编解码
强化学习DQN浓缩
强化学习DQN浓缩
236 0
|
机器学习/深度学习 人工智能 算法
Deepmind最新研究:从图表示学习看算法推理
在上周三ICLR 2020大会中,来自Deepmind的研究人员Petar Veličković介绍了用算法推理的图表示学习最新研究。该研究提出了主要邻域聚合(PNA),并通过实践证明了使用多个聚合策略同时提高了GNN的表现力。
498 0
Deepmind最新研究:从图表示学习看算法推理
|
机器学习/深度学习 Web App开发 人工智能
谷歌大脑提出并发RL算法,机器人也可以「边行动边思考」
由谷歌大脑、UC伯克利、X实验室发表在 ICLR 2020 的一篇论文中提出了一种并发RL算法,使机器人能够像人一样「边行动边思考」。该项研究表明,机械手臂在并发模型中抓取速度比在阻塞模型中的速度提高49%。
237 0
谷歌大脑提出并发RL算法,机器人也可以「边行动边思考」
下一篇
DataWorks