深度强化学习发展概要

简介: 强化学习(Reinforcement Learning)是智能体与环境之间进行交互,并将状态映射到动作以获得奖励,实现最优策略的学习机制。与监督学习相比,强化学习不需要样本集,也不需要进行人工标注,而是通过不断尝试来发现不同动作产生的正向或负向的反馈,来指导策略的学习。与无监督式学习相比,强化学习不只是探索事物的特征进行模式识别,而且通过与环境交互建立输入与输出之间的映射关系,目标是得到最优策略。

试错和延迟奖励是强化学习的两个重要特征。1954—2013年为强化学习早期阶段,早期强化学习发展的过程中有3个分支,分别是最优控制、试错和时序差分,在20世纪80年代后期,3个分支融汇在一起,产生了我们现在所看到的强化学习。

进入21世纪,得益于深度学习的兴起和算力迅速的提升,海量数据得以充分使用,不仅为人工智能注入了新的机会,还推动了强化学习与深度学习更进一步的结合。2013年,DeepMind公司发布了Deep Q-Network(DQN)算法,用于Atari游戏。这掀起了深度强化学习的热潮,其应用范围从控制复杂的机械、调配网络资源,到数据中心大幅节能、市场交易策略、游戏智能、内容推荐,甚至对机器学习算法自动调参。2015年,OpenAI公司致力于研究通用人工智能。2016年3月,AlphaGo在围棋比赛中以4∶1击败顶尖职业棋手。2016年,弗拉基米尔·明(Volodymyr Mnih)等提出并行式的深度强化学习(A3C),在多个Atari游戏中胜出。2017年,AlphaZero使用纯强化学习,将价值网络和策略网络整合成一个网络,击败了AlphaGo。至此,掀起了深度强化学习研究热潮,近年来顶级会议论文不断产出,强化学习的理论进步,开源框架的逐步成熟,推动深度强化学习成为人工智能领域的新方向。

强化学习是机器学习的一个重要分支,是多学科、多领域交叉的一个产物,将深度学习的感知能力和强化学习的决策能力结合,端到端地实现从原始输入到输出的控制。早前强化学习主要用于解决控制问题,在融入了深度学习算法后应用更加广泛,例如可以获得大量自带标注的优质训练数据的游戏领域,特别是博弈类策略游戏的AlphaGo和工业级机器人等。此外,还有自然语言处理、机器翻译、文本生成、计算机视觉、推荐系统、神经网络调参、金融、医疗保健、智能电网和智能交通系统等场合。

强化学习从游戏中诞生了众多具有代表性的算法,在一些游戏中的表现甚至超过了人类玩家,如DQN算法及其各类变体在Atari游戏中表现优异。回合制棋类游戏程序“Alpha系列”使用蒙特卡洛树搜索(Monte Carlo Tree Search,MCTS)的基础架构,结合价值网络、策略网络和快速走子模块,形成完整的下棋系统。强化学习拓展了搜索树的深度和宽度,平衡探索(Exploration)与利用(Exploitation)的关系,获得了非常显著的效果。在地图不完全公开的多人电子游戏中,OpenAI Five系统在地形高度复杂、游戏地图局部观测、玩家高度配合的情况下,在游戏中战胜人类高手。

亚马逊SageMaker通过强化学习训练智能体对市场做出相应最优决策,腾讯公司也把强化学习应用于游戏中,并通过开悟等强化学习平台,联合学术界推动强化学习的创新应用。智能体将选择是否按照给定的价格买入或卖出某项资产,以实现最大长期利润。百度在强化学习方面投入大量研究和实践,将其用于新闻推荐。滴滴的人工智能实验室用强化学习为乘客匹配司机,最小化乘客等待时间。

目录
相关文章
|
8天前
|
机器学习/深度学习 算法
论文介绍:OpenGraph——迈向开放图基础模型
【5月更文挑战第11天】OpenGraph,由香港大学研发,是一个新型图学习框架,旨在提升模型对不同图数据的泛化能力,特别是零样本图学习。它通过统一图标记器、可扩展的图变换器和LLM增强的数据增强机制应对技术挑战。在零样本和少样本学习任务中,OpenGraph表现出色,优于基线方法。论文深入探讨了其组件的有效性和影响因素,并在多个真实世界数据集上验证了优越的泛化性能。这一创新为图学习研究开辟新路径,但也提出了效率、鲁棒性和应用探索等未来挑战。[链接](https://arxiv.org/pdf/2403.01121.pdf)
13 2
|
8天前
|
机器学习/深度学习 人工智能 缓存
Contextual发布生成式表征指导调整模型
【2月更文挑战第17天】Contextual发布生成式表征指导调整模型
35 1
Contextual发布生成式表征指导调整模型
|
8天前
|
机器学习/深度学习 算法 自动驾驶
深度强化学习在大模型中的应用:现状、问题和发展
强化学习在大模型中的应用具有广泛的潜力和机会。通过使用强化学习算法,如DQN、PPO和TRPO,可以训练具有复杂决策能力的智能体,在自动驾驶、机器人控制和游戏玩家等领域取得显著成果。然而,仍然存在一些挑战,如样本效率、探索与利用平衡以及可解释性问题。未来的研究方向包括提高样本效率、改进探索策略和探索可解释的强化学习算法,以进一步推动强化学习在大模型中的应用。
558 1
|
8天前
|
机器学习/深度学习 自然语言处理 安全
18LLM4SE革命性技术揭秘:大型语言模型LLM在软件工程SE领域的全景解析与未来展望 - 探索LLM的多维应用、优化策略与软件管理新视角【网安AIGC专题11.15】作者汇报 综述
18LLM4SE革命性技术揭秘:大型语言模型LLM在软件工程SE领域的全景解析与未来展望 - 探索LLM的多维应用、优化策略与软件管理新视角【网安AIGC专题11.15】作者汇报 综述
324 0
|
7月前
|
机器学习/深度学习 算法 PyTorch
深度强化学习技术要求
深度强化学习技术要求
46 0
|
机器学习/深度学习 分布式计算 并行计算
推荐一些机器学习系统MLSys中的值得研究的方向
MLsys不能算是一种方向,而是一种思路。比如对于system研究者来说,可以把ML作为我们开发的系统要适配的一种benchmark,就像transaction对于数据库、某种文件场景对于File System的意义一样。这样一想可做的空间就宽广多了
475 0
|
机器学习/深度学习 算法 测试技术
【吴恩达深度学习笔记-改善深层神经网络】——第一周深度学习的实用层面(1.1)
【吴恩达深度学习笔记-改善深层神经网络】——第一周深度学习的实用层面(1.1)
【吴恩达深度学习笔记-改善深层神经网络】——第一周深度学习的实用层面(1.1)
|
机器学习/深度学习 算法
【吴恩达深度学习笔记-改善深层神经网络】——第一周深度学习的实用层面(1.2)
【吴恩达深度学习笔记-改善深层神经网络】——第一周深度学习的实用层面(1.2)
【吴恩达深度学习笔记-改善深层神经网络】——第一周深度学习的实用层面(1.2)
|
机器学习/深度学习 人工智能 资源调度
深度强化学习技术概述
在本文中详细介绍了深度强化学习技术,将强化学习分成三大类(value-based算法、policy-based算法及结合两者的AC算法)来进行介绍。首先,从数学理论角度介绍了强化学习;接着,从不同适用方向对两类深度强化学习算法进行介绍:基于值函数(Value-based)的深度强化学习算法DQN和基于策略(Policy-based)的深度强化学习算法PG。最后,介绍目前应用广泛的结合前两个算法的结合物AC(Actor-Critic)算法。
1271 2
深度强化学习技术概述
|
机器学习/深度学习 数据采集 人工智能
深度强化学习探索算法最新综述,近200篇文献揭示挑战和未来方向
强化学习是在与环境交互过程中不断学习的,⽽交互中获得的数据质量很⼤程度上决定了智能体能够学习到的策略的⽔平。因此,如何引导智能体探索成为强化学习领域研究的核⼼问题之⼀。本⽂介绍天津⼤学深度强化学习实验室近期推出的深度强化学习领域第⼀篇系统性的综述⽂章,该综述⾸次全⾯梳理了DRL和MARL的探索⽅法,深⼊分析了各类探索算法的挑战,讨论了各类挑战的解决思路,并揭⽰了未来研究⽅向。
222 0
深度强化学习探索算法最新综述,近200篇文献揭示挑战和未来方向

热门文章

最新文章