深度强化学习发展概要

简介: 强化学习(Reinforcement Learning)是智能体与环境之间进行交互,并将状态映射到动作以获得奖励,实现最优策略的学习机制。与监督学习相比,强化学习不需要样本集,也不需要进行人工标注,而是通过不断尝试来发现不同动作产生的正向或负向的反馈,来指导策略的学习。与无监督式学习相比,强化学习不只是探索事物的特征进行模式识别,而且通过与环境交互建立输入与输出之间的映射关系,目标是得到最优策略。

试错和延迟奖励是强化学习的两个重要特征。1954—2013年为强化学习早期阶段,早期强化学习发展的过程中有3个分支,分别是最优控制、试错和时序差分,在20世纪80年代后期,3个分支融汇在一起,产生了我们现在所看到的强化学习。

进入21世纪,得益于深度学习的兴起和算力迅速的提升,海量数据得以充分使用,不仅为人工智能注入了新的机会,还推动了强化学习与深度学习更进一步的结合。2013年,DeepMind公司发布了Deep Q-Network(DQN)算法,用于Atari游戏。这掀起了深度强化学习的热潮,其应用范围从控制复杂的机械、调配网络资源,到数据中心大幅节能、市场交易策略、游戏智能、内容推荐,甚至对机器学习算法自动调参。2015年,OpenAI公司致力于研究通用人工智能。2016年3月,AlphaGo在围棋比赛中以4∶1击败顶尖职业棋手。2016年,弗拉基米尔·明(Volodymyr Mnih)等提出并行式的深度强化学习(A3C),在多个Atari游戏中胜出。2017年,AlphaZero使用纯强化学习,将价值网络和策略网络整合成一个网络,击败了AlphaGo。至此,掀起了深度强化学习研究热潮,近年来顶级会议论文不断产出,强化学习的理论进步,开源框架的逐步成熟,推动深度强化学习成为人工智能领域的新方向。

强化学习是机器学习的一个重要分支,是多学科、多领域交叉的一个产物,将深度学习的感知能力和强化学习的决策能力结合,端到端地实现从原始输入到输出的控制。早前强化学习主要用于解决控制问题,在融入了深度学习算法后应用更加广泛,例如可以获得大量自带标注的优质训练数据的游戏领域,特别是博弈类策略游戏的AlphaGo和工业级机器人等。此外,还有自然语言处理、机器翻译、文本生成、计算机视觉、推荐系统、神经网络调参、金融、医疗保健、智能电网和智能交通系统等场合。

强化学习从游戏中诞生了众多具有代表性的算法,在一些游戏中的表现甚至超过了人类玩家,如DQN算法及其各类变体在Atari游戏中表现优异。回合制棋类游戏程序“Alpha系列”使用蒙特卡洛树搜索(Monte Carlo Tree Search,MCTS)的基础架构,结合价值网络、策略网络和快速走子模块,形成完整的下棋系统。强化学习拓展了搜索树的深度和宽度,平衡探索(Exploration)与利用(Exploitation)的关系,获得了非常显著的效果。在地图不完全公开的多人电子游戏中,OpenAI Five系统在地形高度复杂、游戏地图局部观测、玩家高度配合的情况下,在游戏中战胜人类高手。

亚马逊SageMaker通过强化学习训练智能体对市场做出相应最优决策,腾讯公司也把强化学习应用于游戏中,并通过开悟等强化学习平台,联合学术界推动强化学习的创新应用。智能体将选择是否按照给定的价格买入或卖出某项资产,以实现最大长期利润。百度在强化学习方面投入大量研究和实践,将其用于新闻推荐。滴滴的人工智能实验室用强化学习为乘客匹配司机,最小化乘客等待时间。

目录
相关文章
|
16天前
|
机器学习/深度学习 人工智能 自然语言处理
【人工智能】深度解读 ChatGPT基本原理
ChatGPT是OpenAI开发的一种基于人工智能技术的自然语言处理工具,它代表了自然语言处理(NLP)技术的前沿进展。ChatGPT的基本原理建立在一系列先进技术和方法之上,主要包括GPT(Generative Pre-trained Transformer)模型架构、预训练与微调技术、以及可能采用的RLHF(Reinforcement Learning from Human Feedback)等高级训练策略。下面将详细解读ChatGPT的基本原理和关键技术:
41 1
|
1月前
|
机器学习/深度学习 数据采集 自然语言处理
如何通过机器学习进行情感分析:一项深度技术探索
【8月更文挑战第7天】通过机器学习进行情感分析是一个复杂但充满潜力的过程。从数据准备到模型部署,每一步都需要精细设计和不断优化。随着技术的不断进步,我们有理由相信,情感分析将在更多领域发挥更大的作用,为人类社会带来更多的便利和价值。
70 12
|
4月前
|
机器学习/深度学习 数据挖掘
西浦、利物浦大学提出:点云数据增强首个全面综述
【5月更文挑战第26天】西交利物浦大学和利物浦大学的研究团队发表了一篇关于点云数据增强的首部全面综述,分析了点云增强技术在缓解深度学习模型过拟合问题上的作用。研究将方法分为基本(如仿射变换、随机丢弃)和高级(混合、对抗性变形)两类,并探讨了各类方法的优缺点及应用场景。尽管基本方法常用,但自动优化组合和参数、多模态增强及性能评估标准仍是挑战。该综述为研究者提供了理解与应用点云增强的指导,但也指出在某些领域的深入探讨尚不足。[arXiv:2308.12113]
108 1
|
4月前
|
机器学习/深度学习 数据采集 人工智能
语言模型的历史和发展
语言模型的历史和发展
53 2
|
4月前
|
机器学习/深度学习 算法 自动驾驶
深度强化学习在大模型中的应用:现状、问题和发展
强化学习在大模型中的应用具有广泛的潜力和机会。通过使用强化学习算法,如DQN、PPO和TRPO,可以训练具有复杂决策能力的智能体,在自动驾驶、机器人控制和游戏玩家等领域取得显著成果。然而,仍然存在一些挑战,如样本效率、探索与利用平衡以及可解释性问题。未来的研究方向包括提高样本效率、改进探索策略和探索可解释的强化学习算法,以进一步推动强化学习在大模型中的应用。
1152 3
|
11月前
|
机器学习/深度学习 算法 PyTorch
深度强化学习技术要求
深度强化学习技术要求
62 0
|
机器学习/深度学习 分布式计算 并行计算
推荐一些机器学习系统MLSys中的值得研究的方向
MLsys不能算是一种方向,而是一种思路。比如对于system研究者来说,可以把ML作为我们开发的系统要适配的一种benchmark,就像transaction对于数据库、某种文件场景对于File System的意义一样。这样一想可做的空间就宽广多了
656 0
|
机器学习/深度学习 人工智能 自然语言处理
【深入探究人工智能】:历史、应用、技术与未来
【深入探究人工智能】:历史、应用、技术与未来
|
机器学习/深度学习 传感器 自然语言处理
一文尽览 | 轨迹预测二十年发展全面回顾!(基于物理/机器学习/深度学习/强化学习)(上)
为了在动态环境中安全驾驶,自动驾驶车辆应该能够预测附近交通参与者的未来状态,尤其是周围车辆,类似于人类驾驶员的预测驾驶能力。这就是为什么研究人员致力于轨迹预测领域并提出不同的方法。本文旨在对过去二十年中提出的自动驾驶轨迹预测方法进行全面和比较性的回顾!!!它从问题公式和算法分类开始。然后,详细介绍和分析了基于物理、经典机器学习、深度学习和强化学习的流行方法。最后,论文评估了每种方法的性能,并概述了潜在的研究方向。
一文尽览 | 轨迹预测二十年发展全面回顾!(基于物理/机器学习/深度学习/强化学习)(上)
|
机器学习/深度学习 传感器 编解码
一文尽览 | 轨迹预测二十年发展全面回顾!(基于物理/机器学习/深度学习/强化学习)(下)
为了在动态环境中安全驾驶,自动驾驶车辆应该能够预测附近交通参与者的未来状态,尤其是周围车辆,类似于人类驾驶员的预测驾驶能力。这就是为什么研究人员致力于轨迹预测领域并提出不同的方法。本文旨在对过去二十年中提出的自动驾驶轨迹预测方法进行全面和比较性的回顾!!!它从问题公式和算法分类开始。然后,详细介绍和分析了基于物理、经典机器学习、深度学习和强化学习的流行方法。最后,论文评估了每种方法的性能,并概述了潜在的研究方向。
一文尽览 | 轨迹预测二十年发展全面回顾!(基于物理/机器学习/深度学习/强化学习)(下)