深度强化学习发展概要

简介: 强化学习(Reinforcement Learning)是智能体与环境之间进行交互,并将状态映射到动作以获得奖励,实现最优策略的学习机制。与监督学习相比,强化学习不需要样本集,也不需要进行人工标注,而是通过不断尝试来发现不同动作产生的正向或负向的反馈,来指导策略的学习。与无监督式学习相比,强化学习不只是探索事物的特征进行模式识别,而且通过与环境交互建立输入与输出之间的映射关系,目标是得到最优策略。

试错和延迟奖励是强化学习的两个重要特征。1954—2013年为强化学习早期阶段,早期强化学习发展的过程中有3个分支,分别是最优控制、试错和时序差分,在20世纪80年代后期,3个分支融汇在一起,产生了我们现在所看到的强化学习。

进入21世纪,得益于深度学习的兴起和算力迅速的提升,海量数据得以充分使用,不仅为人工智能注入了新的机会,还推动了强化学习与深度学习更进一步的结合。2013年,DeepMind公司发布了Deep Q-Network(DQN)算法,用于Atari游戏。这掀起了深度强化学习的热潮,其应用范围从控制复杂的机械、调配网络资源,到数据中心大幅节能、市场交易策略、游戏智能、内容推荐,甚至对机器学习算法自动调参。2015年,OpenAI公司致力于研究通用人工智能。2016年3月,AlphaGo在围棋比赛中以4∶1击败顶尖职业棋手。2016年,弗拉基米尔·明(Volodymyr Mnih)等提出并行式的深度强化学习(A3C),在多个Atari游戏中胜出。2017年,AlphaZero使用纯强化学习,将价值网络和策略网络整合成一个网络,击败了AlphaGo。至此,掀起了深度强化学习研究热潮,近年来顶级会议论文不断产出,强化学习的理论进步,开源框架的逐步成熟,推动深度强化学习成为人工智能领域的新方向。

强化学习是机器学习的一个重要分支,是多学科、多领域交叉的一个产物,将深度学习的感知能力和强化学习的决策能力结合,端到端地实现从原始输入到输出的控制。早前强化学习主要用于解决控制问题,在融入了深度学习算法后应用更加广泛,例如可以获得大量自带标注的优质训练数据的游戏领域,特别是博弈类策略游戏的AlphaGo和工业级机器人等。此外,还有自然语言处理、机器翻译、文本生成、计算机视觉、推荐系统、神经网络调参、金融、医疗保健、智能电网和智能交通系统等场合。

强化学习从游戏中诞生了众多具有代表性的算法,在一些游戏中的表现甚至超过了人类玩家,如DQN算法及其各类变体在Atari游戏中表现优异。回合制棋类游戏程序“Alpha系列”使用蒙特卡洛树搜索(Monte Carlo Tree Search,MCTS)的基础架构,结合价值网络、策略网络和快速走子模块,形成完整的下棋系统。强化学习拓展了搜索树的深度和宽度,平衡探索(Exploration)与利用(Exploitation)的关系,获得了非常显著的效果。在地图不完全公开的多人电子游戏中,OpenAI Five系统在地形高度复杂、游戏地图局部观测、玩家高度配合的情况下,在游戏中战胜人类高手。

亚马逊SageMaker通过强化学习训练智能体对市场做出相应最优决策,腾讯公司也把强化学习应用于游戏中,并通过开悟等强化学习平台,联合学术界推动强化学习的创新应用。智能体将选择是否按照给定的价格买入或卖出某项资产,以实现最大长期利润。百度在强化学习方面投入大量研究和实践,将其用于新闻推荐。滴滴的人工智能实验室用强化学习为乘客匹配司机,最小化乘客等待时间。

目录
相关文章
|
1月前
|
人工智能 自然语言处理 数据处理
【专栏】人工智能中监督学习在快速发展的科技时代中的重要性。其应用方向有哪些?
【4月更文挑战第28天】本文探讨了监督学习在快速发展的科技时代中的重要性。作为人工智能的关键分支,监督学习通过已标记数据训练模型以进行预测和分类。文章阐述了其基本概念、训练过程和评估方法,并列举了图像识别、语音识别、自然语言处理、医疗和金融等领域中的应用案例。同时,指出了数据标注、模型复杂度、可解释性等问题及未来发展趋势,强调了监督学习的广阔前景和潜力。
|
1月前
|
机器学习/深度学习 数据采集 人工智能
语言模型的历史和发展
语言模型的历史和发展
34 2
|
1月前
|
机器学习/深度学习 人工智能 缓存
Contextual发布生成式表征指导调整模型
【2月更文挑战第17天】Contextual发布生成式表征指导调整模型
42 1
Contextual发布生成式表征指导调整模型
|
1月前
|
机器学习/深度学习 算法 自动驾驶
深度强化学习在大模型中的应用:现状、问题和发展
强化学习在大模型中的应用具有广泛的潜力和机会。通过使用强化学习算法,如DQN、PPO和TRPO,可以训练具有复杂决策能力的智能体,在自动驾驶、机器人控制和游戏玩家等领域取得显著成果。然而,仍然存在一些挑战,如样本效率、探索与利用平衡以及可解释性问题。未来的研究方向包括提高样本效率、改进探索策略和探索可解释的强化学习算法,以进一步推动强化学习在大模型中的应用。
680 1
|
1月前
|
人工智能 自然语言处理 算法
技术角度告诉你ChatGPT是什么?和一些深度思考
技术角度告诉你ChatGPT是什么?和一些深度思考
|
8月前
|
机器学习/深度学习 算法 PyTorch
深度强化学习技术要求
深度强化学习技术要求
47 0
|
10月前
|
机器学习/深度学习 人工智能 自然语言处理
【深入探究人工智能】:历史、应用、技术与未来
【深入探究人工智能】:历史、应用、技术与未来
|
机器学习/深度学习 分布式计算 并行计算
推荐一些机器学习系统MLSys中的值得研究的方向
MLsys不能算是一种方向,而是一种思路。比如对于system研究者来说,可以把ML作为我们开发的系统要适配的一种benchmark,就像transaction对于数据库、某种文件场景对于File System的意义一样。这样一想可做的空间就宽广多了
516 0
|
机器学习/深度学习 人工智能 编解码
逐步揭开模型面纱!首篇深度视觉建模中的可解释AI综述
深度视觉模型在高风险领域有着广泛的应用。因此它们的黑匣子性质目前吸引了研究界的极大兴趣。论文在《可解释的人工智能》中进行了第一次调查,重点是解释深度视觉模型的方法和指标。涵盖了最新技术的里程碑式贡献,论文不仅提供了现有技术的分类组织,还挖掘了一系列评估指标,并将其作为模型解释的不同特性的衡量标准进行整理。在深入讨论当前趋势的同时,论文还讨论了这一研究方向的挑战和未来途径。
逐步揭开模型面纱!首篇深度视觉建模中的可解释AI综述
|
机器学习/深度学习 人工智能 资源调度
深度强化学习技术概述
在本文中详细介绍了深度强化学习技术,将强化学习分成三大类(value-based算法、policy-based算法及结合两者的AC算法)来进行介绍。首先,从数学理论角度介绍了强化学习;接着,从不同适用方向对两类深度强化学习算法进行介绍:基于值函数(Value-based)的深度强化学习算法DQN和基于策略(Policy-based)的深度强化学习算法PG。最后,介绍目前应用广泛的结合前两个算法的结合物AC(Actor-Critic)算法。
1295 2
深度强化学习技术概述

热门文章

最新文章