深度强化学习发展概要

简介: 强化学习(Reinforcement Learning)是智能体与环境之间进行交互,并将状态映射到动作以获得奖励,实现最优策略的学习机制。与监督学习相比,强化学习不需要样本集,也不需要进行人工标注,而是通过不断尝试来发现不同动作产生的正向或负向的反馈,来指导策略的学习。与无监督式学习相比,强化学习不只是探索事物的特征进行模式识别,而且通过与环境交互建立输入与输出之间的映射关系,目标是得到最优策略。

试错和延迟奖励是强化学习的两个重要特征。1954—2013年为强化学习早期阶段,早期强化学习发展的过程中有3个分支,分别是最优控制、试错和时序差分,在20世纪80年代后期,3个分支融汇在一起,产生了我们现在所看到的强化学习。

进入21世纪,得益于深度学习的兴起和算力迅速的提升,海量数据得以充分使用,不仅为人工智能注入了新的机会,还推动了强化学习与深度学习更进一步的结合。2013年,DeepMind公司发布了Deep Q-Network(DQN)算法,用于Atari游戏。这掀起了深度强化学习的热潮,其应用范围从控制复杂的机械、调配网络资源,到数据中心大幅节能、市场交易策略、游戏智能、内容推荐,甚至对机器学习算法自动调参。2015年,OpenAI公司致力于研究通用人工智能。2016年3月,AlphaGo在围棋比赛中以4∶1击败顶尖职业棋手。2016年,弗拉基米尔·明(Volodymyr Mnih)等提出并行式的深度强化学习(A3C),在多个Atari游戏中胜出。2017年,AlphaZero使用纯强化学习,将价值网络和策略网络整合成一个网络,击败了AlphaGo。至此,掀起了深度强化学习研究热潮,近年来顶级会议论文不断产出,强化学习的理论进步,开源框架的逐步成熟,推动深度强化学习成为人工智能领域的新方向。

强化学习是机器学习的一个重要分支,是多学科、多领域交叉的一个产物,将深度学习的感知能力和强化学习的决策能力结合,端到端地实现从原始输入到输出的控制。早前强化学习主要用于解决控制问题,在融入了深度学习算法后应用更加广泛,例如可以获得大量自带标注的优质训练数据的游戏领域,特别是博弈类策略游戏的AlphaGo和工业级机器人等。此外,还有自然语言处理、机器翻译、文本生成、计算机视觉、推荐系统、神经网络调参、金融、医疗保健、智能电网和智能交通系统等场合。

强化学习从游戏中诞生了众多具有代表性的算法,在一些游戏中的表现甚至超过了人类玩家,如DQN算法及其各类变体在Atari游戏中表现优异。回合制棋类游戏程序“Alpha系列”使用蒙特卡洛树搜索(Monte Carlo Tree Search,MCTS)的基础架构,结合价值网络、策略网络和快速走子模块,形成完整的下棋系统。强化学习拓展了搜索树的深度和宽度,平衡探索(Exploration)与利用(Exploitation)的关系,获得了非常显著的效果。在地图不完全公开的多人电子游戏中,OpenAI Five系统在地形高度复杂、游戏地图局部观测、玩家高度配合的情况下,在游戏中战胜人类高手。

亚马逊SageMaker通过强化学习训练智能体对市场做出相应最优决策,腾讯公司也把强化学习应用于游戏中,并通过开悟等强化学习平台,联合学术界推动强化学习的创新应用。智能体将选择是否按照给定的价格买入或卖出某项资产,以实现最大长期利润。百度在强化学习方面投入大量研究和实践,将其用于新闻推荐。滴滴的人工智能实验室用强化学习为乘客匹配司机,最小化乘客等待时间。

目录
相关文章
|
1月前
|
机器学习/深度学习 人工智能 算法
【AI系统】AI的历史、现状与理论基础
人工智能(AI)作为一门跨学科的研究领域,其目标是模拟、延伸和扩展人的智能。本文旨在概述AI的历史发展、当前趋势以及理论基础,为读者提供一个系统的视角。
79 0
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
【人工智能】深度解读 ChatGPT基本原理
ChatGPT是OpenAI开发的一种基于人工智能技术的自然语言处理工具,它代表了自然语言处理(NLP)技术的前沿进展。ChatGPT的基本原理建立在一系列先进技术和方法之上,主要包括GPT(Generative Pre-trained Transformer)模型架构、预训练与微调技术、以及可能采用的RLHF(Reinforcement Learning from Human Feedback)等高级训练策略。下面将详细解读ChatGPT的基本原理和关键技术:
89 1
|
3月前
|
机器学习/深度学习 数据采集 自然语言处理
如何通过机器学习进行情感分析:一项深度技术探索
【8月更文挑战第7天】通过机器学习进行情感分析是一个复杂但充满潜力的过程。从数据准备到模型部署,每一步都需要精细设计和不断优化。随着技术的不断进步,我们有理由相信,情感分析将在更多领域发挥更大的作用,为人类社会带来更多的便利和价值。
97 12
|
5月前
|
机器学习/深度学习 数据采集 算法
“探索机器学习的多面世界:从理论到应用与未来展望“
“探索机器学习的多面世界:从理论到应用与未来展望“
29 1
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
AI大模型学习涉及理论、技术和应用多个方面的探索
AI大模型学习涉及理论、技术和应用多个方面的探索
82 3
|
5月前
|
机器学习/深度学习 人工智能 算法
【机器学习】AI在空战决策中的崛起:从理论到实践的跨越
【机器学习】AI在空战决策中的崛起:从理论到实践的跨越
192 0
|
5月前
|
机器学习/深度学习 数据采集 监控
图像分类的发展历史、技术全解以及实战应用
图像分类的发展历史、技术全解以及实战应用
186 0
|
6月前
|
人工智能 算法 测试技术
论文介绍:进化算法优化模型融合策略
【5月更文挑战第3天】《进化算法优化模型融合策略》论文提出使用进化算法自动化创建和优化大型语言模型,通过模型融合提升性能并减少资源消耗。实验显示,这种方法在多种基准测试中取得先进性能,尤其在无特定任务训练情况下仍能超越参数更多模型。同时,该技术成功应用于创建具有文化意识的日语视觉-语言模型。然而,模型融合可能产生逻辑不连贯响应和准确性问题,未来工作将聚焦于图像扩散模型、自动源模型选择及生成自我改进的模型群体。[论文链接: https://arxiv.org/pdf/2403.13187.pdf]
172 1
|
6月前
|
机器学习/深度学习 数据采集 人工智能
语言模型的历史和发展
语言模型的历史和发展
89 2
|
6月前
|
机器学习/深度学习 算法 自动驾驶
深度强化学习在大模型中的应用:现状、问题和发展
强化学习在大模型中的应用具有广泛的潜力和机会。通过使用强化学习算法,如DQN、PPO和TRPO,可以训练具有复杂决策能力的智能体,在自动驾驶、机器人控制和游戏玩家等领域取得显著成果。然而,仍然存在一些挑战,如样本效率、探索与利用平衡以及可解释性问题。未来的研究方向包括提高样本效率、改进探索策略和探索可解释的强化学习算法,以进一步推动强化学习在大模型中的应用。
1710 3
下一篇
无影云桌面