OpenAI发布DQN实现,提出5点做强化学习模型的最佳方法

简介:
本文来自AI新媒体量子位(QbitAI)

今天,马斯克和YC总裁Altman等创办的人工智能非营利组织OpenAI,发布了DQN及其三个变体的TensorFlow实现,以及根据复现过程总结的强化学习模型最佳实现方法。

以下是OpenAI博客文章的主要内容,量子位编译:

我们宣布开源OpenAI Baselines,这是我们内部对发表论文的复现,结果能与论文所公布的相媲美。今天要发布的,包括DQN和它的三个变体。接下来的几个月里,我们将继续发布这些算法。

复现强化学习的结果并非易事:模型的性能有很多噪声、算法的活动件可能包含微小的bug、很多论文也没有写明复现所需的所有技巧。要正确地实现一个强化学习模型,往往需要修复很多不起眼的bug。

我们计划发布一些效果良好的实现,并写明完成这些实现的过程,借此来确保明显的RL进步,不是与现有算法的错误版本或未经微调的版本进行比较得来的。

最佳方法

与随机基准相比

下图中的agent,正在游戏H.E.R.O.中进行随机行动,如果你在训练早期看见这样的行为,很可能相信agent正在学习。所以,你总是应该验证自己的agent是否比随机行动更强。

警惕不严重的bug

我们看了十个流行的强化学习算法复现的样本,其中六个有社区成员发现提交,并获得作者确认的微小bug。

这些bug有的非常轻微,有的是忽略了梯度,有的甚至会虚报得分。

从agent的角度看世界

和大多数深度学习方法一样,我们在训练DQN时,也会将环境图像转换为灰度,以降低计算量。这有时候会带来bug。我们在Seaquest上运行DQN算法时,发现自己的实现表现不佳。当我们检查环境时,发现这是因为处理成灰度的图像上根本看不见鱼,如下图所示。

 游戏Seaquest的三个图像。左图显示原始图像,中间显示已经转换为灰度的版本,鱼不见了,右侧显示经调整让鱼可见的的灰度版本。

当将屏幕图像转换为灰度图像时,我们错误地调整了绿色值的系数,导致鱼的消失。在注意到这个bug之后,我们调整了颜色值,就又可以看见鱼了。

为了将来能调试这样的问题,我们的强化学习工具包gym现在有播放功能,让研究者轻松地看到与AI agent相同的观察结果。

修复bug,然后调整超参数

bug修完,就该开始调整超参数了。我们最终发现,为控制探索率的超参数epsilon设定退火程序对性能有很大的影响。我们的最终实现方法在前100万步中将epsilon降至0.1,然后在接下来的2400万步中降至0.01。如果我们的实现有bug,就可能会为了应对没有诊断出的错误,而提出不同的超参数。

仔细检查你对论文的解读

在Nature上发表的DQN论文中,作者写道:

We also found it helpful to clip the error term from the update […] to be between -1 and 1.

这句话有两种解释:一是裁剪目标,二是在计算梯度时裁剪乘法项。前者似乎更自然,但是一个DQN实现显示,它会导致次优性能。所以说,后者才是正确的,有一个简单的数学解释:胡伯损失。你可以通过检查梯度是否符合预期,来发现这些错误,用TensorFlow的compute_gradients命令就能轻松完成。

文章中提到的大多数错误都是通过多次遍历代码,并思考每行可能出错的情况发现的。每个bug在事后看起来都是显而易见的,但是即使是经验丰富的研究人员,也会低估检查多少遍代码中,才能找到实现中的所有错误。

Deep Q-Learning

我们的实现基于Python 3和TensorFlow。今天发布的实现包括DQN和它的三个变体:

DQN:强化学习算法,将Q-Learning与深层神经网络结合起来,使强化学习适用于复杂,高维度的环境,如视频游戏或机器人。

Double Q Learning:修正了传统DQN算法有时会高估与特定行为相关价值的趋势。

Prioritized Replay:通过在真正的奖励与预期奖励明显不同时学习重播记录,来扩展DQN的经历重播功能,让agent在做出不正确假设时进行调整。

决斗DQN(Dueling DQN):将神经网络分为两个,一个学习提供每个时间步长值的估计,另一个计算每个动作的潜在优势,两个组合为一个action-advantage Q function。

GitHub地址:
https://github.com/openai/baselines

基准

我们提供一个iPython笔记本,显示了我们的DQN实现在Atari游戏上的性能。上图是各种算法的性能比较。

IPython笔记:
https://github.com/openai/baselines-results/blob/master/dqn_results.ipynb

【完】

本文作者:李林
原文发布时间:2017-05-25
相关文章
|
6月前
|
机器学习/深度学习 人工智能 并行计算
"震撼!CLIP模型:OpenAI的跨模态奇迹,让图像与文字共舞,解锁AI理解新纪元!"
【10月更文挑战第14天】CLIP是由OpenAI在2021年推出的一种图像和文本联合表示学习模型,通过对比学习方法预训练,能有效理解图像与文本的关系。该模型由图像编码器和文本编码器组成,分别处理图像和文本数据,通过共享向量空间实现信息融合。CLIP利用大规模图像-文本对数据集进行训练,能够实现zero-shot图像分类、文本-图像检索等多种任务,展现出强大的跨模态理解能力。
631 2
|
5天前
|
机器学习/深度学习 人工智能 编解码
OpenAI 最新多模态图像生成模型 GPT-image-1:一句话生成商业图+智能修图
GPT-image-1是OpenAI推出的新一代多模态图像生成模型,通过API提供专业级图像生成与编辑能力,支持多种分辨率、格式和艺术风格定制。
68 10
OpenAI 最新多模态图像生成模型 GPT-image-1:一句话生成商业图+智能修图
|
4月前
|
Go 开发工具
百炼-千问模型通过openai接口构建assistant 等 go语言
由于阿里百炼平台通义千问大模型没有完善的go语言兼容openapi示例,并且官方答复assistant是不兼容openapi sdk的。 实际使用中发现是能够支持的,所以自己写了一个demo test示例,给大家做一个参考。
|
1月前
|
机器学习/深度学习 人工智能 开发者
GPT-4o-mini-transcribe:OpenAI 推出实时语音秒转文本模型!高性价比每分钟0.003美元
GPT-4o-mini-transcribe 是 OpenAI 推出的语音转文本模型,基于 GPT-4o-mini 架构,采用知识蒸馏技术,适合在资源受限的设备上运行,具有高效、实时和高性价比的特点。
90 2
GPT-4o-mini-transcribe:OpenAI 推出实时语音秒转文本模型!高性价比每分钟0.003美元
|
1月前
|
人工智能 自然语言处理 语音技术
GPT-4o mini TTS:OpenAI 推出轻量级文本转语音模型!情感操控+白菜价冲击配音圈
GPT-4o mini TTS 是 OpenAI 推出的轻量级文本转语音模型,支持多语言、多情感控制,适用于智能客服、教育学习、智能助手等多种场景。
115 2
GPT-4o mini TTS:OpenAI 推出轻量级文本转语音模型!情感操控+白菜价冲击配音圈
|
1月前
|
机器学习/深度学习 人工智能 API
GPT-4o-Transcribe:OpenAI 推出高性能语音转文本模型!错误率暴降90%+方言通杀,Whisper当场退役
GPT-4o-Transcribe 是 OpenAI 推出的高性能语音转文本模型,支持多语言和方言,适用于复杂场景如呼叫中心和会议记录,定价为每分钟 0.006 美元。
103 2
|
2月前
|
机器学习/深度学习 人工智能 算法
o3-mini:OpenAI 发布最新推理模型,强大的STEM推理能力,灵活调整推理强度
OpenAI o3-mini是OpenAI推出的全新推理模型,专为科学、数学和编程等技术领域优化,支持三种推理强度,灵活调整性能。
238 25
o3-mini:OpenAI 发布最新推理模型,强大的STEM推理能力,灵活调整推理强度
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
DeepSeek 开源 R1 系列推理模型,性能对标 OpenAI o1,基于纯强化学习完成自我进化,无需监督微调
DeepSeek R1-Zero 是一款基于纯强化学习的开源推理模型,无需监督微调数据,支持多任务泛化与自我进化,适用于数学推理、代码生成等场景。
609 21
DeepSeek 开源 R1 系列推理模型,性能对标 OpenAI o1,基于纯强化学习完成自我进化,无需监督微调
|
2月前
|
人工智能 搜索推荐 机器人
D1net阅闻|据悉微软致力于在365 Copilot产品中添加非OpenAI模型
D1net阅闻|据悉微软致力于在365 Copilot产品中添加非OpenAI模型
|
3月前
|
机器学习/深度学习 人工智能 安全
GLM-Zero:智谱AI推出与 OpenAI-o1-Preview 旗鼓相当的深度推理模型,开放在线免费使用和API调用
GLM-Zero 是智谱AI推出的深度推理模型,专注于提升数理逻辑、代码编写和复杂问题解决能力,支持多模态输入与完整推理过程输出。
334 24
GLM-Zero:智谱AI推出与 OpenAI-o1-Preview 旗鼓相当的深度推理模型,开放在线免费使用和API调用

热门文章

最新文章

下一篇
oss创建bucket