通俗认识理解OpenAI Five

简介: 通俗认识理解OpenAI Five

本文将介绍OpenAI用强化学习的方法玩Dota过程中的难点,并列出其中的一些不足。将会用简单的语言来呈现其中的技术。

OpenAI训练强化学习智能体完成许多短期的目标(如攻击对方,并保证自己存活)进而取得整场比赛的胜利。通过大量的短期任务实现整场比赛的胜利。OpenAI Five’s 所需要去完成的事情是用计算机程序实现在Dota游戏中打败职业选手。像AlphaGo在围棋界一扫群雄一样,只不过这次是在Dota游戏中。OpenAI Five与人类玩家不同的是它们直接使用被处理过的APIs(使得游戏尽可能公平)。

那么OpenAI到底解决了什么问题?媒体是否夸大了其中的成绩呢?核心的技术又是什么样的?

 

所需要解决的问题?

简单地说,人工智能或者说是计算机程序是期望在每一种游戏状态下都能做出很好地动作,而人类的思维却并不总是这样,人类玩Dota通常是前期酝酿发育,到最后关头将对方击败,最终目的是将对方击败。计算机是非常难以处理这种需要运筹规划而达到最终胜利的事情,运筹规划的时间越长,越难处理。

 

评估动作而不是指导

计算机最大的优势就是算力,那有没有办法穷举所有的情况呢?其实是没有的,由游戏的画面数据量所限制,穷举也不是AI的本质。

与指导计算机做事情不一样的强化学习算法:通过与环境不断地交互,告诉计算机哪些动作是选到了好的动作,而不是直接告诉计算机哪些动作是好动作。近些年,强化学习算法也取得了不错的成果,像在围棋Alpha Go, Atari游戏,以及最近取得不小进步的机器人控制领域。

 

强化学习的难点?

将强化学习应用在Dota中有哪些难点?

1. Long horizon 

强化学习在经过非常多的复杂序列动作之后才能获得最终的奖励,在Dota游戏中,最终的奖励就是将对方水晶打掉。但是在强化学习最开始训练的过程中,动作是随机的,强化学习智能体很难使用随机的动作取得游戏的胜利,也就很难学习到有效的数据,专业术语叫做奖励稀疏

2.Credit assignments

即使取得了游戏最终的胜利,那到底是哪个动作对这场游戏做出的贡献比较大呢?里面是否存在不正确的动作呢?更新幅度又应该怎么设定呢?

 

OpenAI---奖励重塑

通过自己构建小目标奖励来解决Long horizon 和Credit assignments问题。完成的奖励构建表链接:

https://gist.github.com/dfarhi/66ec9d760ae0c49a5c492c9fae93984a

除了OpenAI采取的奖励重塑解决奖励稀疏问题外,还有好奇心理论,课程学习ICM自我博弈层次强化模仿学习,以及最近比较热的基于模型的预测规划模型等方法解决奖励稀疏问题。

 

OpenAI有力武器---自我博弈

博弈研究的问题可以分为:合作博弈非合作博弈,现代狭义的博弈一般是非合作博弈,OpenAI采用的也是非合作博弈。非合作博弈又可以分为完美信息博弈非完美信息博弈,显然在Dota里面对手的信息并不是完全可见,因此属于非完美信息博弈,这种非完美信息,在马尔可夫决策过程当中又被称之为部分马尔可夫决策过程。

OpenAI通过自我博弈来最大化短期奖励,学会如何击败对方,而保证自己存活下来。通过自我博弈可以将计算机的算力转化为强化学习所需要的训练数据。

目录
打赏
0
0
0
0
25
分享
相关文章
又输了,OpenAI Five完胜Dota 2半职业战队
OpenAI Five与Dota 2人类职业玩家的对战以AI的胜利告终,Dota 2再一次被攻陷。
1473 0
"震撼!CLIP模型:OpenAI的跨模态奇迹,让图像与文字共舞,解锁AI理解新纪元!"
【10月更文挑战第14天】CLIP是由OpenAI在2021年推出的一种图像和文本联合表示学习模型,通过对比学习方法预训练,能有效理解图像与文本的关系。该模型由图像编码器和文本编码器组成,分别处理图像和文本数据,通过共享向量空间实现信息融合。CLIP利用大规模图像-文本对数据集进行训练,能够实现zero-shot图像分类、文本-图像检索等多种任务,展现出强大的跨模态理解能力。
586 2
GPT-4o-mini-transcribe:OpenAI 推出实时语音秒转文本模型!高性价比每分钟0.003美元
GPT-4o-mini-transcribe 是 OpenAI 推出的语音转文本模型,基于 GPT-4o-mini 架构,采用知识蒸馏技术,适合在资源受限的设备上运行,具有高效、实时和高性价比的特点。
61 2
GPT-4o-mini-transcribe:OpenAI 推出实时语音秒转文本模型!高性价比每分钟0.003美元
GPT-4o mini TTS:OpenAI 推出轻量级文本转语音模型!情感操控+白菜价冲击配音圈
GPT-4o mini TTS 是 OpenAI 推出的轻量级文本转语音模型,支持多语言、多情感控制,适用于智能客服、教育学习、智能助手等多种场景。
81 2
GPT-4o mini TTS:OpenAI 推出轻量级文本转语音模型!情感操控+白菜价冲击配音圈
百炼-千问模型通过openai接口构建assistant 等 go语言
由于阿里百炼平台通义千问大模型没有完善的go语言兼容openapi示例,并且官方答复assistant是不兼容openapi sdk的。 实际使用中发现是能够支持的,所以自己写了一个demo test示例,给大家做一个参考。
GPT-4o-Transcribe:OpenAI 推出高性能语音转文本模型!错误率暴降90%+方言通杀,Whisper当场退役
GPT-4o-Transcribe 是 OpenAI 推出的高性能语音转文本模型,支持多语言和方言,适用于复杂场景如呼叫中心和会议记录,定价为每分钟 0.006 美元。
69 2
o3-mini:OpenAI 发布最新推理模型,强大的STEM推理能力,灵活调整推理强度
OpenAI o3-mini是OpenAI推出的全新推理模型,专为科学、数学和编程等技术领域优化,支持三种推理强度,灵活调整性能。
215 25
o3-mini:OpenAI 发布最新推理模型,强大的STEM推理能力,灵活调整推理强度
DeepSeek 开源 R1 系列推理模型,性能对标 OpenAI o1,基于纯强化学习完成自我进化,无需监督微调
DeepSeek R1-Zero 是一款基于纯强化学习的开源推理模型,无需监督微调数据,支持多任务泛化与自我进化,适用于数学推理、代码生成等场景。
587 21
DeepSeek 开源 R1 系列推理模型,性能对标 OpenAI o1,基于纯强化学习完成自我进化,无需监督微调
D1net阅闻|据悉微软致力于在365 Copilot产品中添加非OpenAI模型
D1net阅闻|据悉微软致力于在365 Copilot产品中添加非OpenAI模型
GLM-Zero:智谱AI推出与 OpenAI-o1-Preview 旗鼓相当的深度推理模型,开放在线免费使用和API调用
GLM-Zero 是智谱AI推出的深度推理模型,专注于提升数理逻辑、代码编写和复杂问题解决能力,支持多模态输入与完整推理过程输出。
292 24
GLM-Zero:智谱AI推出与 OpenAI-o1-Preview 旗鼓相当的深度推理模型,开放在线免费使用和API调用

热门文章

最新文章