通俗认识理解OpenAI Five

简介: 通俗认识理解OpenAI Five

本文将介绍OpenAI用强化学习的方法玩Dota过程中的难点,并列出其中的一些不足。将会用简单的语言来呈现其中的技术。

OpenAI训练强化学习智能体完成许多短期的目标(如攻击对方,并保证自己存活)进而取得整场比赛的胜利。通过大量的短期任务实现整场比赛的胜利。OpenAI Five’s 所需要去完成的事情是用计算机程序实现在Dota游戏中打败职业选手。像AlphaGo在围棋界一扫群雄一样,只不过这次是在Dota游戏中。OpenAI Five与人类玩家不同的是它们直接使用被处理过的APIs(使得游戏尽可能公平)。

那么OpenAI到底解决了什么问题?媒体是否夸大了其中的成绩呢?核心的技术又是什么样的?

 

所需要解决的问题?

简单地说,人工智能或者说是计算机程序是期望在每一种游戏状态下都能做出很好地动作,而人类的思维却并不总是这样,人类玩Dota通常是前期酝酿发育,到最后关头将对方击败,最终目的是将对方击败。计算机是非常难以处理这种需要运筹规划而达到最终胜利的事情,运筹规划的时间越长,越难处理。

 

评估动作而不是指导

计算机最大的优势就是算力,那有没有办法穷举所有的情况呢?其实是没有的,由游戏的画面数据量所限制,穷举也不是AI的本质。

与指导计算机做事情不一样的强化学习算法:通过与环境不断地交互,告诉计算机哪些动作是选到了好的动作,而不是直接告诉计算机哪些动作是好动作。近些年,强化学习算法也取得了不错的成果,像在围棋Alpha Go, Atari游戏,以及最近取得不小进步的机器人控制领域。

 

强化学习的难点?

将强化学习应用在Dota中有哪些难点?

1. Long horizon 

强化学习在经过非常多的复杂序列动作之后才能获得最终的奖励,在Dota游戏中,最终的奖励就是将对方水晶打掉。但是在强化学习最开始训练的过程中,动作是随机的,强化学习智能体很难使用随机的动作取得游戏的胜利,也就很难学习到有效的数据,专业术语叫做奖励稀疏

2.Credit assignments

即使取得了游戏最终的胜利,那到底是哪个动作对这场游戏做出的贡献比较大呢?里面是否存在不正确的动作呢?更新幅度又应该怎么设定呢?

 

OpenAI---奖励重塑

通过自己构建小目标奖励来解决Long horizon 和Credit assignments问题。完成的奖励构建表链接:

https://gist.github.com/dfarhi/66ec9d760ae0c49a5c492c9fae93984a

除了OpenAI采取的奖励重塑解决奖励稀疏问题外,还有好奇心理论,课程学习ICM自我博弈层次强化模仿学习,以及最近比较热的基于模型的预测规划模型等方法解决奖励稀疏问题。

 

OpenAI有力武器---自我博弈

博弈研究的问题可以分为:合作博弈非合作博弈,现代狭义的博弈一般是非合作博弈,OpenAI采用的也是非合作博弈。非合作博弈又可以分为完美信息博弈非完美信息博弈,显然在Dota里面对手的信息并不是完全可见,因此属于非完美信息博弈,这种非完美信息,在马尔可夫决策过程当中又被称之为部分马尔可夫决策过程。

OpenAI通过自我博弈来最大化短期奖励,学会如何击败对方,而保证自己存活下来。通过自我博弈可以将计算机的算力转化为强化学习所需要的训练数据。

相关文章
|
机器学习/深度学习 人工智能 大数据
又输了,OpenAI Five完胜Dota 2半职业战队
OpenAI Five与Dota 2人类职业玩家的对战以AI的胜利告终,Dota 2再一次被攻陷。
1462 0
|
3月前
|
机器学习/深度学习 人工智能 并行计算
"震撼!CLIP模型:OpenAI的跨模态奇迹,让图像与文字共舞,解锁AI理解新纪元!"
【10月更文挑战第14天】CLIP是由OpenAI在2021年推出的一种图像和文本联合表示学习模型,通过对比学习方法预训练,能有效理解图像与文本的关系。该模型由图像编码器和文本编码器组成,分别处理图像和文本数据,通过共享向量空间实现信息融合。CLIP利用大规模图像-文本对数据集进行训练,能够实现zero-shot图像分类、文本-图像检索等多种任务,展现出强大的跨模态理解能力。
294 2
|
1月前
|
Go 开发工具
百炼-千问模型通过openai接口构建assistant 等 go语言
由于阿里百炼平台通义千问大模型没有完善的go语言兼容openapi示例,并且官方答复assistant是不兼容openapi sdk的。 实际使用中发现是能够支持的,所以自己写了一个demo test示例,给大家做一个参考。
|
12天前
|
人工智能 自然语言处理 机器人
OpenAI推出具有图像上传和分析功能的完整o1模型,并首次推出ChatGPT Pro
OpenAI推出具有图像上传和分析功能的完整o1模型,并首次推出ChatGPT Pro
|
1月前
|
人工智能 自然语言处理 计算机视觉
OpenAI发布sCM提升50倍效率,扩散模型重大技术突破!
OpenAI近期发布了Simplified Consistency Models (sCM) 技术,这是在扩散模型基础上的重大改进,实现了50倍效率提升。sCM通过简化和稳定连续时间一致性模型的训练过程,解决了传统模型中的离散化误差和训练不稳定性问题,显著提升了生成模型的性能和效率。在多个数据集上的测试结果表明,sCM不仅超越了现有模型,还在生成模型的实际应用中展现了巨大潜力。论文地址:https://arxiv.org/abs/2410.11081
49 3
|
4月前
|
机器学习/深度学习 人工智能 UED
OpenAI o1模型:AI通用复杂推理的新篇章
OpenAI发布了其最新的AI模型——o1,这款模型以其独特的复杂推理能力和全新的训练方式,引起了业界的广泛关注。今天,我们就来深入剖析o1模型的特点、背后的原理,以及一些有趣的八卦信息。
399 73
|
2月前
|
人工智能 计算机视觉 网络架构
OpenAI攻克扩散模型短板,清华校友路橙、宋飏合作最新论文
扩散模型在生成AI领域取得显著成果,但其训练不稳定性和采样速度慢限制了发展。OpenAI与清华校友合作,提出连续时间一致性模型(CMs),通过TrigFlow等创新解决了这些问题,大幅提升了训练稳定性和计算效率,实现了与最优模型相当的样本质量,同时减少了计算资源消耗。
47 2
|
2月前
|
SQL 机器学习/深度学习 人工智能
今日 AI 开源|共 4 项|DeepSeek 推出新一代 AI 推理模型,实力比肩 OpenAI o1-preview!
本文介绍了四个最新的 AI 开源项目,涵盖多模态生成式 AI、自然语言到 SQL 转化、多模态数学推理和复杂逻辑推理等多个领域,为 AI 应用开发提供了丰富的资源和工具。
185 0
今日 AI 开源|共 4 项|DeepSeek 推出新一代 AI 推理模型,实力比肩 OpenAI o1-preview!
|
3月前
|
人工智能 自然语言处理 安全
【通义】AI视界|Adobe推出文生视频AI模型,迎战OpenAI和Meta
本文精选了过去24小时内的重要科技新闻,包括微软人工智能副总裁跳槽至OpenAI、Adobe推出文本生成视频的AI模型、Meta取消高端头显转而开发超轻量设备、谷歌与核能公司合作为数据中心供电,以及英伟达股价创下新高,市值接近3.4万亿美元。这些动态展示了科技行业的快速发展和激烈竞争。点击链接或扫描二维码获取更多资讯。
|
4月前
|
人工智能 Serverless API
一键服务化:从魔搭开源模型到OpenAI API服务
在多样化大模型的背后,OpenAI得益于在领域的先发优势,其API接口今天也成为了业界的一个事实标准。
一键服务化:从魔搭开源模型到OpenAI API服务