OpenAI Dota2 5v5模式击败人类,AI每天训练量抵人类180年

简介:

今天凌晨,OpenAI通过官方博客宣布了其在Dota对抗上的新进展——由五个神经网络组成的团战AI团队,在5v5中击败了业余人类玩家,并表示,将有望挑战顶级专业团队。

打Dota乍一听可能没什么了不起的,但这可以被视作AlphaGo的延续:构建可以在看似简单的游戏中击败人类的机器。

OpenAI干了这么一件事:组织了5个神经网络构成团队,在5v5游戏中击败了Dota 2的人类业余选手。他们的目标是在8月份击败国际顶级专业团队(仅限一组英雄的条件下)。

OpenAI也给了这个能力x5的AI一个简单易懂的名字——OpenAI Five!

戳这里看5v5比赛视频

5e9cae5356741e22b6befa593ee56661e90c6587

OpenAI是Elon Musk联合创立的非盈利AI研究机构,旨在提高人们对AI技术现在所处的位置的认识,以及促进科技的安全进步。这不是OpenAI首次公开试玩Dota 2,去年,OpenAI在Dota2 1v1比赛中战胜了人类选手Dendi。

OpenAI Five的训练量级非常大,每天都会玩相当于180年时长的游戏,通过自我对决来学习。它使用在256个GPU和128,000个CPU内核上运行的扩展版近端策略优化进行训练,这是OpenAI去年发布的1v1 Dota AI的更大规模版本。对每个英雄使用单独的LSTM并且不使用人类数据,由此学习可识别的策略。

从Deep Blue到AlphaGo,再到现在的Dota2,将人工智能与人类之间进行较量,一直是计算机科学领域的有趣传统。

与围棋和国际象棋等回合制的游戏模式不同,Dota2更需要大量的实时决策以及队友之间的默契合作。还记得AlphaGo与柯洁那场围棋之战么,人工智能在运筹帷幄的时候总有几分钟的思考时间。但是如果你在Dota2中静止深思,那么你可能会被对手gank。OpenAI表示,游戏的平均运行时间为每秒30帧,也就是说,在平均45分钟的游戏中会产生大约80000帧,而AI大约分析了其中的四分之一。

OpenAI技术细节

c21ab5cb251e2a168b81b24fe0fef8d4d58045c0

问题描述

在星际争霸或者Dota这样复杂的视频游戏中超越人类的能力,是人工智能发展的里程碑。相对于之前的AI在国际象棋或围棋上的里程碑式进步,复杂的视频游戏更能够效仿现实世界的混乱和连续性。具有很高的通用性,在游戏之外也有可用之处。

1c62a5304dca0c4c65b0de4fbe26168d0947ec85

Dota 2是一款实时战略游戏,有两支队伍,每队5个玩家,每个玩家控制一个称为“英雄”的角色。玩Dota的AI必须掌握以下几点:

1.长时间。Dota游戏以每秒30帧的速度运行,平均时间为45分钟,每场游戏产生80,000帧。大多数行为(例如命令英雄移动到某个位置)单独产生较小的影响,但回城等一些个别行为可能会在战略上影响游戏。一些策略可能贯穿游戏全程。OpenAI Five每四帧观察一次,产生20,000次移动。国际象棋通常在40次移动之前结束,围棋在150次移动之前结束,几乎每一次移动都是战略性的。

2.不完整信息。单位和建筑物只能看到他们周围的区域。地图的其他部分隐藏在雾中,隐藏了敌人和他们的战略。AI需要根据不完整的数据进行推断,并且需要对对手行为建模。象棋和围棋都是全信息游戏。

c817fac181a602e9388beada3747778964525826

3.动作高度连续。在Dota中,每个英雄可以采取数十个动作,许多动作都是针对另一个单位或地面上的某个位置。OpenAI将每个英雄的空间分割成170,000个可能的行动(不是在每个帧都有效,比如冷却动作);不计算连续部分,每帧平均有大约1000次有效操作。国际象棋中的平均动作数为35,围棋中是250。

4.高维度、连续的观察空间。Dota包含十个英雄,数十个建筑物,几十个NPC单位以及诸如符文、树木等一大堆游戏特征,和大型连续的地图。AI通过Bot API观察游戏,被允许观察2万个数值(人类所被允许观察的所有值)。国际象棋棋盘有大约70个枚举值(一个8x8的棋盘,6种棋子类型和少量历史信息),一个围棋棋盘有约400个枚举值(一个19x19的棋盘,两种棋子类型加上“劫”)。

此外,Dota规则也非常复杂。游戏开发已经持续了十多年,游戏逻辑在数十万行代码中实现。这个逻辑需要几毫秒的时间才能执行,而国际象棋或围棋引擎则需要几纳秒。游戏也每两周更新一次,不断改变环境语义。

方法

OpenAI系统使用大规模版本的Proximal Policy Optimization进行学习。 OpenAI Five和我们早期的1v1机器人都完全从自我对抗中学习。他们从随机参数开始,不使用来自人类玩家的回放视频进行搜索或引导。

3b9ab319397988ffb126419384b8064827ee85b1

强化学习研究者通常认为,对于长时空上的建模,需要全新的算法,比如分层强化学习。但是OpenAI的结果表明,只要采取合理的方式,目前的算法在大规模资源上运行的结果还不错。

AI经过训练可以通过指数衰减因子γ进行加权,从而最大化指数衰减的未来奖励总和。在最新的OpenAI Five训练中,衰减因子γ从0.998(评估未来奖励的半衰期为46秒)增大到0.9997(评估未来奖励的半衰期为五分钟)。对比而言,PPO这篇论文上最长的推理时间是0.5秒,Rainbow论文上最长的推理时间是4.4秒,Observe and Look Further这篇论文使用的半衰期为46秒。

PPO论文:

https://arxiv.org/abs/1707.06347

Rainbow论文:

https://arxiv.org/abs/1710.02298

Observe and Look Further论文:

https://arxiv.org/abs/1805.11593

尽管当前版本的OpenAI Five在最后一击时表现不佳,但是专业Dota评论员Blitz认为OpenAIFive的表现可以比得上一般的人类玩家。

原因是,OpenFive在游戏中对收益的取舍和顶尖的战略决策类似。例如,短期内“补兵”可以获得金钱,而准备团战推塔可能花费更多的时间。如果选择团战,就会丧失小兵收益,然而在胜利以摧毁防御塔为前提的游戏中,放弃团战可能不是明智的选择。所以,AI是朝着长期目标进行优化的。

0237bb73824fd41b23db3df622fca4ba6d624b13

OpenAI仍需要一些限制条件,比如,和AI比赛的人类对手必须遵守某些规则,包括不使用某些物品和策略。

OpenAI将在下个月举办一场Dota 2巡回赛,展示自己在与顶级玩家竞争时的实力。

当然,也没必要过度担心,因为这个AI虽然可以打Dota,但也只能做这一件事。


原文发布时间为:2018-06-26

本文作者:文摘菌

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“大数据文摘”。

相关文章
|
3天前
|
机器学习/深度学习 人工智能 并行计算
"震撼!CLIP模型:OpenAI的跨模态奇迹,让图像与文字共舞,解锁AI理解新纪元!"
【10月更文挑战第14天】CLIP是由OpenAI在2021年推出的一种图像和文本联合表示学习模型,通过对比学习方法预训练,能有效理解图像与文本的关系。该模型由图像编码器和文本编码器组成,分别处理图像和文本数据,通过共享向量空间实现信息融合。CLIP利用大规模图像-文本对数据集进行训练,能够实现zero-shot图像分类、文本-图像检索等多种任务,展现出强大的跨模态理解能力。
16 2
|
1月前
|
机器学习/深度学习 人工智能 UED
OpenAI o1模型:AI通用复杂推理的新篇章
OpenAI发布了其最新的AI模型——o1,这款模型以其独特的复杂推理能力和全新的训练方式,引起了业界的广泛关注。今天,我们就来深入剖析o1模型的特点、背后的原理,以及一些有趣的八卦信息。
293 73
|
2天前
|
人工智能 安全 决策智能
OpenAI推出实验性“Swarm”框架,引发关于AI驱动自动化的争论
OpenAI推出实验性“Swarm”框架,引发关于AI驱动自动化的争论
|
2天前
|
机器学习/深度学习 人工智能 安全
AI真的能与人类数据科学家竞争吗?OpenAI的新基准对其进行了测试
AI真的能与人类数据科学家竞争吗?OpenAI的新基准对其进行了测试
|
12天前
|
人工智能 自然语言处理 安全
【通义】AI视界|Adobe推出文生视频AI模型,迎战OpenAI和Meta
本文精选了过去24小时内的重要科技新闻,包括微软人工智能副总裁跳槽至OpenAI、Adobe推出文本生成视频的AI模型、Meta取消高端头显转而开发超轻量设备、谷歌与核能公司合作为数据中心供电,以及英伟达股价创下新高,市值接近3.4万亿美元。这些动态展示了科技行业的快速发展和激烈竞争。点击链接或扫描二维码获取更多资讯。
|
13天前
|
机器学习/深度学习 人工智能 算法
【通义】AI视界|若未来三年无法盈利,OpenAI或被微软收购!
本文精选了24小时内的重要科技新闻,包括苹果即将发布的全新智能家居战略、OpenAI若未来三年无法盈利或被微软收购的消息、Meta建议网友用AI生成极光照片引发争议,以及黄仁勋对马斯克的高度评价。登录通义官网了解更多功能。
|
25天前
|
人工智能 缓存 搜索推荐
OPENAI DevDay 2024:推动AI技术的新边界
在今年的OPENAI DevDay活动中,尽管形式更为低调,但OpenAI依然带来了四项令人瞩目的技术创新,展示了其在推动人工智能开发者生态方面的持续努力,以及向更高效、用户友好的AI工具转型的决心。我将为大家详细介绍这些新产品
104 10
|
4天前
|
人工智能 自然语言处理 自动驾驶
【通义】AI视界|微软和 OpenAI 将向媒体提供1000万美元资助,推动其使用AI工具
本文概览了近期科技领域的五大热点事件,包括微软与OpenAI联手资助媒体使用AI工具、OpenAI任命前白宫官员为首任首席经济学家、特斯拉FSD系统遭调查、英伟达市值逼近全球第一、以及AMD新一代锐龙9000X3D系列处理器即将上市的消息。更多资讯,请访问通义官网。
|
1月前
|
人工智能 安全 测试技术
忘掉GPT-5!OpenAI推出全新AI模型系列o1,声称性能达到博士级
忘掉GPT-5!OpenAI推出全新AI模型系列o1,声称性能达到博士级
|
1月前
|
机器学习/深度学习 人工智能 供应链
【通义】AI视界|OpenAI的“草莓”模型预计两周内上线!像人类一样思考!
本文介绍了近期科技领域的五大亮点:OpenAI即将推出的新一代AI模型“草莓”,具备高级推理能力;亚马逊测试AI技术加速有声读物生产,通过语音克隆提高效率;Kimi API新增联网搜索功能,拓宽信息来源;顺丰发布物流行业专用大语言模型“丰语”,提升工作效率;钉钉推出“AI班级群”功能,改善家校沟通体验。更多详情,请访问[通义官网]。