DeepMind和暴雪联手发布开发工具和replay数据集,让更多AI研究者玩上星际2

简介:

雷锋网 AI 科技评论按:去年年底的时候,大家都知道了 DeepMind 的人工智能要开始玩星际了,今天DeepMind 也正式发布了论文和相关博文介绍了自己在这方面的成果,他们与暴雪联手发布了一系列工具,方便更多的研究者参与到(让人工智能)玩星际2中来。雷锋网 AI 科技评论编译如下。

DeepMind 一直抱有这样的一个科学目标:构建能学会解决复杂问题的系统,以此来不断推进人工智能的发展前沿。为此,DeepMind 开发了各种各样的智能体,然后在自己搭建的 DeepMind Lab 平台上用各种各样的环境测试它们。

有一类重要的测试环境是游戏。它们虽然不是专门为人工智能研究设计的,但毕竟人类可以玩得很好,它们也就是评估人工智能表现的一种重要方法。在围棋和 Atari 游戏都玩得比较熟练了以后,DeepMind 这次介绍了自己在新游戏中的研究进展:星际2。

  • DeepMind和暴雪一起发布了SC2LE,这是一个帮助研究如何让人工智能玩学会星际2这个RTS游戏的工具包。此次发布的 SC2LE 中包括:

  • 一个机器学习API,由暴雪开发,它能够帮研究者和开发者接入游戏。其中还首次包括了运行在Linux上的工具。

  • 一个匿名的游戏replay数据集,目前只有6万5千场,在接下来几周内会增加到50万场左右。

  • DeepMind的工具包PySC2的开源版本,研究者可以借助它轻松让智能体使用暴雪的特征层API。

  • 一篇DeepMind和暴雪联合完成的论文,它大致介绍了环境的组成、在测试小游戏中取得的初期基准成果、如何从replay监督学习,以及与游戏内置的 AI 进行1v1的天梯对抗。

DeepMind和暴雪联手发布开发工具和replay数据集,让更多AI研究者玩上星际2

星际和星际2算得上是所有游戏里最大、最成功的那一批,玩家们在这些游戏里厮杀也有超过20年了。不仅星际2,第一代星际也已经被人工智能和机器学习研究者用作测试环境,每年的 AIIDE 上都会举办人工智能星际大赛。星际之所以如此长寿,有相当一部分原因是由于它丰富、多层面的游戏过程,这样它也就成为了理想的人工智能研究环境。

比如,星际的最终目标是要击败对手,但玩家还是需要执行一系列收集资源、造建筑这样的分目标并在它们之间找到平衡。而且,一场游戏所花的时间短则几分钟,长则一小时,那么在游戏早期采取的行动就可能在很长一段时间内都看不到对应的收获。最后,地图上只有一部分区域是可见的,智能体就需要综合使用记忆和规划能力,才能取得胜利。

除此之外,这个游戏还有一些别的方面也对研究者有吸引力,比如每天都有众多的玩家在线上游戏中对抗。这就保证了会有海量的replay数据供智能体学习,而智能体将来也会有许许多多极具天赋的对手可以切磋。

不过,即便只是星际的操作都是一项不小的挑战,每时每刻可以选择的基础操作超过300种。这就跟 Atari 游戏形成了明显的区别,它里面可选的动作不超过10种(比如上下左右)。在此基础上,星际中的操作也是有层次的、可以修改以及增强的,其中的许多操作都需要在屏幕上点击。就算只是一个84x84那样的小屏幕,所有可能的操作加起来也会高达上亿种。

DeepMind和暴雪联手发布开发工具和replay数据集,让更多AI研究者玩上星际2

对人类和智能体来说,根据选择的单位不同,可以进行的操作也不同

在这次的工具发布以后,研究者就可以用暴雪自己的工具解决一些上面提到的麻烦,这样就可以更方便地构建自己的任务和模型。

DeepMind 的 PySC2 工具可以把环境分类打包,从而为强化学习智能体提供了一个灵活易用的界面,帮助它们玩游戏。在此次发布的初始版本中,PySC2 把游戏中不同的元素划分成了不同的“特征层”,比如不同类型的单位、生命值、地图的可见性等等会相互分开,同时还能保持游戏核心的视觉和空间元素。

DeepMind和暴雪联手发布开发工具和replay数据集,让更多AI研究者玩上星际2

用不同的层显示游戏中不同类型的内容

SC2LE工具包里还包含一系列的测试小游戏,它们把整个游戏分为了多个不同的可控片段,这样就可以测试智能体在特定任务上的表现,比如切换视角、采矿或者选择单位等等。研究者可以在这样的小游戏中测试他们的技术,同时也可以帮助建立更多的测试小游戏,便于更多的研究者继续竞争和评估。

DeepMind和暴雪联手发布开发工具和replay数据集,让更多AI研究者玩上星际2

简单的强化学习小游戏可以让研究者测试智能体在特定任务中的表现

以DeepMind目前的研究进展,他们的智能体已经可以在这样的特定任务小游戏中发挥不错的表现,但是到了整场游戏,即便是 A3C 这样比较强的基准 AI 也根本打不赢“简单”的游戏内置 AI。比如,下面动图里左边的就是一个训练早期的智能体,它没法让矿工采矿,这件事对人类来说不费吹灰之力。经过训练之后,智能体表现出了有意义的动作,但是如果要让它们有竞争性的话,还需要在深度强化学习和相关领域有更大突破。

DeepMind和暴雪联手发布开发工具和replay数据集,让更多AI研究者玩上星际2

DeepMind的研究人员发现了一种让智能体学到更强策略的技巧,就是模仿学习。这样的学习方法在暴雪的帮助下也很快就会变得容易,他们已经答应会继续发布几十万局星际2天梯上的匿名游戏replay。这不仅可以让研究者用监督学习的方法训练智能体,而且也为序列预测、长期记忆等等其它的研究领域提供了可能。

DeepMind希望这些新发布的工具可以让人工智能大家庭在星际游戏上已有的研究成果再前进一步,鼓励更多的人从事深度强化学习研究,也让研究者可以更轻松地跟上这个领域的前沿发展。DeepMind也期待人工智能大家庭可以有一些精彩的发现。

论文地址:https://deepmind.com/documents/110/sc2le.pdf

PySC2 github地址:https://github.com/deepmind/pysc2

暴雪的星际2 API地址(包含了Linux版的信息、游戏replay和其它相关内容):https://github.com/Blizzard/s2client-proto 

via DeepMind Research Blog,雷锋网(公众号:雷锋网) AI 科技评论编译

相关文章:

继围棋之后“阿尔法狗”又有新战场,谷歌打算让它去玩星际争霸

阿里推出多智能体双向协调网络BicNet,玩《星际争霸》堪比人类

本文作者:杨晓凡

本文转自雷锋网禁止二次转载,原文链接

相关文章
|
8月前
|
人工智能 监控 算法
人群计数、行人检测数据集(9000张图片已划分、已标注) | AI训练适用于目标检测任务
本数据集包含9000张已标注、已划分的行人图像,适用于人群计数与目标检测任务。支持YOLO等主流框架,涵盖街道、商场等多种场景,标注精准,结构清晰,助力AI开发者快速训练高精度模型,应用于智慧安防、人流统计等场景。
人群计数、行人检测数据集(9000张图片已划分、已标注) | AI训练适用于目标检测任务
|
数据采集 人工智能 自然语言处理
AI终于能听懂宝宝说话了!ChildMandarin:智源研究院开源的低幼儿童中文语音数据集,覆盖22省方言
ChildMandarin是由智源研究院与南开大学联合推出的开源语音数据集,包含41.25小时3-5岁儿童普通话语音数据,覆盖中国22个省级行政区,为儿童语音识别和语言发展研究提供高质量数据支持。
1525 20
AI终于能听懂宝宝说话了!ChildMandarin:智源研究院开源的低幼儿童中文语音数据集,覆盖22省方言
|
8月前
|
机器学习/深度学习 人工智能 算法
用于实验室智能识别的目标检测数据集(2500张图片已划分、已标注) | AI训练适用于目标检测任务
本数据集包含2500张已标注实验室设备图片,涵盖空调、灭火器、显示器等10类常见设备,适用于YOLO等目标检测模型训练。数据多样、标注规范,支持智能巡检、设备管理与科研教学,助力AI赋能智慧实验室建设。
用于实验室智能识别的目标检测数据集(2500张图片已划分、已标注) | AI训练适用于目标检测任务
|
8月前
|
机器学习/深度学习 人工智能 监控
面向智慧牧场的牛行为识别数据集(5000张图片已划分、已标注) | AI训练适用于目标检测任务
本数据集包含5000张已标注牛行为图片,涵盖卧、站立、行走三类,适用于YOLO等目标检测模型训练。数据划分清晰,标注规范,场景多样,助力智慧牧场、健康监测与AI科研。
面向智慧牧场的牛行为识别数据集(5000张图片已划分、已标注) | AI训练适用于目标检测任务
|
机器学习/深度学习 人工智能 文字识别
UGPhysics:本科物理推理评估基准发布,助力AI+Physics交叉研究
近年来,人工智能快速发展,大语言模型(LLM)在数学、代码等领域展现出强大的推理和生成能力,正在被广泛应用于各种场景。
465 0
|
8月前
|
存储 人工智能 安全
拔俗AI临床大数据科研分析平台:让医学研究更智能、更高效
阿里云原生AI临床大数据科研平台,打通异构医疗数据壁垒,实现智能治理、可视化分析与多中心安全协作,助力医院科研提速增效,推动精准医疗发展。
1522 1
|
10月前
|
机器学习/深度学习 人工智能 自动驾驶
交通标识与信号灯数据集(1000张图片已划分、已标注)| AI训练适用于目标检测任务
在智能驾驶与智慧交通的研究中,交通标识与信号灯识别 是最基础且最关键的任务之一。为了方便研究人员和开发者快速上手目标检测模型训练,本数据集提供了 1000张交通场景图片,并且已经按照目标检测任务的需求完成了 数据标注与划分。该数据集可直接应用于 YOLO、Faster R-CNN、SSD 等深度学习模型的训练与测试。
交通标识与信号灯数据集(1000张图片已划分、已标注)| AI训练适用于目标检测任务
|
人工智能 大数据 安全
拔俗AI临床大数据科研分析平台:用智能技术加速医学研究新突破
AI临床大数据科研平台基于云原生架构,融合医疗NLP、联邦学习与智能分析技术,破解非结构化数据处理难、多源数据融合难、统计周期长等痛点,实现数据治理、智能分析与安全协作全链路升级,赋能医学科研高效、安全、智能化发展。
384 0
|
11月前
|
机器学习/深度学习 人工智能 自动驾驶
AI Agent多模态融合策略研究与实证应用
本文从多模态信息融合的理论基础出发,构建了一个结合图像与文本的AI Agent模型,并通过PyTorch代码实现了完整的图文问答流程。未来,多模态智能体将在医疗、自动驾驶、虚拟助手等领域展现巨大潜力。模型优化的核心是提升不同模态的协同理解与推理能力,从而打造真正“理解世界”的AI Agent。
AI Agent多模态融合策略研究与实证应用
|
11月前
|
机器学习/深度学习 人工智能 算法
深度强化学习在异构环境中AI Agent行为泛化能力研究
随着人工智能技术的迅猛发展,AI Agent 在游戏、智能制造、自动驾驶等场景中已逐步展现出强大的自适应能力。特别是深度强化学习(Deep Reinforcement Learning, DRL)的引入,使得智能体能够通过与环境的交互,自动学习最优的行为策略。本文将系统性地探讨基于深度强化学习的AI Agent行为决策机制,并结合代码实战加以说明。
深度强化学习在异构环境中AI Agent行为泛化能力研究