上周日,互动数字娱乐AI大会(AIIDE)2017中的星际争霸AI竞赛落下帷幕。这一竞赛是即时战略(RTS)游戏AI比赛中最重要的比赛之一,暴雪、DeepMind和Facebook人工智能研究院等机构也有赞助。两周的车轮战中共进行了41580场1v1比赛,28个参赛AI中每两个之间也平均比赛了110场。
DeepMind 和 Facebook 近两年在星际争霸AI研发上动作频频,Facebook 也拿出名为 CherryPi 的机器学习AI亲自参加了这场比赛,但只以69%的胜率拿到第6名。面对这样的战绩,多家外媒不免对 Facebook 发出了“雷声大雨点小”的嘲笑,不过机器学习在RTS游戏中的探索毕竟只是刚刚开始,大可不必心急。
比赛冠军是一位独立参加的星际争霸爱好者,来自澳大利亚的程序员Chris Coxe,依靠手工编码、基于预定义规则和情境判断的AI获得了最高胜率83%,从而获得冠军;不仅如此,排名前三的AI都是由独立参赛的星际争霸爱好者开发的,大多数排名靠前的个人参赛AI也都是和Chris Coxe类似的手工编码、基于规则的AI。
同时雷锋网 AI 科技评论发现,也有多个来自中国的AI参加了这次比赛,除了个人名义参加的Sijia Xu和他的AI“Overkill”之外,中科院自动化研究所更是有三支队伍参赛,复杂系统管理与控制国家重点实验室有两支,一支是在读博士生朱圆恒、赵冬斌研究员的团队和他们的AI“Juno”,另一支是唐振涛团队,他们的AI名为“killall”;还有一支团队来自智能感知与计算研究中心,他们的AI“cpac”首次参赛就以71%的胜率拿下了第4名。
智能感知与计算研究中心“cpac”团队共有13名成员,开发这个 AI 用了几个月的时间,其中有新的游戏策略,也融合了部分机器学习功能。根据他们介绍,他们训练了一个多层感知网络用于在生产队列为空的时候造兵。
在这个 AI 的开发过程中,他们还一并发布了一个新的数据集 MSC(Macro-management in StarCraft),论文署名为在读博士生武慧凯、副研究员张俊格、研究员黄凯奇。
MSC 基于暴雪今年开放的 SC2LE 平台,作者们在论文中表示这个平台的好处是有目前为止最大的replay数据集、这些replay的质量更高格式更标准,而且 SC2LE 还有官方的支持和积极的更新。
MSC 数据集的目标是提供预定义的、根据特征分割过的replay,用于游戏中宏观操作(比赛策略&“大局观”,Macro-management)的训练和评估。SC2LE中现有的replay虽然数量很多,但是没办法直接用来学习和测试;MSC则把replay过滤、解析、采样、提取操作特征,并形成训练、验证、测试三个数据集,就可以供研究人员方便地训练模型,数据集自身也就成为了公开、标准的模型对比手段。
MSC基于 CS2LE 的80万场replay中已经公开的约6万4千场,按照上图中的流程进行处理,形成三个数据集。在预处理中剔除了过短、APM(每分钟操作数)过低以及选手的MMR(比赛积分)过低的比赛。
除了数据集之外,论文中也一并提出了一个基准模型,展示了在全局局面评估和单位建造预测任务中的表现;其它游戏策略、序列建模、不确定性建模、不平衡数据集学习、强化学习、规划和树搜索等RTS游戏中常出现的子任务也可以从这个数据集中受益。