中科院自动化所拿下星际争霸AI竞赛第四名,顺便发布了一个训练AI“大局观”的数据集

简介: 上周日,互动数字娱乐AI大会(AIIDE)2017中的星际争霸AI竞赛落下帷幕。这一竞赛是即时战略(RTS)游戏AI比赛中最重要的比赛之一,暴雪、DeepMind和Facebook人工智能研究院等机构也有赞助。

上周日,互动数字娱乐AI大会(AIIDE)2017中的星际争霸AI竞赛落下帷幕。这一竞赛是即时战略(RTS)游戏AI比赛中最重要的比赛之一,暴雪、DeepMind和Facebook人工智能研究院等机构也有赞助。两周的车轮战中共进行了41580场1v1比赛,28个参赛AI中每两个之间也平均比赛了110场。

DeepMind 和 Facebook 近两年在星际争霸AI研发上动作频频,Facebook 也拿出名为 CherryPi 的机器学习AI亲自参加了这场比赛,但只以69%的胜率拿到第6名。面对这样的战绩,多家外媒不免对 Facebook 发出了“雷声大雨点小”的嘲笑,不过机器学习在RTS游戏中的探索毕竟只是刚刚开始,大可不必心急。

比赛冠军是一位独立参加的星际争霸爱好者,来自澳大利亚的程序员Chris Coxe,依靠手工编码、基于预定义规则和情境判断的AI获得了最高胜率83%,从而获得冠军;不仅如此,排名前三的AI都是由独立参赛的星际争霸爱好者开发的,大多数排名靠前的个人参赛AI也都是和Chris Coxe类似的手工编码、基于规则的AI。

同时雷锋网 AI 科技评论发现,也有多个来自中国的AI参加了这次比赛,除了个人名义参加的Sijia Xu和他的AI“Overkill”之外,中科院自动化研究所更是有三支队伍参赛,复杂系统管理与控制国家重点实验室有两支,一支是在读博士生朱圆恒、赵冬斌研究员的团队和他们的AI“Juno”,另一支是唐振涛团队,他们的AI名为“killall”;还有一支团队来自智能感知与计算研究中心,他们的AI“cpac”首次参赛就以71%的胜率拿下了第4名。

智能感知与计算研究中心“cpac”团队共有13名成员,开发这个 AI 用了几个月的时间,其中有新的游戏策略,也融合了部分机器学习功能。根据他们介绍,他们训练了一个多层感知网络用于在生产队列为空的时候造兵。

在这个 AI 的开发过程中,他们还一并发布了一个新的数据集 MSC(Macro-management in StarCraft),论文署名为在读博士生武慧凯、副研究员张俊格、研究员黄凯奇。

中科院自动化所拿下星际争霸AI竞赛第四名,顺便发布了一个训练AI“大局观”的数据集

MSC 基于暴雪今年开放的 SC2LE 平台,作者们在论文中表示这个平台的好处是有目前为止最大的replay数据集、这些replay的质量更高格式更标准,而且 SC2LE 还有官方的支持和积极的更新。

MSC 数据集的目标是提供预定义的、根据特征分割过的replay,用于游戏中宏观操作(比赛策略&“大局观”,Macro-management)的训练和评估。SC2LE中现有的replay虽然数量很多,但是没办法直接用来学习和测试;MSC则把replay过滤、解析、采样、提取操作特征,并形成训练、验证、测试三个数据集,就可以供研究人员方便地训练模型,数据集自身也就成为了公开、标准的模型对比手段。

中科院自动化所拿下星际争霸AI竞赛第四名,顺便发布了一个训练AI“大局观”的数据集

MSC基于 CS2LE 的80万场replay中已经公开的约6万4千场,按照上图中的流程进行处理,形成三个数据集。在预处理中剔除了过短、APM(每分钟操作数)过低以及选手的MMR(比赛积分)过低的比赛。

除了数据集之外,论文中也一并提出了一个基准模型,展示了在全局局面评估和单位建造预测任务中的表现;其它游戏策略、序列建模、不确定性建模、不平衡数据集学习、强化学习、规划和树搜索等RTS游戏中常出现的子任务也可以从这个数据集中受益。



本文作者:杨晓凡
本文转自雷锋网禁止二次转载, 原文链接
目录
相关文章
|
4天前
|
存储 人工智能 自然语言处理
ChatMCP:基于 MCP 协议开发的 AI 聊天客户端,支持多语言和自动化安装 MCP 服务器
ChatMCP 是一款基于模型上下文协议(MCP)的 AI 聊天客户端,支持多语言和自动化安装。它能够与多种大型语言模型(LLM)如 OpenAI、Claude 和 OLLama 等进行交互,具备自动化安装 MCP 服务器、SSE 传输支持、自动选择服务器、聊天记录管理等功能。
54 14
ChatMCP:基于 MCP 协议开发的 AI 聊天客户端,支持多语言和自动化安装 MCP 服务器
|
10天前
|
机器学习/深度学习 存储 人工智能
【AI系统】感知量化训练 QAT
本文介绍感知量化训练(QAT)流程,旨在减少神经网络从FP32量化至INT8时的精度损失。通过在模型中插入伪量化节点(FakeQuant)模拟量化误差,并在训练中最小化这些误差,使模型适应量化环境。文章还探讨了伪量化节点的作用、正向与反向传播处理、TensorRT中的QAT模型高效推理,以及QAT与PTQ的对比,提供了实践技巧,如从良好校准的PTQ模型开始、采用余弦退火学习率计划等。
48 2
【AI系统】感知量化训练 QAT
|
10天前
|
机器学习/深度学习 存储 人工智能
【AI系统】训练后量化与部署
本文详细介绍了训练后量化技术,涵盖动态和静态量化方法,旨在将模型权重和激活从浮点数转换为整数,以优化模型大小和推理速度。通过KL散度等校准方法和量化粒度控制,文章探讨了如何平衡模型精度与性能,同时提供了端侧量化推理部署的具体实现步骤和技术技巧。
33 1
【AI系统】训练后量化与部署
|
14天前
|
人工智能 自然语言处理 JavaScript
Agent-E:基于 AutoGen 代理框架构建的 AI 浏览器自动化系统
Agent-E 是一个基于 AutoGen 代理框架构建的智能自动化系统,专注于浏览器内的自动化操作。它能够执行多种复杂任务,如填写表单、搜索和排序电商产品、定位网页内容等,从而提高在线效率,减少重复劳动。本文将详细介绍 Agent-E 的功能、技术原理以及如何运行该系统。
59 5
Agent-E:基于 AutoGen 代理框架构建的 AI 浏览器自动化系统
|
9天前
|
人工智能 PyTorch 测试技术
【AI系统】并行训练基本介绍
分布式训练通过将任务分配至多个节点,显著提升模型训练效率与精度。本文聚焦PyTorch2.0中的分布式训练技术,涵盖数据并行、模型并行及混合并行等策略,以及DDP、RPC等核心组件的应用,旨在帮助开发者针对不同场景选择最合适的训练方式,实现高效的大模型训练。
43 8
|
1月前
|
存储 人工智能 安全
从梦想到现实:十年见证AI自动化漏洞修复的演变
2014年,我怀揣着利用科技创造更安全数字世界的梦想,提出了通过云平台自动化修复第三方网站漏洞的构想。十年后的2024年,随着AI技术的崛起,这一梦想已成为现实。如今,用户只需简单注册并安装插件,AI系统就能自动检测、修复漏洞,整个过程高效、智能。AI不仅提升了系统的可靠性和效率,还具备自我学习能力,使安全防护更加主动。未来,我将继续用AI探索更多可能,推动技术的发展,不断完善这个充满智慧与安全的数字世界。
58 3
从梦想到现实:十年见证AI自动化漏洞修复的演变
|
20天前
|
机器学习/深度学习 人工智能 自然语言处理
智能化软件测试:AI驱动的自动化测试策略与实践####
本文深入探讨了人工智能(AI)在软件测试领域的创新应用,通过分析AI技术如何优化测试流程、提升测试效率及质量,阐述了智能化软件测试的核心价值。文章首先概述了传统软件测试面临的挑战,随后详细介绍了AI驱动的自动化测试工具与框架,包括自然语言处理(NLP)、机器学习(ML)算法在缺陷预测、测试用例生成及自动化回归测试中的应用实例。最后,文章展望了智能化软件测试的未来发展趋势,强调了持续学习与适应能力对于保持测试策略有效性的重要性。 ####
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
自动化测试的新篇章:利用AI提升软件质量
【10月更文挑战第35天】在软件开发的海洋中,自动化测试犹如一艘救生艇,它帮助团队确保产品质量,同时减少人为错误。本文将探索如何通过集成人工智能(AI)技术,使自动化测试更加智能化,从而提升软件测试的效率和准确性。我们将从AI在测试用例生成、测试执行和结果分析中的应用出发,深入讨论AI如何重塑软件测试领域,并配以实际代码示例来说明这些概念。
56 3
|
1月前
|
人工智能 自然语言处理 IDE
通义灵码让AI帮你实现自动化编程
通义灵码是由阿里云与通义实验室联合开发的智能编码辅助工具,具备行级/函数级实时续写、自然语言生成代码、单元测试生成、代码优化、注释生成、代码解释、研发智能问答及异常报错排查等功能。该工具支持200多种编程语言,兼容主流IDE,如Visual Studio Code、Visual Studio和JetBrains IDEs。通义灵码在Gartner发布的AI代码助手魔力象限中表现出色,成为唯一进入挑战者象限的中国科技公司。目前,通义灵码下载量已超过470万,每日辅助生成代码超3000万次,被开发者广泛采用。
|
19天前
|
机器学习/深度学习 存储 人工智能
【AI系统】谷歌 TPU v2 训练芯片
2017年,谷歌推出TPU v2,专为神经网络训练设计,标志着从推理转向训练的重大转变。TPU v2引入多项创新,包括Vector Memory、Vector Unit、MXU及HBM内存,以应对训练中数据并行、计算复杂度高等挑战。其高效互联技术构建了TPU v2超级计算机,显著提升大规模模型训练的效率和性能。
36 0