腾讯AI足球队夺冠Kaggle竞赛,绝悟AI强化学习框架通用性凸显

简介: 【新智元导读】今日,腾讯宣布其人工智能球队摘得首届谷歌足球Kaggle竞赛冠军。该冠军球队来自腾讯AI Lab研发的绝悟WeKick版本,凭借1785.8的总分在与全球顶级技术团队的竞技中以显著优势胜出。

今年11月底,腾讯AI Lab与王者荣耀联合研发的策略协作型AI绝悟升级为完全体,首次让AI精通了所有英雄的所有技能。


此次绝悟WeKick版本的整体设计正是基于绝悟完全体迁移得到,并针对足球任务进行了一些针对性的调整,展现了绝悟AI背后深度强化学习方法的通用能力。



0.jpg


Kaggle 竞赛 google-football 排行榜前十名,

来自 https://www.kaggle.com/c/google-football/leaderboard

 


Kaggle创立于2010年,是全球最大的数据科学社区和数据科学竞赛平台。此次足球AI比赛由Google Research与英超曼城俱乐部在Kaggle平台上联合举办。

 

一直以来,足球运动团队策略以其复杂性、多样性和高难度,成为长期困扰世界顶尖AI研究团队的难题,更加稀疏的游戏激励也使得其成为比MOBA游戏更难攻克的目标。今年Kaggle首次针对足球AI领域发布赛题,为深度强化学习多智能体技术竞技和基准评测提供了一个全新舞台。

 

比赛使用Google Research Football强化学习环境,基于开源足球游戏Gameplay Football开发,采取11vs11的赛制,参赛团队需要控制其中1个智能体与10个内置智能体组成球队,兼具挑战性和趣味性。一经推出,便吸引了来自世界顶级院校和研究机构的1100多支科研强队参与挑战。



1.jpg


“11 个强化学习智能体的合作与对抗”

 


Google Football(on Kaggle)以流行的足球游戏为模型,就像是一款由AI操作的FIFA游戏,智能体控制足球队中的一个或所有足球运动员,学习如何在他们之间传球,并设法克服对手的防守以进球。其竞赛规则与普通足球比赛类似,比如目标都是将球踢入对方球门以及越位、黄牌和红牌规则。

 

不同于常见足球视频游戏的统一调控式NPC球队,在本次Kaggle竞赛中,每个球员都各由一个单独的智能体控制,而参赛的AI模型则根据比赛情况控制其中一个智能体,与其他10个内置智能体配合。这要求每个球员不仅需要观察对手的行为,还需要留意己方队员的情况,背后需要非常复杂的团队协作和竞争策略作为支撑。


2.jpg

image.gif

WeKick(黄色球衣) vs SaltyFish(本次竞赛第二名)近期的一局比赛实录(射门)



举个例子,当对方球员控球时,己方智能体不仅要根据球场上双方球员的分布位置预测控球球员的下一步动作,还需要

与己方其他球员协同如何合规地夺取足球的控制权。且由于球场动态瞬息万变,因此高速的实时决策能力也是必需的。

 

此外,从零开始完全采用强化学习方法来训练完整的足球AI实际上也相当困难。与MOBA游戏中不断有经济、血量、经验等实时学习信号不同,足球的游戏激励非常稀疏,基本只能依靠进球,而稀疏激励一直是目前强化学习一大难题。


绝悟AI如何走上冠军之路

 


得益于深度强化学习在游戏领域突飞猛进的发展,从Atari游戏到围棋再到多种不同的视频游戏,AI智能体在不断的迭代演化中变得越来越强大,而足球运动团队策略的难关也得以被攻克。

 

绝悟WeKick版本首先采用了强化学习和自博弈(Self-Play)来从零开始训练模型,并部署了一种异步的分布式强化学习框架。虽然该异步架构牺牲了训练阶段的部分实时性能,但灵活性却得到显著提升,而且还支持在训练过程中按需调整计算资源,使其能适应 11 智能体足球游戏训练环境。

 

由于MOBA游戏和足球游戏任务目标的差异,绝悟WeKick版本采用了生成对抗模拟学习(GAIL)与人工设计的奖励结合,在特征与奖励设计上进行了扩展和创新。该方案利用了生成对抗训练机制来拟合专家行为的状态和动作分布,使得绝悟WeKick版本可以从其它球队学习。然后,再将 GAIL 训练的模型作为固定对手进行进一步自博弈训练,进一步提升策略的稳健性。


3.jpgimage.gif


GAIL 的优势(WeKick 的奖励设计综合了 Reward Shaping 和 GAIL 两种方案)

 

但这种通过自博弈强化学习得到的模型有一个天然的缺点:很容易收敛到单一风格。在实际比赛的时候单一风格的模型很容易发生由于没见过某种打法而表现失常,最终导致成绩不佳的情况。因此,为了提升策略的多样性和稳健性,绝悟还采用了针对多智能体学习任务的League(若干策略池)多风格强化学习训练方案。


因此,为了提升策略的多样性和稳健性,绝悟还采用了针对多智能体学习任务的League(若干策略池)多风格强化学习训练方案。

4.jpg



这种League多风格强化学习训练方案的主要流程可简单总结为先专精后综合。

 

首先训练一个具备一定程度竞技能力的基础模型,比如运球过人、传球配合、射门得分;

接着基于基础模型训练出多个风格化模型,每个模型专注一种风格打法,在风格化模型训练的过程中会定期加入主模型作为对手,避免过度坚持风格,丢失基本能力;


最后基于多个基础模型训练一个主模型,主模型除了以自己的历史模型为对手以外,还会定期加入所有风格化对手的最新模型作为对手,确保主模型能够适应风格完全不同的对手。

 

内部能力评分系统显示,加入对手池训练以后的主模型,可以在基础模型的基础上提高200分,比最强的风格化打法高80分。

 

5.jpg


最终,基于绝悟完全体的架构迁移,定制化的框架改进,加上关键性的生成对抗模拟学习(GAIL)方案和 League (若干策略池)多风格强化学习训练方案,使得绝悟实现了优于其它竞争AI球队的优势,最终成就了冠军之路。

 

6.jpg


WeKick(黄色球衣) vs SaltyFish(本次竞赛第二名)近期的一局比赛实录(传球)

 


此次绝悟WeKick版本夺冠,意味着在绝悟继完全体升级后,其背后的深度强化学习方案又训练出了适应复杂足球竞技场景的AI模型,展现了腾讯AI Lab在前沿AI技术上的研发实力,也验证了腾讯绝悟AI底层架构与方法的通用性。

 

据了解,绝悟团队的研究方向正在从足球比赛中的单个智能体控制向11个智能体同时控制、协同作战深入,当完整的足球独立智能体个数达到11个,强化学习的难度将随着智能体个数的增长呈现指数级的爆炸增长,同时足球智能体之间差距不大,如何自动形成角色分工以及在不同角色间的激励分配也一直是多智能体强化的难题。


在此前5v5形式(多智能体)的谷歌天梯比赛Google Research Football League中,腾讯绝悟团队也摘得冠军,展现了绝悟AI的巨大潜力。

 

从围棋AI绝艺到MOBA游戏AI绝悟再到如今的AI足球队WeKick,腾讯AI Lab的深度强化学习智能体正在步步进化,逐渐向更复杂更多样化的问题迁移,腾讯也正在向通用人工智能的终极目标坚定迈进。长远来看,绝悟背后的研发经验和算法积累,未来还将在AI与农业、医疗及智慧城市等广阔领域的结合上展现巨大潜力,创造出更大的实用价值。


推荐阅读:

「2020中国AI算力报告」重磅出炉:中国怎么解决GPT-3的算力难题?


开源项目在GitHub上贡献33.5W个Star!腾讯的十年「云」答卷,请收好!


你的公益还停在捐款箱?看看开发者如何改变世界


相关文章
|
5天前
|
机器学习/深度学习 人工智能 自然语言处理
DiffSensei:AI 漫画生成框架,能生成内容可控的黑白漫画面板,支持多角色和布局控制
DiffSensei 是一个由北京大学、上海AI实验室及南洋理工大学共同推出的AI漫画生成框架,能够生成可控的黑白漫画面板。该框架整合了基于扩散的图像生成器和多模态大型语言模型(MLLM),支持多角色控制和精确布局控制,适用于漫画创作、个性化内容生成等多个领域。
50 17
DiffSensei:AI 漫画生成框架,能生成内容可控的黑白漫画面板,支持多角色和布局控制
|
6天前
|
人工智能 API 语音技术
TEN Agent:开源的实时多模态 AI 代理框架,支持语音、文本和图像的实时通信交互
TEN Agent 是一个开源的实时多模态 AI 代理框架,集成了 OpenAI Realtime API 和 RTC 技术,支持语音、文本和图像的多模态交互,具备实时通信、模块化设计和多语言支持等功能,适用于智能客服、实时语音助手等多种场景。
75 15
TEN Agent:开源的实时多模态 AI 代理框架,支持语音、文本和图像的实时通信交互
|
7天前
|
人工智能 安全 PyTorch
SPDL:Meta AI 推出的开源高性能AI模型数据加载解决方案,兼容主流 AI 框架 PyTorch
SPDL是Meta AI推出的开源高性能AI模型数据加载解决方案,基于多线程技术和异步事件循环,提供高吞吐量、低资源占用的数据加载功能,支持分布式系统和主流AI框架PyTorch。
35 10
SPDL:Meta AI 推出的开源高性能AI模型数据加载解决方案,兼容主流 AI 框架 PyTorch
|
7天前
|
人工智能 自然语言处理 前端开发
Director:构建视频智能体的 AI 框架,用自然语言执行搜索、编辑、合成和生成等复杂视频任务
Director 是一个构建视频智能体的 AI 框架,用户可以通过自然语言命令执行复杂的视频任务,如搜索、编辑、合成和生成视频内容。该框架基于 VideoDB 的“视频即数据”基础设施,集成了多个预构建的视频代理和 AI API,支持高度定制化,适用于开发者和创作者。
62 9
Director:构建视频智能体的 AI 框架,用自然语言执行搜索、编辑、合成和生成等复杂视频任务
|
9天前
|
机器学习/深度学习 人工智能
SNOOPI:创新 AI 文本到图像生成框架,提升单步扩散模型的效率和性能
SNOOPI是一个创新的AI文本到图像生成框架,通过增强单步扩散模型的指导,显著提升模型性能和控制力。该框架包括PG-SB和NASA两种技术,分别用于增强训练稳定性和整合负面提示。SNOOPI在多个评估指标上超越基线模型,尤其在HPSv2得分达到31.08,成为单步扩散模型的新标杆。
50 10
SNOOPI:创新 AI 文本到图像生成框架,提升单步扩散模型的效率和性能
|
1天前
|
机器学习/深度学习 人工智能 算法
AI框架的赢者法则:生态繁荣的昇思MindSpore,成为大模型时代的新选择
2024年被视为大模型应用的元年。昇思MindSpore AI框架凭借其强大的开源社区和技术创新,在全球范围内迅速崛起。截至2024年11月,该框架的下载量已超过1100万次,覆盖130多个国家和地区的2400多个城市,拥有3.7万名贡献者。昇思MindSpore不仅在人才培养和社区治理方面表现出色,还在大模型的开发、训练和应用中发挥了关键作用,支持了50多个主流大模型,覆盖15个行业。随着其市场份额预计达到30%,昇思MindSpore正逐步成为行业共识,推动大模型在各领域的广泛应用。
24 12
|
23小时前
|
机器学习/深度学习 人工智能
Leffa:Meta AI 开源精确控制人物外观和姿势的图像生成框架,在生成穿着的同时保持人物特征
Leffa 是 Meta 开源的图像生成框架,通过引入流场学习在注意力机制中精确控制人物的外观和姿势。该框架不增加额外参数和推理成本,适用于多种扩散模型,展现了良好的模型无关性和泛化能力。
26 11
Leffa:Meta AI 开源精确控制人物外观和姿势的图像生成框架,在生成穿着的同时保持人物特征
|
6天前
|
机器学习/深度学习 人工智能 自然语言处理
转载:【AI系统】AI的领域、场景与行业应用
本文概述了AI的历史、现状及发展趋势,探讨了AI在计算机视觉、自然语言处理、语音识别等领域的应用,以及在金融、医疗、教育、互联网等行业中的实践案例。随着技术进步,AI模型正从单一走向多样化,从小规模到大规模分布式训练,企业级AI系统设计面临更多挑战,同时也带来了新的研究与工程实践机遇。文中强调了AI基础设施的重要性,并鼓励读者深入了解AI系统的设计原则与研究方法,共同推动AI技术的发展。
转载:【AI系统】AI的领域、场景与行业应用
|
2天前
|
机器学习/深度学习 人工智能 算法
探索AI在医疗诊断中的应用与挑战
【10月更文挑战第21天】 本文深入探讨了人工智能(AI)技术在医疗诊断领域的应用现状与面临的挑战,旨在为读者提供一个全面的视角,了解AI如何改变传统医疗模式,以及这一变革过程中所伴随的技术、伦理和法律问题。通过分析AI技术的优势和局限性,本文旨在促进对AI在医疗领域应用的更深层次理解和讨论。
|
7天前
|
人工智能 缓存 异构计算
云原生AI加速生成式人工智能应用的部署构建
本文探讨了云原生技术背景下,尤其是Kubernetes和容器技术的发展,对模型推理服务带来的挑战与优化策略。文中详细介绍了Knative的弹性扩展机制,包括HPA和CronHPA,以及针对传统弹性扩展“滞后”问题提出的AHPA(高级弹性预测)。此外,文章重点介绍了Fluid项目,它通过分布式缓存优化了模型加载的I/O操作,显著缩短了推理服务的冷启动时间,特别是在处理大规模并发请求时表现出色。通过实际案例,展示了Fluid在vLLM和Qwen模型推理中的应用效果,证明了其在提高模型推理效率和响应速度方面的优势。
云原生AI加速生成式人工智能应用的部署构建