用Python编写代码分析《英雄联盟》游戏胜利的最重要因素

简介: 用Python编写代码分析《英雄联盟》游戏胜利的最重要因素

介绍

在过去的几年里,电子竞技社区发展迅速,曾经只是休闲娱乐的电子竞技产业,到2022年有望创造18亿美元的收入。虽然在这个生态系统中有很多电子游戏,但很少有游戏像《英雄联盟》那样成为社区的主要元素,该游戏在2019年世界锦标赛期间吸引了超过1亿的独立观众。

640.png

《英雄联盟》于2009年底发行,是一款免费的多人在线战斗竞技场(MOBA)视频游戏,由Riot Games公司开发,这款游戏在早期就产生了广泛的竞争场景,2011年的第一届世界冠军创造了约160万观众。随着Riot开始了解如何改变才能使游戏更具竞争性和趣味性,这款游戏在受欢迎程度和可玩性方面都有所提高。

在《英雄联盟》的比赛中,两队各有五名玩家,每一队都控制着一个独特的角色或“冠军”,当其中一队位于其基地深处的Nexus被摧毁时,比赛就会结束。在这个过程中,一个团队可以实现很多目标,比如摧毁炮塔,杀死中立的怪物,比如龙和男爵,以获得整个团队的增益,等等。有些目标,如摧毁至少五个炮塔和一个兵营,是赢得游戏所必需的,而其他目标,如获得第一滴血,是有益的,但不是必须的。通过这个项目,我想更好的了解这些目标中哪一个是赢得英雄联盟游戏最重要的。就此而言,我提出的问题如下:

英雄联盟最重要的获胜条件是什么?

收集数据

我首先申请了一个使用Riot Developer Portal的应用程序,在我的应用程序被接受后,我浏览了api列表,以了解我可以请求的数据类型。不幸的是,没有一种直接的方法可以从一个区域中取出最后X个排名的匹配项,所以我必须找到一种方法来解决这个问题。

我的解决方案是使用召唤者名称列表(用户名)来为每个玩家生成最近的比赛列表。通过Python包Riot-Watcher的调用,获取了差不多10000行的数据与五个地区最新联赛比赛的前100名玩家的数据。乍一看,DataFrame看起来是这样的:

640.png

在前7列中,0表示“False”,1表示“True”,而在后面的列中,单元格中编码的数据表示事件发生的次数。每行都包含了一场排位比赛中的一支队伍的统计数据。例如,在第一排,没有获得任何目标的团队首先输掉了整个比赛。

探索性数据分析热图和主成分分析

首先,我发现91%的获胜团队摧毁了第一个兵营,80%杀死了第一个男爵,70%摧毁了第一个塔,63%杀死了第一条龙,59%的获胜团队以第一滴血开始游戏。现在看来,最重要的获胜条件是摧毁第一个兵营,这是有意义的,因为摧毁一条线路的兵营会给他们的基地带来压力,并允许对方拥有更多的地图控制。

接下来,我可视化了数据集中各列之间的相关性:

640.png

我还为我的数据中所代表的每个独立地区找到了相同的关联热图,以比较不同地区之间的关联,希望能注意到游戏风格的一些差异。一般来说,相关矩阵看起来非常相似。一个可能的原因是,我的数据包含了每个地区最好的玩家的比赛,其中许多人是职业选手。因此,由于良好的游戏实践在竞争性社区中是一致的,所以我的数据中所代表的匹配涉及到那些在每一款游戏中顶级玩家,而这些玩家相对于每个区域中排名较低的玩家来说是相似的。

我现在很想知道数据中的方差是如何用较少的特征来解释的,而不是我用来预测游戏结果的10个特征。在这种程度上,我进行了主成分分析,以了解我可以将数据简化成多少特征,同时保留大部分的方差:

640.png

十个预测列中超过80%的方差可以用一半的特征量来解释。这确实很有趣,通过将每个组件与原始数据集的列关联起来,我希望了解在解释数据的差异时哪些特性是最重要的,这可以帮助我弄清楚哪些列对一个团队是否会获胜最关键。

640.png

用于生成上述热图的组件来自一个包含六个PCA对象,因为我希望这些组件能够解释数据中超过90%的差异。看来推塔,摧毁兵营,以及一个团队是否摧毁了第一个兵营在确定方差最重要的特征数据,第一个组件解释40%的方差和三个上述列加权最该组件。

重申一下我在这一点上的领悟:

从我的关联热图来看,无论一个团队是否摧毁了第一个兵营,一个团队推掉了多少塔,以及一个团队摧毁了多少兵营都与获胜有最高的相关性。

从我的PCA分析来看,团队是否摧毁了第一个兵营,团队摧毁了多少塔,以及团队摧毁了多少兵营在解释数据中的差异方面发挥了最大的作用。

使用逻辑回归进行数据建模

我使用了Logistic回归模型来理解《英雄联盟》排名比赛的获胜条件。我的过程是首先将我的数据分割成一组特征和一组目标,其中我的特征是除‘win’和‘region’列之外的所有列,我的目标是‘win’列。然后我将我的数据分解为一个列集和一个测试集,通过Logistic回归模型进行运行,并检查分类报告和混淆矩阵,确保有较强的预测能力。当逻辑回归模型在整个数据集上运行时,模型的精度和召回率分别为。86和。85。

从这里开始,我对只包含一个区域的数据子集进行逻辑回归,比如只在NA、BR等中进行的匹配,并在一个Pandas数据模型中记录模型的系数。这个数据图被可视化了,所以我可以比较不同的区域:

640.png

回归系数描述预测变量和目标变量之间的关系。例如,当我们看上面的一血预测变量时,第一个拿到一血的队伍是对比赛结果的适度预测,因为第一个拿一血的队伍更有可能获胜。另一方面,峡谷先驱的击杀实际上是在相反的方向上相关的(除了EUNE),并且获得更多峡谷先驱击杀的队伍更有可能输掉。

通过这个分析过程,我了解了哪些专栏更能预测胜利,帮助我回答了关于《英雄联盟》中获胜条件的问题。

结论

通过我的项目,我得出以下结论:

根据我的逻辑回归模型,按照最大到最小的顺序,第一个兵营,第一个塔,塔摧毁是数据集中最重要的获胜条件(这是推塔游戏)。

根据我的关联热图,从最大到最小,塔摧毁,第一个兵营,兵营摧毁数是数据集中最重要的获胜条件(这是推塔游戏)。

虽然获得第一个baron的NA和EUW团队更有可能获胜,但随着杀死的baron数量的增加,这些地区的团队更有可能失败。

与其他地区相比,在NA地区的团队更有可能赢得第一只龙,这一事实或许表明在NA地区的游戏更倾向于龙的爱好者和围绕龙的战斗

滚雪球式的游戏(当一个团队在游戏中扩大一个小优势以赢得胜利)。

KR游戏并没有受到一个特性的不均衡影响。这可能表明KR的队员比其他地区的队员更了解如何在劣势中有细,这促使团队比其他地区的团队更经常地赢得组合目标。

本文源代码:https://github.com/ankushbharadwaj/league-of-legends-win-conditions

译者注:这个模型没有使用 “region”列作为训练参数使用国服数据训练可能是个败笔,毕竟处理祖安的玩家数据可能需要更多的自然语言处理技术提取聊天的特征,这才是祖安人胜利的关键😂

640.png

目录
相关文章
|
1月前
|
机器学习/深度学习 算法 搜索推荐
从理论到实践,Python算法复杂度分析一站式教程,助你轻松驾驭大数据挑战!
【10月更文挑战第4天】在大数据时代,算法效率至关重要。本文从理论入手,介绍时间复杂度和空间复杂度两个核心概念,并通过冒泡排序和快速排序的Python实现详细分析其复杂度。冒泡排序的时间复杂度为O(n^2),空间复杂度为O(1);快速排序平均时间复杂度为O(n log n),空间复杂度为O(log n)。文章还介绍了算法选择、分而治之及空间换时间等优化策略,帮助你在大数据挑战中游刃有余。
58 4
|
9天前
|
数据采集 缓存 定位技术
网络延迟对Python爬虫速度的影响分析
网络延迟对Python爬虫速度的影响分析
|
26天前
|
数据采集 JSON 数据处理
抓取和分析JSON数据:使用Python构建数据处理管道
在大数据时代,电商网站如亚马逊、京东等成为数据采集的重要来源。本文介绍如何使用Python结合代理IP、多线程等技术,高效、隐秘地抓取并处理电商网站的JSON数据。通过爬虫代理服务,模拟真实用户行为,提升抓取效率和稳定性。示例代码展示了如何抓取亚马逊商品信息并进行解析。
抓取和分析JSON数据:使用Python构建数据处理管道
|
11天前
|
数据采集 存储 JSON
Python爬虫开发中的分析与方案制定
Python爬虫开发中的分析与方案制定
|
18天前
|
数据可视化 开发者 Python
Python GUI开发:Tkinter与PyQt的实战应用与对比分析
【10月更文挑战第26天】本文介绍了Python中两种常用的GUI工具包——Tkinter和PyQt。Tkinter内置于Python标准库,适合初学者快速上手,提供基本的GUI组件和方法。PyQt基于Qt库,功能强大且灵活,适用于创建复杂的GUI应用程序。通过实战示例和对比分析,帮助开发者选择合适的工具包以满足项目需求。
62 7
|
1月前
|
数据可视化 算法 Python
基于OpenFOAM和Python的流场动态模态分解:从数据提取到POD-DMD分析
本文介绍了如何利用Python脚本结合动态模态分解(DMD)技术,分析从OpenFOAM模拟中提取的二维切片数据,以深入理解流体动力学现象。通过PyVista库处理VTK格式的模拟数据,进行POD和DMD分析,揭示流场中的主要能量结构及动态特征。此方法为研究复杂流动系统提供了有力工具。
69 2
基于OpenFOAM和Python的流场动态模态分解:从数据提取到POD-DMD分析
|
17天前
|
存储 数据处理 Python
Python科学计算:NumPy与SciPy的高效数据处理与分析
【10月更文挑战第27天】在科学计算和数据分析领域,Python凭借简洁的语法和强大的库支持广受欢迎。NumPy和SciPy作为Python科学计算的两大基石,提供了高效的数据处理和分析工具。NumPy的核心功能是N维数组对象(ndarray),支持高效的大型数据集操作;SciPy则在此基础上提供了线性代数、信号处理、优化和统计分析等多种科学计算工具。结合使用NumPy和SciPy,可以显著提升数据处理和分析的效率,使Python成为科学计算和数据分析的首选语言。
27 3
|
18天前
|
存储 机器学习/深度学习 算法
Python科学计算:NumPy与SciPy的高效数据处理与分析
【10月更文挑战第26天】NumPy和SciPy是Python科学计算领域的两大核心库。NumPy提供高效的多维数组对象和丰富的数学函数,而SciPy则在此基础上提供了更多高级的科学计算功能,如数值积分、优化和统计等。两者结合使Python在科学计算中具有极高的效率和广泛的应用。
33 2
|
23天前
|
数据采集 机器学习/深度学习 搜索推荐
Python自动化:关键词密度分析与搜索引擎优化
Python自动化:关键词密度分析与搜索引擎优化
|
24天前
|
数据可视化 算法 JavaScript
基于图论的时间序列数据平稳性与连通性分析:利用图形、数学和 Python 揭示时间序列数据中的隐藏模式
本文探讨了如何利用图论分析时间序列数据的平稳性和连通性。通过将时间序列数据转换为图结构,计算片段间的相似性,并构建连通图,可以揭示数据中的隐藏模式。文章介绍了平稳性的概念,提出了基于图的平稳性度量,并展示了图分区在可视化平稳性中的应用。此外,还模拟了不同平稳性和非平稳性程度的信号,分析了图度量的变化,为时间序列数据分析提供了新视角。
52 0
基于图论的时间序列数据平稳性与连通性分析:利用图形、数学和 Python 揭示时间序列数据中的隐藏模式