应用聚类算法,预测中国足球在亚洲处于什么水平

简介: 应用聚类算法,预测中国足球在亚洲处于什么水平

一、业务场景

受某体育公司委托,拟根据以往亚洲各足球队参赛数据,对中国足球在亚洲处于什么水平进行分析。经过讨论,决定采用K-Means聚类算法来进行分析。

二、数据集说明

本案例所使用的数据集,说明如下:

635b11a0406f4f118407b9aaf02b23b8.png

根据数据来源的描述,提前对数据做了如下预处理,使得所有数据变为标量,便于后续聚类:

• 对于世界杯,进入决赛圈则取其最终排名,没有进入决赛圈的,打入预选赛十强赛赋予40,预选赛小组未出线的赋予50。

• 对于亚洲杯,前四名取其排名,八强赋予5,十六强赋予9,预选赛没出现的赋予17。

 上面表格中的数据存储在”/data/dataset/ml/soccer.txt”文件中,属性之间用空格分割:

1.  country 2006 2010 2007
2.  中国 50 50 9
3.  日本 28 09 4
4.  韩国 17 15 3
5.  伊朗 25 40 5
6.  沙特 28 40 2
7.  伊拉克 50 50 1
8.  卡塔尔 50 40 9
9.  阿联酋 50 40 9
10. 乌兹别克斯坦 40 40 5
11. 泰国 50 50 9
12. 越南 50 50 5
13. 阿曼 50 50 9
14. 巴林 40 40 9
15. 朝鲜 40 32 17
16. 印尼 50 50 9

三、操作步骤

阶段一、启动HDFS、Spark集群服务和zeppelin服务器

1、启动HDFS集群

  在Linux终端窗口下,输入以下命令,启动HDFS集群:

1.  $ start-dfs.sh

2、启动Spark集群

  在Linux终端窗口下,输入以下命令,启动Spark集群:

1.  $ cd /opt/spark
2.  $ ./sbin/start-all.sh

3、启动zeppelin服务器

  在Linux终端窗口下,输入以下命令,启动zeppelin服务器:

1.  $ zeppelin-daemon.sh start

4、验证以上进程是否已启动

  在Linux终端窗口下,输入以下命令,查看启动的服务进程:

1.  $ jps

如果显示以下6个进程,则说明各项服务启动正常,可以继续下一阶段。

2288 NameNode
2402 DataNode
2603 SecondaryNameNode
2769 Master
2891 Worker
2984 ZeppelinServer

阶段二、准备案例中用到的数据集

1、将本案例要用到的数据集上传到HDFS文件系统的”/data/dataset/ml/“目录下。在Linux终端窗口下,输入以下命令:

1.  $ hdfs dfs -mkdir -p /data/dataset/ml
2.  $ hdfs dfs -put /data/dataset/ml/soccer.txt /data/dataset/ml/

2、在Linux终端窗口下,输入以下命令,查看HDFS上是否已经上传了该数据集:

1.  $ hdfs dfs -ls /data/dataset/ml/

这时应该看到soccer.txt数据文件已经上传到了HDFS的”/data/datset/ml/“目录下。

阶段三、对数据集进行探索和分析

1、新建一个zeppelin notebook文件,并命名为soccer_project。

  2、读取数据源。在notebook单元格中,输入以下代码:

1.  // 加载数据
2.  val data = "hdfs://localhost:9000/data/dataset/ml/soccer.txt"
3.  val soccerDF = spark.read.option("header","true").
4.                            option("sep"," ").
5.                            option("inferSchema","true").
6.                            csv(data)
7.       
8.  soccerDF.printSchema
9.  soccerDF.count
10. soccerDF.show

同时按下”【Shift+Enter】”键,执行以上代码,输出内容如下:

568bcfd41dbb4725a9f8c47b94004c27.png

3、生成特征向量和特征列。在notebook单元格中,输入以下代码:

1.  import org.apache.spark.sql.types._
2.  import org.apache.spark.sql._
3.  import org.apache.spark.ml.feature._
4.  import org.apache.spark.ml.Pipeline
5.  import org.apache.spark.ml.evaluation._
6.  import org.apache.spark.ml.classification._
7.  import org.apache.spark.ml.tuning._
8.  import org.apache.spark.ml.linalg._
9.  import org.apache.spark.ml.clustering._
10.      
11. // 生成特征向量
12. val allFeatNames = Seq("2006", "2010", "2007")
13. val assembler = new VectorAssembler()
14.                     .setInputCols(Array(allFeatNames:_*))
15.                     .setOutputCol("features")
16.      
17. // 生成特征列
18. val df2 = assembler.transform(soccerDF)
19. df2.cache()
20.      
21. df2.show

同时按下【Shift+Enter】键,执行以上代码,输出内容如下:

2bf5297279e34f8c9bc7e2a077081bbd.png

4、训练一个k-means模型。在notebook单元格中,输入以下代码:

1.  val kmeans = new KMeans().setK(3).setSeed(1L)      // 分为 3 个子集,默认20次迭代
2.  val model = kmeans.fit(df2)
3.  println(kmeans.explainParams)        // 解释参数

5、计算聚类的收敛性,此值越低越好。在notebook单元格中,输入以下代码:

1.  val WSSSE = model.computeCost(df2)
2.  println(s"Within Set Sum of Squared Errors = $WSSSE")

同时按下【Shift+Enter】,执行以上代码,输出内容如下:

b7611810550c4484a976733e34015687.png

6、显示结果。在notebook单元格中,输入以下代码:

1.  println("聚类质心: ")
2.  model.clusterCenters.foreach(println)


同时按下Shift+Enter,执行以上代码,输出内容如下:

4c998926c034441192dd0020885f2bd1.png

7、进行分类预测。在notebook单元格中,输入以下代码:

1.  val transformed = model.transform(df2)
2.  transformed.show

同时按下Shift+Enter,执行以上代码,输出内容如下:


d944b2f2585748d3b19262ff78eadce6.png

8、查看一下分类结果。在notebook单元格中,输入以下代码:

1.  transformed.createOrReplaceTempView("soccer_table")
2.  spark.sql("select prediction as level,concat_ws(',',collect_set(country)) as countrys from soccer_table group by level sort by level").show(false)

同时按下【Shift+Enter】,执行以上代码,输出内容如下:


ca59fb6358f8479fa9eb21f5832925ea.png

由以上输出内容可以看出,亚洲足球队可分为三个层次。结合我们的经验,其中第一梯队是日本和韩国,第二梯队包含有乌兹别克斯坦、朝鲜、沙特、巴林和伊朗。而中国足球队与泰国同处于第三梯队。

— END —

相关文章
|
8天前
|
存储 监控 算法
员工上网行为监控中的Go语言算法:布隆过滤器的应用
在信息化高速发展的时代,企业上网行为监管至关重要。布隆过滤器作为一种高效、节省空间的概率性数据结构,适用于大规模URL查询与匹配,是实现精准上网行为管理的理想选择。本文探讨了布隆过滤器的原理及其优缺点,并展示了如何使用Go语言实现该算法,以提升企业网络管理效率和安全性。尽管存在误报等局限性,但合理配置下,布隆过滤器为企业提供了经济有效的解决方案。
43 8
员工上网行为监控中的Go语言算法:布隆过滤器的应用
|
2月前
|
机器学习/深度学习 算法 数据挖掘
K-means聚类算法是机器学习中常用的一种聚类方法,通过将数据集划分为K个簇来简化数据结构
K-means聚类算法是机器学习中常用的一种聚类方法,通过将数据集划分为K个簇来简化数据结构。本文介绍了K-means算法的基本原理,包括初始化、数据点分配与簇中心更新等步骤,以及如何在Python中实现该算法,最后讨论了其优缺点及应用场景。
114 4
|
3月前
|
存储 算法 Java
解析HashSet的工作原理,揭示Set如何利用哈希算法和equals()方法确保元素唯一性,并通过示例代码展示了其“无重复”特性的具体应用
在Java中,Set接口以其独特的“无重复”特性脱颖而出。本文通过解析HashSet的工作原理,揭示Set如何利用哈希算法和equals()方法确保元素唯一性,并通过示例代码展示了其“无重复”特性的具体应用。
61 3
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
深度学习中的优化算法及其应用
【10月更文挑战第8天】 本文将探讨深度学习中常用的优化算法,包括梯度下降法、Adam和RMSProp等,介绍这些算法的基本原理与应用场景。通过实例分析,帮助读者更好地理解和应用这些优化算法,提高深度学习模型的训练效率与性能。
245 63
|
8天前
|
存储 缓存 算法
探索企业文件管理软件:Python中的哈希表算法应用
企业文件管理软件依赖哈希表实现高效的数据管理和安全保障。哈希表通过键值映射,提供平均O(1)时间复杂度的快速访问,适用于海量文件处理。在Python中,字典类型基于哈希表实现,可用于管理文件元数据、缓存机制、版本控制及快速搜索等功能,极大提升工作效率和数据安全性。
41 0
|
2月前
|
机器学习/深度学习 人工智能 算法
探索人工智能中的强化学习:原理、算法与应用
探索人工智能中的强化学习:原理、算法与应用
|
2月前
|
机器学习/深度学习 算法 数据挖掘
C语言在机器学习中的应用及其重要性。C语言以其高效性、灵活性和可移植性,适合开发高性能的机器学习算法,尤其在底层算法实现、嵌入式系统和高性能计算中表现突出
本文探讨了C语言在机器学习中的应用及其重要性。C语言以其高效性、灵活性和可移植性,适合开发高性能的机器学习算法,尤其在底层算法实现、嵌入式系统和高性能计算中表现突出。文章还介绍了C语言在知名机器学习库中的作用,以及与Python等语言结合使用的案例,展望了其未来发展的挑战与机遇。
50 1
|
2月前
|
并行计算 算法 测试技术
C语言因高效灵活被广泛应用于软件开发。本文探讨了优化C语言程序性能的策略,涵盖算法优化、代码结构优化、内存管理优化、编译器优化、数据结构优化、并行计算优化及性能测试与分析七个方面
C语言因高效灵活被广泛应用于软件开发。本文探讨了优化C语言程序性能的策略,涵盖算法优化、代码结构优化、内存管理优化、编译器优化、数据结构优化、并行计算优化及性能测试与分析七个方面,旨在通过综合策略提升程序性能,满足实际需求。
63 1
|
2月前
|
缓存 算法 网络协议
OSPF的路由计算算法:原理与应用
OSPF的路由计算算法:原理与应用
56 4
|
2月前
|
机器学习/深度学习 监控 算法
基于反光衣和检测算法的应用探索
本文探讨了利用机器学习和计算机视觉技术进行反光衣检测的方法,涵盖图像预处理、目标检测与分类、特征提取等关键技术。通过YOLOv5等模型的训练与优化,展示了实现高效反光衣识别的完整流程,旨在提升智能检测系统的性能,应用于交通安全、工地监控等领域。

热门文章

最新文章