一、业务场景
受某体育公司委托,拟根据以往亚洲各足球队参赛数据,对中国足球在亚洲处于什么水平进行分析。经过讨论,决定采用K-Means聚类算法来进行分析。
二、数据集说明
本案例所使用的数据集,说明如下:
根据数据来源的描述,提前对数据做了如下预处理,使得所有数据变为标量,便于后续聚类:
• 对于世界杯,进入决赛圈则取其最终排名,没有进入决赛圈的,打入预选赛十强赛赋予40,预选赛小组未出线的赋予50。
• 对于亚洲杯,前四名取其排名,八强赋予5,十六强赋予9,预选赛没出现的赋予17。
上面表格中的数据存储在”/data/dataset/ml/soccer.txt”文件中,属性之间用空格分割:
1. country 2006 2010 2007 2. 中国 50 50 9 3. 日本 28 09 4 4. 韩国 17 15 3 5. 伊朗 25 40 5 6. 沙特 28 40 2 7. 伊拉克 50 50 1 8. 卡塔尔 50 40 9 9. 阿联酋 50 40 9 10. 乌兹别克斯坦 40 40 5 11. 泰国 50 50 9 12. 越南 50 50 5 13. 阿曼 50 50 9 14. 巴林 40 40 9 15. 朝鲜 40 32 17 16. 印尼 50 50 9
三、操作步骤
阶段一、启动HDFS、Spark集群服务和zeppelin服务器
1、启动HDFS集群
在Linux终端窗口下,输入以下命令,启动HDFS集群:
1. $ start-dfs.sh
2、启动Spark集群
在Linux终端窗口下,输入以下命令,启动Spark集群:
1. $ cd /opt/spark 2. $ ./sbin/start-all.sh
3、启动zeppelin服务器
在Linux终端窗口下,输入以下命令,启动zeppelin服务器:
1. $ zeppelin-daemon.sh start
4、验证以上进程是否已启动
在Linux终端窗口下,输入以下命令,查看启动的服务进程:
1. $ jps
如果显示以下6个进程,则说明各项服务启动正常,可以继续下一阶段。
2288 NameNode 2402 DataNode 2603 SecondaryNameNode 2769 Master 2891 Worker 2984 ZeppelinServer
阶段二、准备案例中用到的数据集
1、将本案例要用到的数据集上传到HDFS文件系统的”/data/dataset/ml/“目录下。在Linux终端窗口下,输入以下命令:
1. $ hdfs dfs -mkdir -p /data/dataset/ml 2. $ hdfs dfs -put /data/dataset/ml/soccer.txt /data/dataset/ml/
2、在Linux终端窗口下,输入以下命令,查看HDFS上是否已经上传了该数据集:
1. $ hdfs dfs -ls /data/dataset/ml/
这时应该看到soccer.txt数据文件已经上传到了HDFS的”/data/datset/ml/“目录下。
阶段三、对数据集进行探索和分析
1、新建一个zeppelin notebook文件,并命名为soccer_project。
2、读取数据源。在notebook单元格中,输入以下代码:
1. // 加载数据 2. val data = "hdfs://localhost:9000/data/dataset/ml/soccer.txt" 3. val soccerDF = spark.read.option("header","true"). 4. option("sep"," "). 5. option("inferSchema","true"). 6. csv(data) 7. 8. soccerDF.printSchema 9. soccerDF.count 10. soccerDF.show
同时按下”【Shift+Enter】”键,执行以上代码,输出内容如下:
3、生成特征向量和特征列。在notebook单元格中,输入以下代码:
1. import org.apache.spark.sql.types._ 2. import org.apache.spark.sql._ 3. import org.apache.spark.ml.feature._ 4. import org.apache.spark.ml.Pipeline 5. import org.apache.spark.ml.evaluation._ 6. import org.apache.spark.ml.classification._ 7. import org.apache.spark.ml.tuning._ 8. import org.apache.spark.ml.linalg._ 9. import org.apache.spark.ml.clustering._ 10. 11. // 生成特征向量 12. val allFeatNames = Seq("2006", "2010", "2007") 13. val assembler = new VectorAssembler() 14. .setInputCols(Array(allFeatNames:_*)) 15. .setOutputCol("features") 16. 17. // 生成特征列 18. val df2 = assembler.transform(soccerDF) 19. df2.cache() 20. 21. df2.show
同时按下【Shift+Enter】键,执行以上代码,输出内容如下:
4、训练一个k-means模型。在notebook单元格中,输入以下代码:
1. val kmeans = new KMeans().setK(3).setSeed(1L) // 分为 3 个子集,默认20次迭代 2. val model = kmeans.fit(df2) 3. println(kmeans.explainParams) // 解释参数
5、计算聚类的收敛性,此值越低越好。在notebook单元格中,输入以下代码:
1. val WSSSE = model.computeCost(df2) 2. println(s"Within Set Sum of Squared Errors = $WSSSE")
同时按下【Shift+Enter】,执行以上代码,输出内容如下:
6、显示结果。在notebook单元格中,输入以下代码:
1. println("聚类质心: ") 2. model.clusterCenters.foreach(println)
同时按下Shift+Enter,执行以上代码,输出内容如下:
7、进行分类预测。在notebook单元格中,输入以下代码:
1. val transformed = model.transform(df2) 2. transformed.show
同时按下Shift+Enter,执行以上代码,输出内容如下:
8、查看一下分类结果。在notebook单元格中,输入以下代码:
1. transformed.createOrReplaceTempView("soccer_table") 2. spark.sql("select prediction as level,concat_ws(',',collect_set(country)) as countrys from soccer_table group by level sort by level").show(false)
同时按下【Shift+Enter】,执行以上代码,输出内容如下:
由以上输出内容可以看出,亚洲足球队可分为三个层次。结合我们的经验,其中第一梯队是日本和韩国,第二梯队包含有乌兹别克斯坦、朝鲜、沙特、巴林和伊朗。而中国足球队与泰国同处于第三梯队。
— END —