原文链接:http://tecdat.cn/?p=24198
聚类是将总体或数据点划分为多个组的任务,以使同一组中的数据点与同一组中的其他数据点更相似,而与其他组中的数据点不相似。它基本上是基于它们之间的相似性和相异性的对象的集合。
在本项目中,我将使用世界幸福报告中的数据(查看文末了解数据获取方式)来探索亚洲22个国家或地区,并通过查看每个国家的阶梯得分,社会支持,健康的期望寿命,自由选择生活,慷慨,对腐败的看法以及人均GDP,来探索亚洲22个国家的相似和不同之处。我将使用两种聚类方法,即k均值和层次聚类,以及轮廓分析来验证每种聚类方法。
【视频】KMEANS均值聚类和层次聚类:R语言分析生活幸福质量系数可视化实例
例如——下图中聚集在一起的数据点可以归为一组。我们可以区分簇,我们可以识别出下图中有3个簇。
让我们看看聚类算法的类型以及如何为您的用例选择它们。
层次聚类
层次聚类的主要思想是基于这样的概念,即附近的对象比更远的对象更相关。
您有两类层次聚类算法,自上而下和自下而上。自下而上的概念在初始阶段将每个数据点视为一个单独的集群。它会合并成对的集群,直到您拥有一个包含所有数据点的组。因此,它也被称为分层聚类(HAC)。将其与一棵树进行比较,其中根是唯一的集群,它将所有样本与叶子一起收集为具有单个样本的集群。下图将更好地解释这个概念。
1.将每个数据点视为一个单独的集群。第二步是选择一个距离度量来衡量两组之间的距离。使用平均链接方法,其中两个集群之间的距离是一个集群中的数据点与另一个集群中的数据点之间的平均距离。
2.在每次迭代中,我们将具有最小平均链接的两个集群合并为一个。
3.重复上述步骤,直到我们有一个包含所有数据点的大集群。
AHC 的优点:
·AHC 易于实现,它还可以提供对象排序,这可以为显示提供信息。
·我们不必预先指定集群的数量。通过在特定级别切割树状图很容易确定聚类的数量。
·在 AHC 方法中,将创建较小的集群,这可能会发现数据的相似性。
AHC的缺点:
·在开始的任何步骤中分组错误的对象都无法撤消。
·不能很好地处理异常值。每当发现异常值时,它们最终会成为一个新的集群,或者有时会导致与其他集群合并。
K-means 聚类算法
K均值聚类是最常见的聚类算法,因为它易于理解和实现。K均值算法使用特定的距离度量将给定的数据集拆分为预定义K个类。
下图将帮助我们更好地理解这个概念。
我们从图中推断出什么?
选择一些类或组并随机初始化中心点。请记住,确定您使用的类的数量至关重要。因此,请仔细查看可用数据并确定不同的特征。图中用 X 表示的中心点是与每个数据点向量具有相同长度的向量。
1.您可以通过计算特定点与每个组中心之间的距离对每个数据点进行分类。下一步是对属于中心最近的组的点进行分类。
2.根据此信息,取出特定组中所有向量的均值并重新计算组中心。
3.对一个数字重复该过程,并确保组中心在迭代之间变化不大。
优点
·K-means 是一种快速的方法,因为它不需要很多计算。
缺点
·识别和分类组可能是一个具有挑战性的方面。
·由于它从随机选择聚类中心开始,因此,结果可能缺乏一致性。
KMEANS均值聚类和层次聚类:亚洲国家地区生活幸福质量异同可视化分析和选择最佳聚类数
将要分析的国家和地区是:
asia <- w filer(gepl('Asia', Rgion)
探索性数据分析
相关矩阵
pair(aia\[,-c(1,2)\], sal=TUE,col,hst.ol)
- 阶梯得分,社会支持,生活选择的自由以及对腐败的看法的分布是左偏的。
- 慷慨和人均GDP的分布是右偏的。
- 健康期望寿命的偏差大约是对称的。
- 两者之间存在很强的正相关关系:
- 阶梯分数和社会支持
- 健康期望寿命和人均GDP
- 之间存在强烈的负相关关系:
- 对腐败的看法和人均GDP
- 之间存在中等正相关:
- 阶梯得分和健康期望寿命
- 社会支持与健康期望寿命
- 人均GDP较高的国家往往对腐败的看法较低,对健康的期望寿命,社会支持和阶梯得分较高。
国家和地区比较
grd.rrnge( ggplt(sia, es(rerder(x=fctor(国家名称), 阶梯得分, FN=min), y=阶梯得分, fill=区域指标)))
- 东亚国家的阶梯得分较高,期望寿命健康,人均GDP较高且慷慨度较低。
- 南亚国家的阶梯得分,社会支持,健康的期望寿命和人均GDP往往较低。
- 东南亚国家往往有很高的自由度,可以选择生活和慷慨解囊。
scterhst( aia, x = "社会支持", y = "阶梯得分", clor = "区域指标" titl = "阶梯得分与社会支持" )
- 南亚的社会支持中位数,阶梯得分和人均GDP最低。
- 东亚的社会支持中位数,阶梯得分,人均GDP和健康的期望寿命最高。
- 东南亚的平均健康寿命中位数最低,对腐败的中位数最高。
- 东南亚的人均GDP很高,期望寿命健康,对腐败的看法也很低(新加坡)。
- 东亚有离群点样本对政府的了解低(香港)。
01
02
03
04
聚类分析
这些国家会属于不同的群体吗?在本节中,我们将使用聚类(一种无监督的学习方法,该方法基于相似性对对象进行分组)来找到国家组,其中组内的国家相似。我将使用两种方法进行聚类:分层聚类和K-Means聚类。首先,我们如何识别这些群体?衡量对象之间相似性的一种方法是测量对象之间的数学距离。一种常见的距离度量是欧几里得距离。
【视频】KMEANS均值聚类和层次聚类:R语言分析生活幸福指数可视化|数据分享(下):https://developer.aliyun.com/article/1491654