R聚类分析

简介: 数据格式:时间(小时)/各个省份数据 数据输入: locdata

数据格式:时间(小时)/各个省份数据

数据输入:

locdata <- read.csv("./data.csv")

此时locdata的类型为:data.frame

需要转化为matric类型:

locdata_m <- as.matrix(locdata)

剔除数据:

locdata_mt <- locdata_mt[c(2: nrow(locdata_mt)), c(1: ncol(locdata_mt))]

接下来开始聚类运算:

分两个步骤:

1、确定计算距离方式

dist(x, method = "euclidean",diag = FALSE, upper = FALSE, p = 2) 

r语言中使用dist(x, method = "euclidean",diag = FALSE, upper = FALSE, p = 2) 来计算距离。其中x是样本矩阵或者数据框。

method表示计算哪种距离。method的取值有:
euclidean                欧几里德距离,就是平方再开方。
maximum                切比雪夫距离
manhattan            绝对值距离
canberra                Lance 距离
minkowski            明科夫斯基距离,使用时要指定p值
binary                    定性变量距离

(计算距离之前可以使用scale(x, center = TRUE, scale = TRUE)来对数据进行中心化及标准化。)

2、确定聚类方法

hclust(d, method = "complete", members=NULL) 

method表示类的合并方法,有:
single            最短距离法
complete        最长距离法
median        中间距离法
mcquitty        相似法
average        类平均法
centroid        重心法
ward            离差平方和法

 

d <- dist(locdata_mt, method = *)

hcl <- hclust(d, method = *)

最后以根节点对其的方式画图:

plot(hcl, hang = -1)

重合度图形展示:

heatmap(as.matrix)

 

目录
相关文章
|
20天前
|
机器学习/深度学习 数据可视化
R语言决策树、随机森林、逻辑回归临床决策分析NIPPV疗效和交叉验证
R语言决策树、随机森林、逻辑回归临床决策分析NIPPV疗效和交叉验证
|
20天前
|
机器学习/深度学习 数据可视化 算法
数据分享|R语言用主成分PCA、 逻辑回归、决策树、随机森林分析心脏病数据并高维可视化
数据分享|R语言用主成分PCA、 逻辑回归、决策树、随机森林分析心脏病数据并高维可视化
数据分享|R语言用主成分PCA、 逻辑回归、决策树、随机森林分析心脏病数据并高维可视化
|
20天前
|
机器学习/深度学习 数据可视化 算法
R语言用主成分PCA、 逻辑回归、决策树、随机森林分析心脏病数据并高维可视化
R语言用主成分PCA、 逻辑回归、决策树、随机森林分析心脏病数据并高维可视化
|
20天前
|
文字识别 算法 数据挖掘
基于模型的聚类和R语言中的高斯混合模型
基于模型的聚类和R语言中的高斯混合模型
|
6月前
|
存储 机器学习/深度学习 算法
6个常用的聚类评价指标
评估聚类结果的有效性,即聚类评估或验证,对于聚类应用程序的成功至关重要。
120 0
|
9月前
|
机器学习/深度学习 人工智能 算法
机器学习算法之聚类算法
机器学习算法之聚类算法
|
12月前
|
算法 数据挖掘
聚类算法
聚类算法
|
机器学习/深度学习 算法 数据挖掘
【机器学习算法】8、聚类算法之DBSCAN(一)
【机器学习算法】8、聚类算法之DBSCAN(一)
177 0
|
机器学习/深度学习 算法 数据挖掘
【机器学习算法】8、聚类算法之DBSCAN(二)
【机器学习算法】8、聚类算法之DBSCAN(二)
90 0
|
算法 数据可视化 数据挖掘
聚类算法(下):10个聚类算法的评价指标
上篇文章我们已经介绍了一些常见的聚类算法,下面我们将要介绍评估聚类算法的指标
295 0
聚类算法(下):10个聚类算法的评价指标