K-means和层次聚类分析癌细胞系微阵列数据和树状图可视化比较

简介: K-means和层次聚类分析癌细胞系微阵列数据和树状图可视化比较


目标

对“NCI60”(癌细胞系微阵列)数据查看文末了解数据获取方式使用聚类方法,目的是找出观察结果是否聚类为不同类型的癌症。K_means 和层次聚类的比较。

#数据信息


dim(nata)

nci.labs\[1:4\]

 


table(ncibs)

 


ncbs

scale # 标准化变量(均值零和标准差一)。

层次聚类全链接、平均链接和单链接之间的比较。

plot(hclust,ylab = "",cex=".5",col="blue") #使用全链接对观察结果进行层次聚类。


plot(hclust,cex=".5",col="blue") #使用平均链接对观察进行层次聚类。

par(mfrow=c(1,1))
plot(hclust,col="blue") #使用单链接对观察进行层次聚类。

观察结果

单链接层次聚类倾向于产生拖尾的聚类:非常大的聚类,单个观测值一个接一个地附在其中。

另一方面,全链接和平均链接往往会产生更加平衡和有吸引力的聚类。

由于这个原因,全链接和平均链接比单链接层次聚类更受欢迎。单一癌症类型中的细胞系确实倾向于聚在一起,尽管聚类并不完美。

 

table(hrs,ncbs)

我们可以看到一个清晰的模式,即所有白血病细胞系都属于聚类 3,其中乳腺癌细胞分布在三个不同的聚类中。

 

plot(hcu)
abline

参数 h=139 在高度 139 处绘制一条水平线。这是 4 个不同聚类的划分结果。

 

out

 

kout=kmea
table

我们看到,获得层次聚类和 K-means 聚类的四个聚类产生了不同的结果。K-means 聚类中的簇 2 与层次聚类中的簇 3 相同。另一方面,其他聚类不同。

结论

层次聚类在 NCI60 数据集中能比 K-means聚类得到更好的聚类。

相关文章
|
4天前
|
机器学习/深度学习 自然语言处理 算法
数据分享|R语言聚类、文本挖掘分析虚假电商评论数据:K-MEANS(K-均值)、层次聚类、词云可视化
数据分享|R语言聚类、文本挖掘分析虚假电商评论数据:K-MEANS(K-均值)、层次聚类、词云可视化
|
4天前
|
数据可视化 Python
R语言分析糖尿病数据:多元线性模型、MANOVA、决策树、典型判别分析、HE图、Box's M检验可视化
R语言分析糖尿病数据:多元线性模型、MANOVA、决策树、典型判别分析、HE图、Box's M检验可视化
|
4天前
|
机器学习/深度学习 数据采集 SQL
R语言K-Means(K均值聚类)和层次聚类算法对微博用户特征数据研究
R语言K-Means(K均值聚类)和层次聚类算法对微博用户特征数据研究
|
4天前
|
人工智能 自然语言处理 数据可视化
R语言对耐克NIKEID新浪微博数据K均值(K-MEANS)聚类文本挖掘和词云可视化
R语言对耐克NIKEID新浪微博数据K均值(K-MEANS)聚类文本挖掘和词云可视化
|
4天前
|
数据可视化 算法 数据挖掘
【视频】KMEANS均值聚类和层次聚类:R语言分析生活幸福指数可视化|数据分享(下)
【视频】KMEANS均值聚类和层次聚类:R语言分析生活幸福指数可视化|数据分享
|
4天前
|
数据可视化 算法 数据挖掘
【视频】KMEANS均值聚类和层次聚类:R语言分析生活幸福指数可视化|数据分享(上)
【视频】KMEANS均值聚类和层次聚类:R语言分析生活幸福指数可视化|数据分享
|
4天前
|
数据可视化 算法 数据挖掘
R语言用温度对城市层次聚类、kmean聚类、主成分分析和Voronoi图可视化
R语言用温度对城市层次聚类、kmean聚类、主成分分析和Voronoi图可视化
|
4天前
|
存储 数据可视化 数据挖掘
R语言绘制圈图、环形热图可视化基因组实战:展示基因数据比较
R语言绘制圈图、环形热图可视化基因组实战:展示基因数据比较
|
4天前
|
数据可视化 算法
R语言主成分分析(PCA)葡萄酒可视化:主成分得分散点图和载荷图
R语言主成分分析(PCA)葡萄酒可视化:主成分得分散点图和载荷图
|
4天前
|
机器学习/深度学习 数据可视化 算法
R语言高维数据的主成分pca、 t-SNE算法降维与可视化分析案例报告
R语言高维数据的主成分pca、 t-SNE算法降维与可视化分析案例报告