数据挖掘学习05 - 使用R对文本进行hierarchical cluster并验证结果-阿里云开发者社区

数据挖掘学习05 - 使用R对文本进行hierarchical cluster并验证结果

2017-10-18 1338

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

本文目的

最近一直在使用R进行hcluster计算，主要采用了一些R自带的距离公式和cophenetic距离验证聚类的质量。其中R自带的hclust方法不支持cosine函数，如果需要下载R的扩展，要下载许多关联的库，所以自己编写了一个简单的cosine函数，并且使用了R的proxy扩展（距离计算框架），计算向量距离。内容涉及比较多，所以记录一下，作为备忘。

采用R计算hclust

步骤一：准备数据。采用read.table函数，读取外部文件，实验文件这里下载。

 
         cd 
         = 
         read
         .table(
         "d:/cluster_data.txt"
         , header = TRUE); 
        
         attributes(
         cd
         );

截图如下：

cd是一个特征举证，每一行是文档的id和此文档的特征向量，代表一个文本，列代表的是词语，这里用wN代替。

步骤二：计算文本之间的距离矩阵。距离矩阵用作度量聚类之间的相近程度。常用的距离公式有欧式距离，manhattan距离。计算方法如下：

 
         cds = dist(
         cd
         , method=
         "euclidean"
         ) 
        
         attributes(cds)

截图如下：

步骤三：计算层级聚类。常用的聚类方式有三种，single,complete和average。

single: 两个聚类之间最近的点作为聚类的距离
complete：两个聚类之间最远的点作为聚类的距离
average:将聚类中的所有向量之和的平局向量作为聚类中心点，中心点最近的聚合成一类。

averge聚类的效果介于single和complte之间，如下面命令，

 
         cave = hclust(cds, method=
         "average"
         ) 
        
         plot(cave,hang=-1)

下面聚类后的依赖树：

步骤四：验证聚类。层级聚类采用cophenetic distance用于度量聚类的效果（具体什么是cophenetic disctance可以参见Introduction to Data Mining by Pang-Ning Tan & Michael Steinbach & Vipin Kumar: Chapter 8.5.4）。R提供了此函数的实现，所以可以直接调用cophenetic函数验证结果，此函数值是介于-1~1之间，越大，说明聚类效果越好。命令如下，

 
         cop = cophenetic(cave) 
        
         cor(cop, cds)

结果如下：

采用余弦定理cosine计算文本之间的距离

余弦定理可以计算文本向量的相似度，吴军先生的数学之美系列描述过此应用。但是，上面提到的dist方法不知此余弦公式。尝试过使用其他扩展中的相关实现，但是无法直接使用。最后找到一个解决方案，使用R扩展库proxy提供的dist计算框架，然后加入加入自己的cosine的简单实现，如果添加R扩展，可以参见这里。自定义cosine函数如下：

 
         cosine = 
         function
         (a,b) {  
        
         len = (sqrt(a %*% a)*sqrt(b %*% b));  
        
         if 
         (len == 0) {  
        
         0;  
        
         } 
         else 
         {  
        
         (a %*% b)
         /len
         ;  
        
         }  
        
         }

（是不是写法有点像JS）

定义好cosine后，加载proxy库，

 
         library(proxy)

计算距离方法与上面一样，只是method的值为cosine，如下

 
         cds = dist(t,method=
         "cosine"
         )

注意，一定要加引号，否则调用的是sine。计算聚类的方式与上面一样，这里不再重复。

所有距离方法和聚类方法的测试脚本

 
         disFunc = c(
         "euclidean"
         , 
         "maximum"
         , 
         "manhattan" 
         , 
         "canberra"
         , 
         "binary"
         , 
         "minkowski"
         );  
        
         #disFunc = c("euclidean", "cosine");  
        
         cluFunc = c(
         "complete"
         ,     
         "single"
         , 
         "average"
         , 
         "ward"
         , 
         "mcquitty"
         , 
         "median"
         , 
         "centroid"
         );  
        
         qc = 
         read
         .table(
         "d:/cluster_data.txt"
         , header = TRUE);  
        
         for 
         (dis 
         in 
         disFunc) {  
        
         for 
         (clu 
         in 
         cluFunc) {  
        
         qcDis = dist(qc, method=dis);  
        
         c = hclust(qcDis, method=clu);  
        
         cop = cophenetic(c);  
        
         r = cor(cop,qcDis);  
        
         print(
         paste
         (dis, clu, r, sep=
         " "
         ));  
        
         }  
        
         }

运行结果如下：

实验总结

实验过程中，发现距离公司相同的情况下，average的评测结果一般是最好的。不同距离公式的同一种聚类方式没有比较意义，比如即使euclidean的average方式比manhattan的average的验证结果低，但是并不意味前者的聚类结果比后者差，因为聚类评测都是根据统一中方法的距离公司计算相关系数，所以没有比较性。

相关资料

proxy框架与自定义距离函数: http://stackoverflow.com/questions/7482797/how-to-specify-other-method-for-dist-function-in-r
Cluster Analysis : Toturial with R: http://cc.oulu.fi/~jarioksa/opetus/metodi/sessio3.pdf
Introduction to Data Mining by Pang-Ning Tan & Michael Steinbach & Vipin Kumar: Chapter 8.5.4
数学之美十二余弦定理和新闻分类： http://www.google.com.hk/ggblog/googlechinablog/2006/07/12_4010.html

声明：如有转载本博文章，请注明出处。您的支持是我的动力！文章部分内容来自互联网，本人不负任何法律责任。

分类: 数据分析&挖掘

本文转自bourneli博客园博客，原文链接：http://www.cnblogs.com/bourneli/archive/2012/10/30/2746996.html，如需转载请自行联系原作者

数据挖掘学习05 - 使用R对文本进行hierarchical cluster并验证结果

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

数据挖掘学习05 - 使用R对文本进行hierarchical cluster并验证结果

热门文章

最新文章

相关课程

相关电子书

相关实验场景