数据挖掘学习02 - 使用weka的kmeans聚类分析

简介:

本文目的

weka是一套使用java开发的数据挖掘工具集合,提供GUI/CLI界面和Java API使用方式。所以,在学习和解决数据挖掘问题时,可以先尝试用weka的GUI或CLI做出合适的分析,找到适当的算法,然后在将此算法集成到自己的项目中。最近在的项目中遇到了文本聚类的问题,kmeans是一种常见的聚类算法,这里先拿此算法和示例数据做一些实验,以便熟悉weka的界面操作。

 

什么是kmeans

详细的描述,参见这里。通俗的解释,就是将K个点,称为中心点(K需要预先给出),随机的放到数据集中,然后针对数据集中的每个点计算与这K个中心点的距离,找到每个点最近的中心点。然后更新这K个中心点,使每个中心点是最近的点的平均中心点。如此循环,直到这K个点的位置不能再移动,得到K个聚类。

 

数据集

weka定义了自己的数据集文件格式,以.arrf结尾,整体感觉就是一张表格,主要分为四个部分(如下图):

image

  1. 注释,comment
  2. 数据集名称,relation
  3. 属性,attribute,相当于列
  4. 数据,每行是一个实例,每一行中的每个字段用逗号隔开,字符串在引号中间,也可以是数字或枚举

 

获取并安装weka

到官网上获取weka,如果本机有jre,那么直接下载weka安装包,如果没有jre,又不想手动安装java,可以安装带有jre的weka,后者会比前者大。

获取后,直接双击,然后一步步OK,就行,最后会在桌面上生成小图标image

 

执行Kmeans聚类操作

双击小图标,弹出如下对话框,

image

选择“Explorer”,如果以后高级用户,可以选择最后的“Simple CLI”,直接命令行操作。

弹出如下对话框

image

这里,需要实验数据集,点击这里下载,然后点击“open file …”,导入刚刚下载的数据集,出现如下界面,说明导入OK。

image

现在,选取最上面的第三个tab“Cluster”,进入聚类分析主界面

image

点击“Choose”按钮,选择聚类算法。这里先选择了SimpleKMeans,单机“Choose”旁边的输入框,可以设置算法参数

image

这里需要将”numClusters”修改为一个合适的值,其他保留默认即可。

记下来,点击开始,weka就开会帮你算出结果,结果会以文件的方式存储在Result List中,方便后面分析。右边是计算结果。

 

结果可视化

image

Explorer主界面最上面最后一个tab是数据结果可视化,目前只能支持2纬可视化,所以个人觉得比较鸡肋,因为一般数据纬度都为大于2纬。

具体如何使用可视化,可以参见最后的链接。

 

以上就是利用weka进行kmeans聚类操作的过程。

 

参考资料


声明:如有转载本博文章,请注明出处。您的支持是我的动力!文章部分内容来自互联网,本人不负任何法律责任。

本文转自bourneli博客园博客,原文链接:http://www.cnblogs.com/bourneli/archive/2012/10/15/2725019.html,如需转载请自行联系原作者

相关文章
|
机器学习/深度学习 数据采集 算法
09 机器学习 - Kmeans聚类算法案例
09 机器学习 - Kmeans聚类算法案例
62 0
|
5月前
|
数据采集 资源调度 算法
【数据挖掘】十大算法之K-Means K均值聚类算法
K-Means聚类算法的基本介绍,包括算法步骤、损失函数、优缺点分析以及如何优化和改进算法的方法,还提到了几种改进的K-Means算法,如K-Means++和ISODATA算法。
197 4
|
8月前
|
机器学习/深度学习 存储 算法
分类算法(数据挖掘)
分类算法(数据挖掘)
|
8月前
|
算法 数据挖掘 大数据
探索数据挖掘中的特征选择算法
在数据挖掘领域,特征选择是一项至关重要的任务。本文将深入探讨几种常用的特征选择算法,并比较它们在不同数据集上的表现,旨在帮助数据分析师和研究人员更好地应用这些算法来提升模型性能。
|
8月前
|
机器学习/深度学习 算法 数据可视化
R语言中的聚类分析技术
【4月更文挑战第26天】R语言在聚类分析中扮演重要角色,提供层次聚类、K-均值、K-中心点、DBSCAN和高斯混合模型等多种方法。K-means通过最小化点到簇质心距离进行聚类,而K-medoids在`cluster`包的`pam`函数中实现,对异常值有较强鲁棒性。层次聚类利用`hclust`函数创建多层次结构,适合解释数据层次。`fpc`包的`dbscan`实现DBSCAN,能处理不均匀分布数据。聚类数量确定可借助轮廓系数、戴维斯-邦丁指数和肘部方法。`clvalid`包提供聚类验证,`ggplot2`用于结果可视化。R语言的聚类工具覆盖广泛,支持数据探索和理解。
87 0
|
算法 数据挖掘 BI
数据挖掘(5.1)--贝叶斯分类
贝叶斯方法是一种研究不确定性的推理方法,不确定性常用贝叶斯概率表示,它是一种主观概率,是个人主观的估计,随个人的主观认识的变化而变化
134 0
|
机器学习/深度学习 自然语言处理 算法
【机器学习项目实战10例】(八):基于KMeans、DBSCAN新闻聚类分群
【机器学习项目实战10例】(八):基于KMeans、DBSCAN新闻聚类分群
287 0
【机器学习项目实战10例】(八):基于KMeans、DBSCAN新闻聚类分群
|
机器学习/深度学习 算法 前端开发
机器学习:随机森林预测泰坦尼克数据
机器学习:随机森林预测泰坦尼克数据
178 0
|
数据挖掘 Java BI
用 WEKA 进行数据挖掘 (1)简介和回归
用 WEKA 进行数据挖掘 (1)简介和回归
2120 0
|
资源调度 数据挖掘 关系型数据库
应用统计学与R语言实现学习笔记(十)——聚类分析
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/ESA_DSQ/article/details/73554709 Chapter 10 Cluster Analysis 本篇是第十章,内容是聚类分析。
1219 0