聚类分析①

简介: 聚类(Clustering)是按照某个特定标准(如距离)把一个数据集分割成不同的类或簇,使得同一个簇内的数据对象的相似性尽可能大,同时不在同一个簇中的数据对象的差异性也尽可能地大。

1.1 聚类的定义

聚类(Clustering)是按照某个特定标准(如距离)把一个数据集分割成不同的类或簇,使得同一个簇内的数据对象的相似性尽可能大,同时不在同一个簇中的数据对象的差异性也尽可能地大。也即聚类后同一类的数据尽可能聚集到一起,不同类数据尽量分离。

1.2 聚类和分类的区别

聚类(Clustering):是指把相似的数据划分到一起,具体划分的时候并不关心这一类的标签,目标就是把相似的数据聚合到一起,聚类是一种无监督学习(Unsupervised Learning)方法。

分类(Classification):是把不同的数据划分开,其过程是通过训练数据集获得一个分类器,再通过分类器去预测未知数据,分类是一种监督学习(Supervised Learning)方法。

1.3 聚类的一般过程

数据准备:特征标准化和降维

特征选择:从最初的特征中选择最有效的特征,并将其存储在向量中

特征提取:通过对选择的特征进行转换形成新的突出特征

聚类:基于某种距离函数进行相似度度量,获取簇

聚类结果评估:分析聚类结果,如距离误差和(SSE)等

2、聚类方法

2345_image_file_copy_61.jpg

image.pngimage.png


目录
相关文章
|
5月前
|
存储 Android开发
如何查看Flutter应用在Android设备上已被撤销的权限?
如何查看Flutter应用在Android设备上已被撤销的权限?
269 64
|
6月前
|
SQL 存储 缓存
YashanDB SQL语言
YashanDB SQL语言
|
Java 关系型数据库 MySQL
Mybatis+MySQL动态分页查询数据经典案例
Mybatis+MySQL动态分页查询数据经典案例
Mybatis+MySQL动态分页查询数据经典案例
|
存储 Linux Shell
6.8 Linux sed(Linux三剑客之一)
sed 会根据脚本命令来处理文本文件中的数据,这些命令要么从命令行中输入,要么存储在一个文本文件中,此命令执行数据的顺序如下:
253 0
6.8 Linux sed(Linux三剑客之一)
|
Java
Java开发GUI之Label标签
Java开发GUI之Label标签
272 0
带你读《点石成金:访客至上的Web和移动可用性设计秘笈》之二:我们实际上是如何使用Web的
这是一本关于Web设计原则而不是Web设计技术的书。本书作者是Web设计专家,具有丰富的实践经验,他用幽默的语言为你揭示Web设计中重要但却容易被忽视的问题,只需几个小时,你便能对照书中讲授的设计原则找到网站设计的症结所在,令你的网站焕然一新。
|
Python
(3)Python字符串
     知识在于点滴积累
999 0