SAS用K-Means 聚类最优k值的选取和分析

简介: SAS用K-Means 聚类最优k值的选取和分析

什么是聚类?

聚类是将数据集分为几组的过程,其中包括相似的数据点”。聚类是一种无监督的机器学习,在您拥有未标记的数据时使用。

比如:

坐在餐馆的用餐者。假设餐厅中有两个桌子。桌子1中的人可能彼此相关,可能是一组家庭成员或同事。

类似的,桌子2中的人可能彼此相关。但是,当比较坐在两个桌子的人时,他们是完全不同的,可能根本没有关联。

聚类也以相同的方式工作。一个聚类中的数据点与另一聚类中的数据点完全不同。同一聚类中的所有点都相同或彼此相关。

聚类具有不同的算法。最受欢迎的是K-均值聚类。

 

什么是K均值聚类?

K-Means是一种聚类算法,其主要目标是将相似的元素或数据点分组为一个聚类。 K-均值中的“ K”代表簇数。

距离量度将确定两个元素之间的相似性,并将影响簇的形状。通常,欧几里得距离将用于K-Means聚类

欧几里得距离是“普通”直线。它是欧氏空间中两点之间的距离。

 

K-Means算法如何工作?

输入:样本集D,簇的数目k,最大迭代次数N;

输出:簇划分(k个簇,使平方误差最小);

算法步骤:

(1)为每个聚类选择一个初始聚类中心;

(2)将样本集按照最小距离原则分配到最邻近聚类;

(3)使用每个聚类的样本均值更新聚类中心;

(4)重复步骤(2)、(3),直到聚类中心不再发生变化;

(5)输出最终的聚类中心和k个簇划分;

 

SAS中的K-均值聚类

让我们来看一个著名的IRIS数据集。使用proc检查数据集



/* 检查数据内容 */
proc means data=work.iris N Nmiss mean median max min;
run;

它具有150个观测值和5个变量。未检测到缺失值或离群值。我们将仅使用四个变量,即sepal_length,sepal_width,petal_length和petal_width。数据集以“ cm”为单位。可以删除“目标”变量,因为它是类别变量。

关于鸢尾花数据集的简短介绍。这是一个多变量数据集,由英国统计学家 、 生物学家 罗纳德·费舍尔(Ronald Fisher) 在1936年为他的研究论文引入 。

 在分析数据集之前了解数据。



/* 删除目标列将新数据保存为IRIS1 */


drop target;
run;

在运行聚类分析之前,我们需要将所有分析变量(实数变量)标准化为均值零和标准偏差为1(转换为z分数)。在这里,我们的数据集已经标准化。




/* 聚类分析 */
method = centroid ccc print=15 outtree=Tree;

METHOD => 确定过程使用的聚类方法。在这里,我们使用CENTROID方法。

CCC 是聚类标准—它有助于找出最佳的聚类点。

 

需要找出最佳聚类簇。

前三个特征值约占总方差的99.48%,因此,建议使用三个聚类。但是,可以在ccc图中对其进行交叉验证。

 

 

从图中看到,聚类标准有15个值(如我们在代码输出中给出的= 15)

 

 

从上面的CCC图可以看出,肘部下降在3个聚类。因此,最佳群集将为3。  

为了将150个观测值中的每个观测值分类为三个聚类,我们可以使用proc树。ncl = 3(我们的最佳簇为3)。



/* 保留 3个聚类   */
proc tree noprint ncl=3 out=

 

150个观察结果分为三类。

使用proc candisc和proc sgplot创建散点图



/*生成散点图 */


proc sgplot data = can;
title "

 

我们可以看到,分析清楚地将三个聚类簇分开。聚类簇1为蓝色, 2为红色, 3为绿色。

K-均值聚类的优缺点

优点:

1)即使违背有些假设,也能很好地工作。

2)简单,易于实现。

3)易于解释聚类结果。

4)在计算成本方面快速高效。

缺点:

1)即使输入数据具有不同的簇大小,均匀效果使得结果经常会产生大小相对一致的簇。

2)不同密度的数据可能不适用于聚类。

3)对异常值敏感。

4)在K均值聚类之前需要知道K值。

 


相关文章
|
算法 开发工具 git
时间紧任务急,如何在LeetCode刷题
很多公司都会面试算法题,然而很多小伙伴平时工作很忙,没有时间或没有养成刷题的习惯,面试准备周期时间也很紧张,没办法刷完LeetCode,往往慌慌张张刷了一些题,然而其实效果也不好。 当然这里还是建议大家平时多看看算法题,毕竟程序=数据结构+算法,对你以后的编程工作来说是大有好处的。
时间紧任务急,如何在LeetCode刷题
|
6月前
|
监控
货拉拉抢单开挂的软件,自动接单抢单辅助脚本插件,autojs加速器版
这个示例展示了AutoJS的基本UI构建、事件处理和模拟逻辑。实际实现需要针对货拉拉司机端APP的具体界面元素进行适配
|
4月前
|
机器学习/深度学习 算法
基于自抗扰控制ADRC的永磁同步电机仿真模型(Simulink仿真实现)
基于自抗扰控制ADRC的永磁同步电机仿真模型(Simulink仿真实现)
338 1
|
机器学习/深度学习 算法 数据挖掘
【机器学习】在使用K-means聚类算法时,如何选择K的值?
【5月更文挑战第11天】【机器学习】在使用K-means聚类算法时,如何选择K的值?
|
8月前
|
算法 Go
【LeetCode 热题100】23:合并 K 个升序链表(详细解析)(Go语言版)
本文详细解析了 LeetCode 热题 23——合并 K 个升序链表的两种解法:优先队列(最小堆)和分治合并。题目要求将多个已排序链表合并为一个升序链表。最小堆方法通过维护节点优先级快速选择最小值,;分治合并则采用归并思想两两合并链表。文章提供了 Go 语言实现代码,并对比分析两种方法的适用场景,帮助读者深入理解链表操作与算法设计。
284 10
|
数据采集 算法 数据可视化
基于Python的k-means聚类分析算法的实现与应用,可以用在电商评论、招聘信息等各个领域的文本聚类及指标聚类,效果很好
本文介绍了基于Python实现的k-means聚类分析算法,并通过微博考研话题的数据清洗、聚类数量评估、聚类分析实现与结果可视化等步骤,展示了该算法在文本聚类领域的应用效果。
620 1
|
NoSQL 关系型数据库 MySQL
AWS Database Migration Service 助力数据库搬迁
AWS Database Migration Service 助力数据库搬迁
|
机器学习/深度学习 存储 人工智能
【机器学习】GBDT (Gradient Boosting Decision Tree) 深入解析
GBDT,全称为Gradient Boosting Decision Tree,即梯度提升决策树,是机器学习领域中一种高效且强大的集成学习方法。它通过迭代地添加决策树以逐步降低预测误差,从而在各种任务中,尤其是回归和分类问题上表现出色。本文将深入浅出地介绍GBDT的基本原理、算法流程、关键参数调整策略以及其在实际应用中的表现与优化技巧。
3925 2
|
存储 数据采集 API
LabVIEW与Python资源
LabVIEW与Python资源
314 1
|
程序员 Python
【Python】已解决:SyntaxError: expression cannot contain assignment, perhaps you meant “==“?
【Python】已解决:SyntaxError: expression cannot contain assignment, perhaps you meant “==“?
456 0