【数据挖掘】基于密度的聚类方法 - DBSCAN 方法 ( K-Means 方法缺陷 | 基于密度聚类原理及概念 | ε-邻域 | 核心对象 | 直接密度可达 | 密度可达 | 密度连接 )(一)

简介: 【数据挖掘】基于密度的聚类方法 - DBSCAN 方法 ( K-Means 方法缺陷 | 基于密度聚类原理及概念 | ε-邻域 | 核心对象 | 直接密度可达 | 密度可达 | 密度连接 )(一)

I . K-Means 算法在实际应用中的缺陷


1 . K-Means 算法中中心点选择是随机的 : 随机地选择聚类分组的中心点 ;



① 选择实点 : 可以选择实点 ( 当前现有的样本值 ) 作为聚类中心点 ;


② 生成虚点 : 也可以选择生成虚点 ( 任意位置模拟出一个样本点 ) 作为中心点 ;



2 . 必须事先设置聚类分组个数 K KK 值 : 开始的时候并不知道将数据集分成几组能达到最佳的分组效果 ;



① 学习出 K KK 值 : 使用其它聚类方法 , 先将数据集学习一遍 , 确定聚类分组个数 ;


② 多次聚类 : 选取不同的 K KK 聚类分组个数 , 然后看取什么值可以达到最好的聚类分组效果 ;



3 . 最佳实践 : 运行多次 K-Means 方法 , 选取不同的 K KK 值 , 以及不同的聚类分组个数 ;




II . K-Means 初始中心点选择不恰当


下面的数据集 , 如果使用肉眼观察 , 选择的中心点是如下绿色的点 , 但是如果随机选择中心点 , 加入选择的很差 , 如下图中的红色点作为中心点 , 那么迭代之后的聚类分组如下图所示 , 明显该聚类分组不是最佳分组 ;



① 肉眼观察 3-NN 聚类分组 比较合适的中心点距离 :




② 随机选择中心点后的聚类分组 : 这是随机选择的分组 , 显然这不是最佳分组 ;

image.png



选择的初始的中心点太垃圾 , 会导致多次迭代 , 即使算法收敛 , 多次迭代计算的聚类分组不再改变 , 得到结果也可能是不准确的 ;



这是基于距离 ( 划分 ) 的聚类方法的固有缺陷 ;




III . K-Means 优点 与 弊端


1 . K-Means 好处是 : 简单 , 容易理解 , 性能较高 , 能很快计算出聚类结果 ;



2 . K-Means 弊端 : 只能找出球形的聚类分组 , 对异常点 和 噪音 非常敏感 , 如果有一个异常点 , 就会导致聚类分组不准确 , 鲁棒性差 ;



3 . K-Means 无法处理的情况 : 如下面的聚类 , 将不同形状的样本分开 , 需要识别出凹形的模式 , K-Means 无法完成该聚类操作 ;


image.png


目录
相关文章
|
6月前
|
编解码 算法 数据挖掘
【数据挖掘】聚类趋势估计、簇数确定、质量测定等评估方法详解(图文解释 超详细)
【数据挖掘】聚类趋势估计、簇数确定、质量测定等评估方法详解(图文解释 超详细)
170 0
|
6月前
|
SQL 数据可视化 算法
SQL Server聚类数据挖掘信用卡客户可视化分析
SQL Server聚类数据挖掘信用卡客户可视化分析
|
3月前
|
数据采集 资源调度 算法
【数据挖掘】十大算法之K-Means K均值聚类算法
K-Means聚类算法的基本介绍,包括算法步骤、损失函数、优缺点分析以及如何优化和改进算法的方法,还提到了几种改进的K-Means算法,如K-Means++和ISODATA算法。
113 4
|
3月前
|
数据采集 自然语言处理 数据可视化
基于Python的社交媒体评论数据挖掘,使用LDA主题分析、文本聚类算法、情感分析实现
本文介绍了基于Python的社交媒体评论数据挖掘方法,使用LDA主题分析、文本聚类算法和情感分析技术,对数据进行深入分析和可视化,以揭示文本数据中的潜在主题、模式和情感倾向。
171 0
|
3月前
|
存储 机器学习/深度学习 缓存
【数据挖掘】XGBoost面试题:与GBDT的区别?为什么使用泰勒二阶展开?为什么可以并行训练?为什么快?防止过拟合的方法?如何处理缺失值?
XGBoost与GBDT的区别、XGBoost使用泰勒二阶展开的原因、并行训练的原理、速度优势、防止过拟合的策略以及处理缺失值的方法,突出了XGBoost在提升模型性能和训练效率方面的一系列优化。
144 1
|
3月前
|
数据采集 自然语言处理 数据可视化
基于python数据挖掘在淘宝评价方面的应用与分析,技术包括kmeans聚类及情感分析、LDA主题分析
本文探讨了基于Python数据挖掘技术在淘宝评价分析中的应用,涵盖了数据采集、清洗、预处理、评论词频分析、情感分析、聚类分析以及LDA主题建模和可视化,旨在揭示淘宝客户评价中的潜在模式和情感倾向,为商家和消费者提供决策支持。
|
3月前
|
机器学习/深度学习 算法 数据挖掘
【数据挖掘】PCA 主成分分析算法过程及原理讲解
主成分分析(PCA)的原理和算法过程。
77 0
|
6月前
|
机器学习/深度学习 数据采集 搜索推荐
PYTHON用户流失数据挖掘:建立逻辑回归、XGBOOST、随机森林、决策树、支持向量机、朴素贝叶斯和KMEANS聚类用户画像
PYTHON用户流失数据挖掘:建立逻辑回归、XGBOOST、随机森林、决策树、支持向量机、朴素贝叶斯和KMEANS聚类用户画像
|
6月前
|
数据采集 机器学习/深度学习 存储
MATLAB用改进K-Means(K-均值)聚类算法数据挖掘高校学生的期末考试成绩
MATLAB用改进K-Means(K-均值)聚类算法数据挖掘高校学生的期末考试成绩
|
6月前
|
数据采集 算法 搜索推荐
数据挖掘实战:基于KMeans算法对超市客户进行聚类分群
数据挖掘实战:基于KMeans算法对超市客户进行聚类分群
763 0

热门文章

最新文章