【数据挖掘】基于密度的聚类方法 - DBSCAN 方法 ( K-Means 方法缺陷 | 基于密度聚类原理及概念 | ε-邻域 | 核心对象 | 直接密度可达 | 密度可达 | 密度连接 )(二)

简介: 【数据挖掘】基于密度的聚类方法 - DBSCAN 方法 ( K-Means 方法缺陷 | 基于密度聚类原理及概念 | ε-邻域 | 核心对象 | 直接密度可达 | 密度可达 | 密度连接 )(二)

IV . 基于密度的聚类方法


1 . 基于密度的聚类方法 :



① 方法迭代原理 : 相邻区域的密度 , 即 单位空间内 数据样本 点的个数 , 超过用户定义的某个阈值 , 那么该区域需要进行聚类 , 如果低于某个阈值 , 聚类停止 , 算法终止 ;


② 聚类分组前提 : 如果想要将多个 数据样本 划分到一个聚类分组中 , 那么这些样本的分布必须达到一定的密度 , 即在某个范围大小区域内 , 该样本点必须达到一定的数目 ; 具体的数量个数 根据空间大小 , 和 密度计算出来 ;



2 . 示例 : 如 , 先定义好 , 如果进行聚类 , 必须在 1 × 1 1 \times 11×1 平面内至少有 16 1616 个样本 , 给定一个区域内的点 , 如果该区域的样本密度值大于 16 1616 , 就划分到一个聚类中 ; 如果该区域是 0.5 × 0.5 0.5\times 0.50.5×0.5 大小 , 那么只需要有 4 44 个就能进行聚类 , 如果这个区域是 2 × 2 2 \times 22×2 , 必须有 64 6464 个样本才能聚类成一组 ;



3 . 基于密度聚类好处 : 该方法可以排除 异常点 , 噪音数据 , 鲁棒性很好 ;



4 . 基于密度的聚类方法涉及到的参数 : 密度阈值 , 聚类区域范围 ;




V . 基于密度的聚类方法 DBSCAN 方法


DBSCAN 方法 :



① 全称 : Density Based Spatial Clustering of Application with Noise , 基于密度兼容噪音的空间聚类应用 算法 ;


② 聚类分组原理 : 数据样本 p pp 与 q qq 存在 密度连接 关系 , 那么 p pp 和 q qq 这两个样本应该划分到同一个聚类中 ;


③ 噪音识别原理 : 数据样本 n nn 与 任何样本 不存在 密度连接 关系 , 那么 n nn样本 就是噪音数据 ;




VI . ε \varepsilonε-邻域


1 . ε \varepsilonε-邻域 : 这是一个范围定义 , 给定一个数据样本对象 , 以该样本为中心 , 指定一个半径 ε \varepsilonε , 形成一个范围区域 , 组成了该样本的 ε \varepsilonε-邻域 ;



2 . ε \varepsilonε-邻域示例 : 如果是二维平面该范围区域是一个圆 , 如果是三维平该范围区域是一个球 ;



3 . ε \varepsilonε-邻域图示 : 下面的红点就是样本点 , 以红点为圆心 , 以 ε \varepsilonε 为半径的 浅绿色区域 , 就是 ε \varepsilonε-邻域 ;

image.png






VII . 核心对象


1 . 核心对象 : 在一个样本对象 C CC 的 ε \varepsilonε-邻域 中 , 有超过一定 阈值 ( 最小数量 ) 的 样本对象分布 , 那么该样本对象 C CC 就是核心对象 ;



2 . 核心对象 图示 : 如果该阈值 ( 最小数量 ) 设置成 5 55 , 那么该 ε \varepsilonε-邻域 中有 6 66 个点 , 超过了最小阈值 , 红色 的 中心点 数据样本 是 核心对象 ;


image.png



VIII . 直接密度可达


1 . 直接密度可达 : Directly Density Reachable ( DDR ) ;



① 概念 : 样本 p pp 是核心对象 ( 以 p pp 为中心 ε \varepsilonε-邻域 中超过阈值个数的样本 ) , 样本 q qq 在其 ε \varepsilonε-邻域 中 , 那么 称为 p pp 直接密度可达 q qq ; 注意方向 p → q p \rightarrow qp→q , 从 p pp 出发直接密度可达 q qq ;


② 直接密度可达有两个条件 : ① 起点必须是核心对象 , ② 终点必须在起点的 ε \varepsilonε-邻域 中 ;



2 . 直接密度可达的注意点 :



① 单向概念 : 注意该概念是单向的概念 , p pp 样本出发 , 可以 直接密度可达 q qq , 反过来是不行的 ; q qq 出发不一定能到 p pp ;


② 直接密度可达 起点 : 只有 核心对象 才有资格 发起密度可达 概念 , 不是核心对象 , 没有资格作为起点 ;


③ 直接密度可达 性质 : 如果 p pp 是核心对象 , 那么从 p pp 出发 , 可以直接密度可达其 ε \varepsilonε-邻域 中所有的样本点 ;


④ 如果 p pp 不是核心对象 , 那么没有直接密度可达的概念 ;



3 . 图示 : 红色点 p pp 是核心对象 , q qq 在其 ε \varepsilonε-邻域 中 , p pp 直接密度可达 q qq ;


image.png

目录
相关文章
|
6月前
|
编解码 算法 数据挖掘
【数据挖掘】聚类趋势估计、簇数确定、质量测定等评估方法详解(图文解释 超详细)
【数据挖掘】聚类趋势估计、簇数确定、质量测定等评估方法详解(图文解释 超详细)
155 0
|
6月前
|
SQL 数据可视化 算法
SQL Server聚类数据挖掘信用卡客户可视化分析
SQL Server聚类数据挖掘信用卡客户可视化分析
|
3月前
|
数据采集 资源调度 算法
【数据挖掘】十大算法之K-Means K均值聚类算法
K-Means聚类算法的基本介绍,包括算法步骤、损失函数、优缺点分析以及如何优化和改进算法的方法,还提到了几种改进的K-Means算法,如K-Means++和ISODATA算法。
109 4
|
3月前
|
数据采集 自然语言处理 数据可视化
基于Python的社交媒体评论数据挖掘,使用LDA主题分析、文本聚类算法、情感分析实现
本文介绍了基于Python的社交媒体评论数据挖掘方法,使用LDA主题分析、文本聚类算法和情感分析技术,对数据进行深入分析和可视化,以揭示文本数据中的潜在主题、模式和情感倾向。
133 0
|
3月前
|
存储 机器学习/深度学习 缓存
【数据挖掘】XGBoost面试题:与GBDT的区别?为什么使用泰勒二阶展开?为什么可以并行训练?为什么快?防止过拟合的方法?如何处理缺失值?
XGBoost与GBDT的区别、XGBoost使用泰勒二阶展开的原因、并行训练的原理、速度优势、防止过拟合的策略以及处理缺失值的方法,突出了XGBoost在提升模型性能和训练效率方面的一系列优化。
128 1
|
3月前
|
数据采集 自然语言处理 数据可视化
基于python数据挖掘在淘宝评价方面的应用与分析,技术包括kmeans聚类及情感分析、LDA主题分析
本文探讨了基于Python数据挖掘技术在淘宝评价分析中的应用,涵盖了数据采集、清洗、预处理、评论词频分析、情感分析、聚类分析以及LDA主题建模和可视化,旨在揭示淘宝客户评价中的潜在模式和情感倾向,为商家和消费者提供决策支持。
|
3月前
|
机器学习/深度学习 算法 数据挖掘
【数据挖掘】PCA 主成分分析算法过程及原理讲解
主成分分析(PCA)的原理和算法过程。
71 0
|
6月前
|
机器学习/深度学习 数据采集 搜索推荐
PYTHON用户流失数据挖掘:建立逻辑回归、XGBOOST、随机森林、决策树、支持向量机、朴素贝叶斯和KMEANS聚类用户画像
PYTHON用户流失数据挖掘:建立逻辑回归、XGBOOST、随机森林、决策树、支持向量机、朴素贝叶斯和KMEANS聚类用户画像
|
6月前
|
数据采集 机器学习/深度学习 存储
MATLAB用改进K-Means(K-均值)聚类算法数据挖掘高校学生的期末考试成绩
MATLAB用改进K-Means(K-均值)聚类算法数据挖掘高校学生的期末考试成绩
|
6月前
|
数据采集 算法 搜索推荐
数据挖掘实战:基于KMeans算法对超市客户进行聚类分群
数据挖掘实战:基于KMeans算法对超市客户进行聚类分群
711 0