【数据挖掘】基于方格的聚类方法 ( 概念 | STING 方法 | CLIQUE 方法 )

简介: 【数据挖掘】基于方格的聚类方法 ( 概念 | STING 方法 | CLIQUE 方法 )

文章目录

I . 基于方格的聚类方法 简介

II . 基于方格的聚类方法 图示

III . STING 方法

IV . CLIQUE 方法



I . 基于方格的聚类方法 简介


1 . 基于方格的聚类方法 :



① 数据结构 划分 : 将 多维数据 空间 , 划分成一定数目的单元 ;


② 数据结构 操作 : 在上述 划分好的 数据单元 数据结构 上 , 进行聚类操作 ;



2 . 基于方格聚类方法 优缺点 :



① 优点速度快 : 聚类速度很快 , 其聚类速度 与 数据集样本个数无关 , 与划分的单元个数有关 ;


② 缺点准确率低 : 聚类的准确率会大大降低 , 划分的方格越大 , 准确率越低 , 但速度越快 ;



3 . 如 : 有 1 11 亿数据 , 如果按照样本数量进行聚类很慢 , 如果将其划分成 100 100100 个聚类 , 相当于划分成了 100 100100 个数据单元 , 其速度相当于 100 100100 个样本进行聚类 , 速度很快 ;




II . 基于方格的聚类方法 图示


如下图的二维空间 , 二维空间中分布着 100 100100 个点 , 将其划分成 9 99 个方格 , 然后对 9 99 个方格进行聚类 , 不再考虑对样本进行聚类了 ;



9 99 个方格 , 将每个方格当做一个 样本对象 , 进行聚类分组 ;


image.png




III . STING 方法


1 . STING 方法 简介 :



① 全称 : STING , Statistical Information Grid , 统计信息网格 , 是一种 多分辨率聚类技术 ;


② 划分方格 : 将数据空间 划分成矩形区域 ;


③ 划分分辨率 : 不同层次的 矩形方格 划分成的 数据单元 , 其分辨率不同 ;


④ 层次结构 : 这些 不同分辨率 的 数据单元 , 构成层次结构 , 如下示例 , 绿色的矩形 ( 数据单元 ) 中 , 包含紫色的 矩形 ( 数据单元 ) ;


image.png



2 . 单元统计 :



① 统计信息 : 每个单元 都有 数据统计信息 , 如 单元所有样本的 平均值 , 最大值 , 最小值 , 数据分布 等数据 ;


② 预先计算 : 统计信息需要预先计算出来 , 供之后的聚类操作使用 ;


③ 聚类分组 : 根据每个 数据单元 的统计信息 , 为 数据单元 进行 聚类分组 ;




IV . CLIQUE 方法


1 . CLIQUE 方法 : 是 基于密度 和 基于方法 结合后的算法 ;



① 划分 方格 : 将多维 数据集 样本 , 在 多维数据空间 中 , 划分成 互不相交 的矩形单元 , 这些单元之间互相不能覆盖 ;


② 密集单元 : 如果 某个 数据单元 的样本个数 大于 一个阈值 , 这个 数据单元 就是 密集单元 ;


③ 阈值 : 这个阈值一般是开始时 , 用户输入的参数 ;


④ 聚类 : 密集单元 相互连接 构成一个集合 , 就是一个聚类分组 ;



2 . CLIQUE 算法优点 :



① 性能高 : CLIQUE 算法可以 找出 具有 高密度 数据样本 对象所在的数据单元 ,


② 扩展性好 : 这些数据的 输入顺序 , 数据的分布 , 不会影响最终的数据分布 ;



3 . CLIQUE 算法缺点 : 聚类的准确度较低 :


目录
相关文章
|
SQL 数据可视化 算法
SQL Server聚类数据挖掘信用卡客户可视化分析
SQL Server聚类数据挖掘信用卡客户可视化分析
|
数据采集 资源调度 算法
【数据挖掘】十大算法之K-Means K均值聚类算法
K-Means聚类算法的基本介绍,包括算法步骤、损失函数、优缺点分析以及如何优化和改进算法的方法,还提到了几种改进的K-Means算法,如K-Means++和ISODATA算法。
1134 4
|
数据采集 自然语言处理 数据可视化
基于Python的社交媒体评论数据挖掘,使用LDA主题分析、文本聚类算法、情感分析实现
本文介绍了基于Python的社交媒体评论数据挖掘方法,使用LDA主题分析、文本聚类算法和情感分析技术,对数据进行深入分析和可视化,以揭示文本数据中的潜在主题、模式和情感倾向。
1516 0
|
存储 机器学习/深度学习 缓存
【数据挖掘】XGBoost面试题:与GBDT的区别?为什么使用泰勒二阶展开?为什么可以并行训练?为什么快?防止过拟合的方法?如何处理缺失值?
XGBoost与GBDT的区别、XGBoost使用泰勒二阶展开的原因、并行训练的原理、速度优势、防止过拟合的策略以及处理缺失值的方法,突出了XGBoost在提升模型性能和训练效率方面的一系列优化。
691 1
|
数据采集 自然语言处理 数据可视化
基于python数据挖掘在淘宝评价方面的应用与分析,技术包括kmeans聚类及情感分析、LDA主题分析
本文探讨了基于Python数据挖掘技术在淘宝评价分析中的应用,涵盖了数据采集、清洗、预处理、评论词频分析、情感分析、聚类分析以及LDA主题建模和可视化,旨在揭示淘宝客户评价中的潜在模式和情感倾向,为商家和消费者提供决策支持。
342 0
|
机器学习/深度学习 数据采集 搜索推荐
PYTHON用户流失数据挖掘:建立逻辑回归、XGBOOST、随机森林、决策树、支持向量机、朴素贝叶斯和KMEANS聚类用户画像
PYTHON用户流失数据挖掘:建立逻辑回归、XGBOOST、随机森林、决策树、支持向量机、朴素贝叶斯和KMEANS聚类用户画像
|
数据采集 机器学习/深度学习 存储
MATLAB用改进K-Means(K-均值)聚类算法数据挖掘高校学生的期末考试成绩
MATLAB用改进K-Means(K-均值)聚类算法数据挖掘高校学生的期末考试成绩
|
数据采集 算法 搜索推荐
数据挖掘实战:基于KMeans算法对超市客户进行聚类分群
数据挖掘实战:基于KMeans算法对超市客户进行聚类分群
2337 0

热门文章

最新文章