【数据挖掘】聚类算法 简介 ( 基于划分的聚类方法 | 基于层次的聚类方法 | 基于密度的聚类方法 | 基于方格的聚类方法 | 基于模型的聚类方法 )(一)

简介: 【数据挖掘】聚类算法 简介 ( 基于划分的聚类方法 | 基于层次的聚类方法 | 基于密度的聚类方法 | 基于方格的聚类方法 | 基于模型的聚类方法 )(一)

I . 聚类主要算法


聚类主要算法 :



① 基于划分的聚类方法 : K-Means 方法 ;


② 基于层次的聚类方法 : Birch ;


③ 基于密度的聚类方法 : DBSCAN ( Density-Based Spatial Clustering of Applications with Noise ) ;


④ 基于方格的方法 ;


⑤ 基于模型的方法 : GMM 高斯混合模型 ;




II . 基于划分的聚类方法


基于划分的方法 简介 : 基于划分的方法 , 又叫基于距离的方法 , 基于相似度的方法 ;



① 概念 : 给定 n nn 个数据样本 , 使用划分方法 , 将数据构建成 k kk 个划分 ( k ≤ n ) (k \leq n)(k≤n) , 每个划分代表一个聚类 ;


② 分组 : 将数据集 分成 k kk 组 , 每个分组至少要有一个样本 ;


③ 分组与样本 对应关系 : 每个分组有 1 11 个或多个样本对象 ( 1 11 对多 ) , 每个对象同时只能在 1 11 个分组中 ( 1 11 对 1 11 ) ;


④ 硬聚类 与 软聚类 : 每个数据对象只能属于一个组 , 这种分组称为硬聚类 ; 软聚类每个对象可以属于不同的组 ;




III . 基于层次的聚类方法


1 . 基于层次的聚类方法 概念 : 将数 据集样本对象 排列成 树结构 , 称为 聚类树 , 在指定的层次 ( 步骤 ) 上切割数据集样本 , 切割后时刻的 聚类分组 就是 聚类算法的 聚类结果 ;



2 . 基于层次的聚类方法 : 一棵树可以从叶子节点到根节点 , 也可以从根节点到叶子节点 , 基于这两种顺序 , 衍生出两种方法分支 , 分别是 : 聚合层次聚类 , 划分层次聚类 ;



3 . 聚合层次聚类 ( 叶子节点到根节点 ) : 开始时 , 每个样本对象自己就是一个聚类 , 称为 原子聚类 , 然后根据这些样本之间的 相似性 , 将这些样本对象 ( 原子聚类 ) 进行 合并 ;


常用的聚类算法 : 大多数的基于层次聚类的方法 , 都是 聚合层次聚类 类型的 ; 这些方法从叶子节点到根节点 , 逐步合并的原理相同 ; 区别只是聚类间的相似性计算方式不同 ;



4 . 划分层次聚类 ( 根节点到叶子节点 ) : 开始时 , 整个数据集的样本在一个总的聚类中 , 然后根据样本之间的相似性 , 不停的切割 , 直到完成要求的聚类操作 ;



5 . 算法性能 : 基于层次的聚类方法的时间复杂度为 O ( N 2 ) O(N^2)O(N

2

) , 如果处理的样本数量较大 , 性能存在瓶颈 ;




IV . 聚合层次聚类 图示


1 . 聚合层次聚类 图示 :


image.png


① 初始状态 : 最左侧 五个 数据对象 , 每个都是一个聚类 ;


② 第一步 : 分析相似度 , 发现 a , b a , ba,b 相似度很高 , 将 { a , b } \{a ,b\}{a,b} 分到一个聚类中 ;


③ 第二步 : 分析相似度 , 发现 d , e d, ed,e 相似度很高 , 将 { d , e } \{d, e\}{d,e} 分到一个聚类中 ;


④ 第三步 : 分析相似度 , 发现 c cc 与 d , e d,ed,e 相似度很高 , 将 c cc 数据放入 { d , e } \{d, e\}{d,e} 聚类中 , 组成 { c , d , e } \{c,d, e\}{c,d,e} 聚类 ;


⑤ 第四步 : 分析相似度 , 此时要求的相似度很低就可以将不同的样本进行聚类 , 将前几步生成的两个聚类 , 合并成一个聚类 { a , b , c , d , e } \{a, b, c, d, e\}{a,b,c,d,e} ;



2 . 切割点说明 : 实际进行聚类分析时 , 不会将所有的步骤走完 , 这里提供四个切割点 , 聚类算法进行聚类时 , 可以在任何一个切割点停止 , 使用当前的聚类分组当做聚类结果 ;



① 切割点 1 11 : 在切割点 1 11 停止 , 会得到 5 55 个聚类分组 , { a } \{a\}{a} , { b } \{b\}{b}, { c } \{c\}{c}, { d } \{d\}{d} , { e } \{e\}{e} ;


② 切割点 2 22 : 在切割点 2 22 停止 , 会得到 4 44 个聚类分组 , { a , b } \{a, b\}{a,b} , { c } \{c\}{c}, { d } \{d\}{d} , { e } \{e\}{e} ;


③ 切割点 3 33 : 在切割点 3 33 停止 , 会得到 3 33 个聚类分组 , { a , b } \{a, b\}{a,b} , { c } \{c\}{c}, { d , e } \{d, e\}{d,e} ;


④ 切割点 4 44 : 在切割点 4 44 停止 , 会得到 2 22 个聚类分组 ; { a , b } \{a, b\}{a,b} , { c , d , e } \{c, d, e\}{c,d,e} ;


⑤ 走完整个流程 : 会得到 1 11 个聚类分组 , { a , b , c , d , e } \{a, b ,c, d, e\}{a,b,c,d,e} ;




V . 划分层次聚类 图示


1 . 划分层次聚类 图示 :

image.png




① 初始状态 : 最左侧 五个 数据对象 , 属于一个聚类 ;


② 第一步 : 分析相似度 , 切割聚类 , 将 { c , d , e } \{c,d, e\}{c,d,e} 与 { a , b } \{a ,b\}{a,b} 划分成两个聚类 ;


③ 第二步 : 分析相似度 , 将 { c , d , e } \{c,d, e\}{c,d,e} 中的 { c } \{c\}{c} 与 { d , e } \{d, e\}{d,e} 划分成两个聚类 ;


④ 第三步 : 分析相似度 , 将 { d , e } \{d, e\}{d,e} 拆分成 { d } \{d\}{d} 和 { e } \{e\}{e} 两个聚类 ;


⑤ 第四步 : 分析相似度 , 将 { a , b } \{a ,b\}{a,b} 拆分成 { a } \{a\}{a} 和 { b } \{b\}{b} 两个聚类 , 至此所有的数据对象都划分成了单独的聚类 ;



2 . 切割点说明 : 实际进行聚类分析时 , 不会将所有的步骤走完 , 这里提供四个切割点 , 聚类算法进行聚类时 , 可以在任何一个切割点停止 , 使用当前的聚类分组当做聚类结果 ;



① 切割点 1 11 : 在切割点 1 11 停止 , 会得到 1 11 个聚类分组 , { a , b , c , d , e } \{a, b ,c, d, e\}{a,b,c,d,e} ;


② 切割点 2 22 : 在切割点 2 22 停止 , 会得到 2 22 个聚类分组 ; { a , b } \{a, b\}{a,b} , { c , d , e } \{c, d, e\}{c,d,e} ;


③ 切割点 3 33 : 在切割点 3 33 停止 , 会得到 3 33 个聚类分组 , { a , b } \{a, b\}{a,b} , { c } \{c\}{c}, { d , e } \{d, e\}{d,e}$ ;


④ 切割点 4 44 : 在切割点 4 44 停止 , 会得到 4 44 个聚类分组 , { a , b } \{a, b\}{a,b} , { c } \{c\}{c}, { d } \{d\}{d} , { e } \{e\}{e} ;


⑤ 走完整个流程 : 会得到 5 55 个聚类分组 , { a } \{a\}{a} , { b } \{b\}{b}, { c } \{c\}{c}, { d } \{d\}{d} , { e } \{e\}{e} ;



目录
相关文章
|
8月前
|
存储 编解码 算法
【多光谱滤波器阵列设计的最优球体填充】使用MSFA设计方法进行各种重建算法时,图像质量可以提高至多2 dB,并在光谱相似性方面实现了显著提升(Matlab代码实现)
【多光谱滤波器阵列设计的最优球体填充】使用MSFA设计方法进行各种重建算法时,图像质量可以提高至多2 dB,并在光谱相似性方面实现了显著提升(Matlab代码实现)
243 6
|
8月前
|
机器学习/深度学习 算法 调度
14种智能算法优化BP神经网络(14种方法)实现数据预测分类研究(Matlab代码实现)
14种智能算法优化BP神经网络(14种方法)实现数据预测分类研究(Matlab代码实现)
578 0
|
9月前
|
机器学习/深度学习 数据采集 传感器
具有多种最大功率点跟踪(MPPT)方法的光伏发电系统(P&O-增量法-人工神经网络-模糊逻辑控制-粒子群优化)之使用粒子群算法的最大功率点追踪(MPPT)(Simulink仿真实现)
具有多种最大功率点跟踪(MPPT)方法的光伏发电系统(P&O-增量法-人工神经网络-模糊逻辑控制-粒子群优化)之使用粒子群算法的最大功率点追踪(MPPT)(Simulink仿真实现)
582 0
|
8月前
|
机器学习/深度学习 人工智能 JSON
微软rStar2-Agent:新的GRPO-RoC算法让14B模型在复杂推理时超越了前沿大模型
Microsoft Research最新推出的rStar2-Agent在AIME24数学基准测试中以80.6%的准确率超越超大规模模型DeepSeek-R1,展现“思考更聪明”而非“更长”的AI推理新方向。
308 8
微软rStar2-Agent:新的GRPO-RoC算法让14B模型在复杂推理时超越了前沿大模型
|
7月前
|
机器学习/深度学习 算法 数据可视化
基于MVO多元宇宙优化的DBSCAN聚类算法matlab仿真
本程序基于MATLAB实现MVO优化的DBSCAN聚类算法,通过多元宇宙优化自动搜索最优参数Eps与MinPts,提升聚类精度。对比传统DBSCAN,MVO-DBSCAN有效克服参数依赖问题,适应复杂数据分布,增强鲁棒性,适用于非均匀密度数据集的高效聚类分析。
|
8月前
|
机器学习/深度学习 传感器 算法
【无人车路径跟踪】基于神经网络的数据驱动迭代学习控制(ILC)算法,用于具有未知模型和重复任务的非线性单输入单输出(SISO)离散时间系统的无人车的路径跟踪(Matlab代码实现)
【无人车路径跟踪】基于神经网络的数据驱动迭代学习控制(ILC)算法,用于具有未知模型和重复任务的非线性单输入单输出(SISO)离散时间系统的无人车的路径跟踪(Matlab代码实现)
514 2
|
8月前
|
机器学习/深度学习 并行计算 算法
【CPOBP-NSWOA】基于豪冠猪优化BP神经网络模型的多目标鲸鱼寻优算法研究(Matlab代码实现)
【CPOBP-NSWOA】基于豪冠猪优化BP神经网络模型的多目标鲸鱼寻优算法研究(Matlab代码实现)
185 8
|
8月前
|
机器学习/深度学习 资源调度 算法
遗传算法模型深度解析与实战应用
摘要 遗传算法(GA)作为一种受生物进化启发的优化算法,在复杂问题求解中展现出独特优势。本文系统介绍了GA的核心理论、实现细节和应用经验。算法通过模拟自然选择机制,利用选择、交叉、变异三大操作在解空间中进行全局搜索。与梯度下降等传统方法相比,GA不依赖目标函数的连续性或可微性,特别适合处理离散优化、多目标优化等复杂问题。文中详细阐述了染色体编码、适应度函数设计、遗传操作实现等关键技术,并提供了Python代码实现示例。实践表明,GA的成功应用关键在于平衡探索与开发,通过精心调参维持种群多样性同时确保收敛效率
|
7月前
|
机器学习/深度学习 数据采集 负载均衡
结合多种启发式解码方法的混合多目标进化算法,用于解决带工人约束的混合流水车间调度问题(Matlab代码实现)
结合多种启发式解码方法的混合多目标进化算法,用于解决带工人约束的混合流水车间调度问题(Matlab代码实现)
337 0
|
8月前
|
机器学习/深度学习 边缘计算 人工智能
粒子群算法模型深度解析与实战应用
蒋星熠Jaxonic是一位深耕智能优化算法领域多年的技术探索者,专注于粒子群优化(PSO)算法的研究与应用。他深入剖析了PSO的数学模型、核心公式及实现方法,并通过大量实践验证了其在神经网络优化、工程设计等复杂问题上的卓越性能。本文全面展示了PSO的理论基础、改进策略与前沿发展方向,为读者提供了一份详尽的技术指南。
粒子群算法模型深度解析与实战应用

热门文章

最新文章