【Science】颠覆三观的超强聚类算法

简介: 【Science】颠覆三观的超强聚类算法

 这篇文章是自己在上大数据分析课程时老师推荐的一篇文章,当时自己听着也是对原作者当年的的思路新奇非常敬佩,相信很多伙伴也会非常感兴趣,就来做个分享吧。原论文于2014年发表于Science期刊杂志上。

  • 论文题目:Clustering by fast search and find of density peaks

所解决的问题?

  作者提出了一种更加强大的聚类算法,其对参数的依赖更少,泛化能力更强。集成了k-meansDBSCAN算法的思想。

背景

  在研究问题前,我们先做综述算法分析,看看研究进展,还有未研究问题,需要归纳总结,从实际问题,不同门类的研究问题,发现共性问题。这是科研的基本素养。作者正是基于规划总结各类聚类算法得出一种更强的聚类算法。

  如今已有很多聚类的方法,但是这些聚类方法针对很多衡量方式都没有达成一致,也就是缺少一种通用的方式,或者说generalization不够。k-means是完全聚类,无法分辨噪声。K参数选择也比较困难,对于非凸形状也无法处理。DBSCAN可以聚类任意形状,但是找一个恰当的minpoint也比较玄学,并且对ε \varepsilonε参数敏感。

所采用的方法?

  聚类的中心点会有什么特征呢?作者提出了两点直观的理解,之后对其量化建模:

  1. Cluster centers are surrounded by neighbors with lower local density。(聚类的中心周围都是比它密度低的点)。也就是说聚类中心周围密度较低,中心密度较高。
  2. They are a relatively large distance from any points with a higher local density。(聚类中心点与其它密度更高的点之间通常都距离较远)。

  也就是满足这两个点才能成为聚类中心点

  因此,对于每个样本点 i ii 计算两个值:

  1. 局部密度值(local density):ρ i


image.png

其中函数:


image.png


  1. 距离的定义如下:


image.png


 对于非局部密度最大点,计算距离δ i \delta_{i}δi实际上分两步 :

  • 找到所有局部密度比i ii点高的点;
  • 在这些点中找到距离i ii点最近的那个点j jji iij jj的距离就是δ i \delta_{i}δi的值。

  对于局部密度最大点,δ i \delta_{i}δi实际上是该点和其他所有点距离值的最大值。

取得的效果?

  依据上述决策图进行定性分析,结合主观判断才得到最终的结果。可以看到聚类中心为1和10。26、27、28为离群点(outlier)。

参考链接

  论文链接http://sites.psu.edu/mcnl/files/2017/03/9-2dhti48.pdf

  代码实现https://github.com/lanbing510/DensityPeakCluster

我的微信公众号名称:深度学习先进智能决策

微信公众号ID:MultiAgent1024

公众号介绍:主要研究深度学习、强化学习、机器博弈等相关内容!期待您的关注,欢迎一起学习交流进步!

相关文章
|
21天前
|
机器学习/深度学习 算法 数据挖掘
K-means聚类算法是机器学习中常用的一种聚类方法,通过将数据集划分为K个簇来简化数据结构
K-means聚类算法是机器学习中常用的一种聚类方法,通过将数据集划分为K个簇来简化数据结构。本文介绍了K-means算法的基本原理,包括初始化、数据点分配与簇中心更新等步骤,以及如何在Python中实现该算法,最后讨论了其优缺点及应用场景。
65 4
|
4月前
|
数据采集 机器学习/深度学习 算法
【优秀设计案例】基于K-Means聚类算法的球员数据聚类分析设计与实现
本文通过K-Means聚类算法对NBA球员数据进行聚类分析,旨在揭示球员间的相似性和差异性,为球队管理、战术决策和球员评估提供数据支持,并通过特征工程和结果可视化深入理解球员表现和潜力。
163 1
【优秀设计案例】基于K-Means聚类算法的球员数据聚类分析设计与实现
|
4月前
|
数据采集 算法 数据可视化
基于Python的k-means聚类分析算法的实现与应用,可以用在电商评论、招聘信息等各个领域的文本聚类及指标聚类,效果很好
本文介绍了基于Python实现的k-means聚类分析算法,并通过微博考研话题的数据清洗、聚类数量评估、聚类分析实现与结果可视化等步骤,展示了该算法在文本聚类领域的应用效果。
128 1
|
1月前
|
算法 数据挖掘 数据安全/隐私保护
基于FCM模糊聚类算法的图像分割matlab仿真
本项目展示了基于模糊C均值(FCM)算法的图像分割技术。算法运行效果良好,无水印。使用MATLAB 2022a开发,提供完整代码及中文注释,附带操作步骤视频。FCM算法通过隶属度矩阵和聚类中心矩阵实现图像分割,适用于灰度和彩色图像,广泛应用于医学影像、遥感图像等领域。
|
2月前
|
算法 数据挖掘
基于粒子群优化算法的图象聚类识别matlab仿真
该程序基于粒子群优化(PSO)算法实现图像聚类识别,能识别0~9的数字图片。在MATLAB2017B环境下运行,通过特征提取、PSO优化找到最佳聚类中心,提高识别准确性。PSO模拟鸟群捕食行为,通过粒子间的协作优化搜索过程。程序包括图片读取、特征提取、聚类分析及结果展示等步骤,实现了高效的图像识别。
|
4月前
|
数据采集 资源调度 算法
【数据挖掘】十大算法之K-Means K均值聚类算法
K-Means聚类算法的基本介绍,包括算法步骤、损失函数、优缺点分析以及如何优化和改进算法的方法,还提到了几种改进的K-Means算法,如K-Means++和ISODATA算法。
143 4
|
4月前
|
数据采集 自然语言处理 数据可视化
基于Python的社交媒体评论数据挖掘,使用LDA主题分析、文本聚类算法、情感分析实现
本文介绍了基于Python的社交媒体评论数据挖掘方法,使用LDA主题分析、文本聚类算法和情感分析技术,对数据进行深入分析和可视化,以揭示文本数据中的潜在主题、模式和情感倾向。
273 0
|
4月前
|
机器学习/深度学习 算法 数据挖掘
【机器学习】聚类算法中的距离度量有哪些及公式表示?
聚类算法中常用的距离度量方法及其数学表达式,包括欧式距离、曼哈顿距离、切比雪夫距离、闵可夫斯基距离、余弦相似度等多种距离和相似度计算方式。
383 1
|
4月前
|
数据采集 算法 数据可视化
基于K-Means聚类算法对球员数据的聚类分析,可以自主寻找最优聚类数进行聚类
本文介绍了一个基于K-Means聚类算法的NBA球员数据分析项目,该项目通过采集和分析球员的得分、篮板、助攻等统计数据,使用轮廓系数法和拐点法确定最优聚类数,将球员分为不同群组,并提供了一个可视化界面以便直观比较不同群组的球员表现。
基于K-Means聚类算法对球员数据的聚类分析,可以自主寻找最优聚类数进行聚类
|
4月前
|
人工智能 算法 数据可视化
DBSCAN密度聚类算法(理论+图解+python代码)
DBSCAN密度聚类算法(理论+图解+python代码)