《中国人工智能学会通讯》——12.48 混合型数据聚类算法

简介: 本节书摘来自CCAI《中国人工智能学会通讯》一书中的第12章,第12.48节, 更多章节内容可以访问云栖社区“CCAI”公众号查看。

12.48 混合型数据聚类算法

混合型数据在本文是指分类型数据和数值型数据并存的一类数据,由于两类数据描述的差异性,使得混合型数据聚类算法中类个数的确定变得越来越困难。针对分类型数据,Chen et al [36] 利用熵的性质提出了一个针对分类型数据确定聚类个数的层次聚类方法。该方法根据增量熵的变化来指导凝聚层次聚类过程,根据每层对应划分的期望熵的二次导数随类个数的变化曲线来估计候选的最佳聚类个数。Yan et al [37] 提出了一个专门针对事务数据的聚类个数确定方法。该方法给出了基于事务数据覆盖密度的类间 modes 的不相似度定义,提出了一种凝聚类型的层次聚类算法,通过比较分析类间不相似度指标(Merging Dissimilarity Index)来确定候选的最佳聚类个数。针对数值型数据,Leung et al [38]从人类对于结构感知方式的重要性这一观点出发,提出了一种基于初级视觉系统尺度空间理论的聚类个数确定算法。该方法用尺度空间理论进行描述,尺度大小的不同对应着不同的聚类结构,根据每一聚类结果的存活区间的大小来确定聚类个数。

Sunet al [39] 基于模糊 k-means 算法提出了一个聚类个数自动确定方法。该方法是在给定的数据集上,通过使用不同的参数(聚类个数)来运行模糊 k-means聚类算法对数据集进行不同的划分并计算每次划分的聚类有效性指标,最后通过比较分析各个指标的大小来确定最佳的聚类数。Wang et al [40] 提出了一个近似无参数的自动估计聚类个数的方法。该方法首先通过输入的不相似度矩阵生成一幅VAT (VisualAssessment of Cluster Tendency)图像;然后对该图像进行图像分割得到二值灰度图像;进而把二值图像投影到主对角线上并进行平滑处理;最后计算一阶导数,通过观察变化曲线的顶点和波谷来确定类个数。混合型数据由于同时具有数值型属性和分类型属性,聚类个数的确定变得更为困难。Liang et al [41]利用信息熵能很好地反应类的抱团性和分离性这一优点,对以上问题进行了研究,分别利用 Renyi 熵和互补熵来刻画数值型数据和分类型数据的类内、类间信息,并将其融合,在此基础上定义了一种混合型数据的相异性度量,用于识别算法在每一次迭代过程中的最差类。通过扩展分类效用函数,给出了一种混合型数据聚类结果的有效性评价指标,进而设计了一个混合型数据聚类个数确定算法。实验结果表明,提出的算法不仅能够准确地找到聚类个数,而且同时能够获得较优的聚类结果。为了解决混合型数据聚类中不同特征对聚类结果的影响,更加准确客观地度量对象与类之间的差异性,赵兴旺等[42] 定义了一种针对混合型数据的扩展欧氏距离,基于类内信息熵和类间信息熵给出了聚类过程中不同特征重要性的度量,提出了一种混合型数据属性加权聚类算法。

相关文章
|
1月前
|
机器学习/深度学习 算法 数据可视化
请解释Python中的K-means聚类算法以及如何使用Sklearn库实现它。
【2月更文挑战第29天】【2月更文挑战第104篇】请解释Python中的K-means聚类算法以及如何使用Sklearn库实现它。
|
1天前
|
移动开发 算法 数据可视化
数据分享|Spss Modeler关联规则Apriori模型、Carma算法分析超市顾客购买商品数据挖掘实例
数据分享|Spss Modeler关联规则Apriori模型、Carma算法分析超市顾客购买商品数据挖掘实例
|
1天前
|
机器学习/深度学习 自然语言处理 算法
【视频】K近邻KNN算法原理与R语言结合新冠疫情对股票价格预测|数据分享(下)
【视频】K近邻KNN算法原理与R语言结合新冠疫情对股票价格预测|数据分享
|
1天前
|
机器学习/深度学习 算法 大数据
【视频】K近邻KNN算法原理与R语言结合新冠疫情对股票价格预测|数据分享(上)
【视频】K近邻KNN算法原理与R语言结合新冠疫情对股票价格预测|数据分享
|
1天前
|
机器学习/深度学习 算法 数据可视化
R语言:EM算法和高斯混合模型聚类的实现
R语言:EM算法和高斯混合模型聚类的实现
|
2天前
|
算法 数据可视化 大数据
圆堆图circle packing算法可视化分析电商平台网红零食销量采集数据
圆堆图circle packing算法可视化分析电商平台网红零食销量采集数据
33 13
|
8天前
|
数据可视化 算法 数据挖掘
PYTHON实现谱聚类算法和改变聚类簇数结果可视化比较
PYTHON实现谱聚类算法和改变聚类簇数结果可视化比较
|
9天前
|
算法 数据可视化 Python
Python中LARS和Lasso回归之最小角算法Lars分析波士顿住房数据实例
Python中LARS和Lasso回归之最小角算法Lars分析波士顿住房数据实例
13 0
|
9天前
电信公司churn数据客户流失k近邻(knn)模型预测分析
电信公司churn数据客户流失k近邻(knn)模型预测分析
18 0
|
9天前
|
数据采集 算法 数据可视化
R语言聚类算法的应用实例
R语言聚类算法的应用实例
86 18
R语言聚类算法的应用实例