《中国人工智能学会通讯》——12.48 混合型数据聚类算法-阿里云开发者社区

开发者社区> 人工智能> 正文

《中国人工智能学会通讯》——12.48 混合型数据聚类算法

简介: 本节书摘来自CCAI《中国人工智能学会通讯》一书中的第12章,第12.48节, 更多章节内容可以访问云栖社区“CCAI”公众号查看。

12.48 混合型数据聚类算法

混合型数据在本文是指分类型数据和数值型数据并存的一类数据,由于两类数据描述的差异性,使得混合型数据聚类算法中类个数的确定变得越来越困难。针对分类型数据,Chen et al [36] 利用熵的性质提出了一个针对分类型数据确定聚类个数的层次聚类方法。该方法根据增量熵的变化来指导凝聚层次聚类过程,根据每层对应划分的期望熵的二次导数随类个数的变化曲线来估计候选的最佳聚类个数。Yan et al [37] 提出了一个专门针对事务数据的聚类个数确定方法。该方法给出了基于事务数据覆盖密度的类间 modes 的不相似度定义,提出了一种凝聚类型的层次聚类算法,通过比较分析类间不相似度指标(Merging Dissimilarity Index)来确定候选的最佳聚类个数。针对数值型数据,Leung et al [38]从人类对于结构感知方式的重要性这一观点出发,提出了一种基于初级视觉系统尺度空间理论的聚类个数确定算法。该方法用尺度空间理论进行描述,尺度大小的不同对应着不同的聚类结构,根据每一聚类结果的存活区间的大小来确定聚类个数。

Sunet al [39] 基于模糊 k-means 算法提出了一个聚类个数自动确定方法。该方法是在给定的数据集上,通过使用不同的参数(聚类个数)来运行模糊 k-means聚类算法对数据集进行不同的划分并计算每次划分的聚类有效性指标,最后通过比较分析各个指标的大小来确定最佳的聚类数。Wang et al [40] 提出了一个近似无参数的自动估计聚类个数的方法。该方法首先通过输入的不相似度矩阵生成一幅VAT (VisualAssessment of Cluster Tendency)图像;然后对该图像进行图像分割得到二值灰度图像;进而把二值图像投影到主对角线上并进行平滑处理;最后计算一阶导数,通过观察变化曲线的顶点和波谷来确定类个数。混合型数据由于同时具有数值型属性和分类型属性,聚类个数的确定变得更为困难。Liang et al [41]利用信息熵能很好地反应类的抱团性和分离性这一优点,对以上问题进行了研究,分别利用 Renyi 熵和互补熵来刻画数值型数据和分类型数据的类内、类间信息,并将其融合,在此基础上定义了一种混合型数据的相异性度量,用于识别算法在每一次迭代过程中的最差类。通过扩展分类效用函数,给出了一种混合型数据聚类结果的有效性评价指标,进而设计了一个混合型数据聚类个数确定算法。实验结果表明,提出的算法不仅能够准确地找到聚类个数,而且同时能够获得较优的聚类结果。为了解决混合型数据聚类中不同特征对聚类结果的影响,更加准确客观地度量对象与类之间的差异性,赵兴旺等[42] 定义了一种针对混合型数据的扩展欧氏距离,基于类内信息熵和类间信息熵给出了聚类过程中不同特征重要性的度量,提出了一种混合型数据属性加权聚类算法。

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

分享:
人工智能
使用钉钉扫一扫加入圈子
+ 订阅

了解行业+人工智能最先进的技术和实践,参与行业+人工智能实践项目

其他文章