《中国人工智能学会通讯》——12.48 混合型数据聚类算法

简介: 本节书摘来自CCAI《中国人工智能学会通讯》一书中的第12章,第12.48节, 更多章节内容可以访问云栖社区“CCAI”公众号查看。

12.48 混合型数据聚类算法

混合型数据在本文是指分类型数据和数值型数据并存的一类数据,由于两类数据描述的差异性,使得混合型数据聚类算法中类个数的确定变得越来越困难。针对分类型数据,Chen et al [36] 利用熵的性质提出了一个针对分类型数据确定聚类个数的层次聚类方法。该方法根据增量熵的变化来指导凝聚层次聚类过程,根据每层对应划分的期望熵的二次导数随类个数的变化曲线来估计候选的最佳聚类个数。Yan et al [37] 提出了一个专门针对事务数据的聚类个数确定方法。该方法给出了基于事务数据覆盖密度的类间 modes 的不相似度定义,提出了一种凝聚类型的层次聚类算法,通过比较分析类间不相似度指标(Merging Dissimilarity Index)来确定候选的最佳聚类个数。针对数值型数据,Leung et al [38]从人类对于结构感知方式的重要性这一观点出发,提出了一种基于初级视觉系统尺度空间理论的聚类个数确定算法。该方法用尺度空间理论进行描述,尺度大小的不同对应着不同的聚类结构,根据每一聚类结果的存活区间的大小来确定聚类个数。

Sunet al [39] 基于模糊 k-means 算法提出了一个聚类个数自动确定方法。该方法是在给定的数据集上,通过使用不同的参数(聚类个数)来运行模糊 k-means聚类算法对数据集进行不同的划分并计算每次划分的聚类有效性指标,最后通过比较分析各个指标的大小来确定最佳的聚类数。Wang et al [40] 提出了一个近似无参数的自动估计聚类个数的方法。该方法首先通过输入的不相似度矩阵生成一幅VAT (VisualAssessment of Cluster Tendency)图像;然后对该图像进行图像分割得到二值灰度图像;进而把二值图像投影到主对角线上并进行平滑处理;最后计算一阶导数,通过观察变化曲线的顶点和波谷来确定类个数。混合型数据由于同时具有数值型属性和分类型属性,聚类个数的确定变得更为困难。Liang et al [41]利用信息熵能很好地反应类的抱团性和分离性这一优点,对以上问题进行了研究,分别利用 Renyi 熵和互补熵来刻画数值型数据和分类型数据的类内、类间信息,并将其融合,在此基础上定义了一种混合型数据的相异性度量,用于识别算法在每一次迭代过程中的最差类。通过扩展分类效用函数,给出了一种混合型数据聚类结果的有效性评价指标,进而设计了一个混合型数据聚类个数确定算法。实验结果表明,提出的算法不仅能够准确地找到聚类个数,而且同时能够获得较优的聚类结果。为了解决混合型数据聚类中不同特征对聚类结果的影响,更加准确客观地度量对象与类之间的差异性,赵兴旺等[42] 定义了一种针对混合型数据的扩展欧氏距离,基于类内信息熵和类间信息熵给出了聚类过程中不同特征重要性的度量,提出了一种混合型数据属性加权聚类算法。

相关文章
|
8月前
|
机器学习/深度学习 算法 前端开发
别再用均值填充了!MICE算法教你正确处理缺失数据
MICE是一种基于迭代链式方程的缺失值插补方法,通过构建后验分布并生成多个完整数据集,有效量化不确定性。相比简单填补,MICE利用变量间复杂关系,提升插补准确性,适用于多变量关联、缺失率高的场景。本文结合PMM与线性回归,详解其机制并对比效果,验证其在统计推断中的优势。
1857 11
别再用均值填充了!MICE算法教你正确处理缺失数据
|
9月前
|
传感器 机器学习/深度学习 算法
【使用 DSP 滤波器加速速度和位移】使用信号处理算法过滤加速度数据并将其转换为速度和位移研究(Matlab代码实现)
【使用 DSP 滤波器加速速度和位移】使用信号处理算法过滤加速度数据并将其转换为速度和位移研究(Matlab代码实现)
554 1
|
9月前
|
机器学习/深度学习 算法 调度
14种智能算法优化BP神经网络(14种方法)实现数据预测分类研究(Matlab代码实现)
14种智能算法优化BP神经网络(14种方法)实现数据预测分类研究(Matlab代码实现)
648 0
|
8月前
|
机器学习/深度学习 算法 数据可视化
基于MVO多元宇宙优化的DBSCAN聚类算法matlab仿真
本程序基于MATLAB实现MVO优化的DBSCAN聚类算法,通过多元宇宙优化自动搜索最优参数Eps与MinPts,提升聚类精度。对比传统DBSCAN,MVO-DBSCAN有效克服参数依赖问题,适应复杂数据分布,增强鲁棒性,适用于非均匀密度数据集的高效聚类分析。
|
9月前
|
存储 监控 算法
企业电脑监控系统中基于 Go 语言的跳表结构设备数据索引算法研究
本文介绍基于Go语言的跳表算法在企业电脑监控系统中的应用,通过多层索引结构将数据查询、插入、删除操作优化至O(log n),显著提升海量设备数据管理效率,解决传统链表查询延迟问题,实现高效设备状态定位与异常筛选。
220 3
|
8月前
|
机器学习/深度学习 人工智能 算法
【基于TTNRBO优化DBN回归预测】基于瞬态三角牛顿-拉夫逊优化算法(TTNRBO)优化深度信念网络(DBN)数据回归预测研究(Matlab代码实现)
【基于TTNRBO优化DBN回归预测】基于瞬态三角牛顿-拉夫逊优化算法(TTNRBO)优化深度信念网络(DBN)数据回归预测研究(Matlab代码实现)
340 0
|
9月前
|
算法 数据挖掘 定位技术
基于密度的聚类算法能够在含有噪声的数据集中识别出任意形状和大小的簇(Matlab代码实现)
基于密度的聚类算法能够在含有噪声的数据集中识别出任意形状和大小的簇(Matlab代码实现)
225 1
|
9月前
|
机器学习/深度学习 分布式计算 算法
【风场景生成与削减】【m-ISODATA、kmean、HAC】无监督聚类算法,用于捕获电力系统中风场景生成与削减研究(Matlab代码实现)
【风场景生成与削减】【m-ISODATA、kmean、HAC】无监督聚类算法,用于捕获电力系统中风场景生成与削减研究(Matlab代码实现)
316 0
|
9月前
|
机器学习/深度学习 数据采集 算法
【风光场景生成】基于改进ISODATA的负荷曲线聚类算法(Matlab代码实现)
【风光场景生成】基于改进ISODATA的负荷曲线聚类算法(Matlab代码实现)
201 0
|
机器学习/深度学习 存储 人工智能
AI职场突围战:夸克应用+生成式人工智能认证,驱动“打工人”核心竞争力!
在AI浪潮推动下,生成式人工智能(GAI)成为职场必备工具。文中对比了夸克、豆包、DeepSeek和元宝四大AI应用,夸克以“超级入口”定位脱颖而出。同时,GAI认证为职场人士提供系统学习平台,与夸克结合助力职业发展。文章还探讨了职场人士如何通过加强学习、关注技术趋势及培养合规意识,在AI时代把握机遇。