《中国人工智能学会通讯》——12.43 分类型数据聚类算法研究进展

简介: 本节书摘来自CCAI《中国人工智能学会通讯》一书中的第12章,第12.43节, 更多章节内容可以访问云栖社区“CCAI”公众号查看。

12.43 分类型数据聚类算法研究进展

在大数据环境下,许多数据是缺乏先验信息的,对数据标注的成本也越来越高,一个最自然的方法是对数据进行适当划分之后再进行相关的数据处理,而聚类分析是数据划分的一种重要技术手段[1] 。在许多实际应用中,分类型变量是一种非常重要的数据表现形式[2] 。比如,在问卷调查中,客户的兴趣爱好、家庭住址、教育情况都是分类型变量;在电子邮件过滤中,将邮件分为垃圾邮件和合法邮件;在医学中,一个病人受伤的程度可分为轻微的、中度的和严重的;在市场营销中,经常将客户分为高、中、低端客户。由于在现实世界中分类型数据的大量存在,分类型数据的聚类问题引起了广泛的关注。目前,分类型数据的聚类算法大致可分为三类[3] 。

(1) 基于相异测度的聚类:参照数值型数据聚类方法,定义出适合于分类型数据的相异测度,并设计出相应的分类型数据聚类算法,代表性算法有k-modes 算法[4-5]和 ROCK 算法[6]等聚类算法。

(2) 基于概率统计的聚类:针对分类型属性取值有限的特点,用概率统计方法对其进行描述,将类原型定义为概率分布的形式,且对象与类间的相似性也用概率来表示。代表性算法有 COBWEB [7] 、COBWEB/3 [8] 、ECOBWEB [9] 、COP-COBWEB [10]和基于 LTM 的多维聚类[11]等算法。

(3) 基于信息熵理论的聚类:利用信息熵来刻画类的有效性,认为一个类内属性值分布越均匀,则信息熵越大。代表性算法有 COOLCAT [12] 、LIMBO [13] 和 ACE [14-15] 等聚类算法。

由于分类型数据不能直接进行数值运算,相应的聚类模型及其算法设计与数值型数据有较大不同,主要体现在:

(1) 分类型变量缺乏几何特性:分类型变量通常含有一定的语义,没有几何特性,不能直接进行数值计算,也不便于可视化展示,分类型变量的特性更多是通过其频率的大小来体现变量值的分布。

(2) 数据驱动相似性计算:数值型数据相似性的计算大多数情况都假定对象在不同属性上是相互独立的,而分类型数据的相似性不仅要考虑到对象在同一属性上变量值的相似性,还要考虑其他属性上变量值对相似性的影响。

(3) 知识驱动相似性计算:不同相似性定义会产生不同的类结构,分类型变量相似性计算要尽可能考虑不同应用场景的语义知识,而数值型数据计算相似性时通常数据与语义是分离的。本文围绕分类型数据 k-mode 型算法的类中心表示和收敛性分析、分类型数据流聚类算法、分类型数据聚类有效性和混合型数据聚类算法四个方面综述了其相应的研究进展,并给出了未来研究方向的思考。

相关文章
|
17天前
|
算法 数据挖掘 数据安全/隐私保护
基于FCM模糊聚类算法的图像分割matlab仿真
本项目展示了基于模糊C均值(FCM)算法的图像分割技术。算法运行效果良好,无水印。使用MATLAB 2022a开发,提供完整代码及中文注释,附带操作步骤视频。FCM算法通过隶属度矩阵和聚类中心矩阵实现图像分割,适用于灰度和彩色图像,广泛应用于医学影像、遥感图像等领域。
|
24天前
|
存储 编解码 负载均衡
数据分片算法
【10月更文挑战第25天】不同的数据分片算法适用于不同的应用场景和数据特点,在实际应用中,需要根据具体的业务需求、数据分布情况、系统性能要求等因素综合考虑,选择合适的数据分片算法,以实现数据的高效存储、查询和处理。
|
24天前
|
存储 缓存 算法
分布式缓存有哪些常用的数据分片算法?
【10月更文挑战第25天】在实际应用中,需要根据具体的业务需求、数据特征以及系统的可扩展性要求等因素综合考虑,选择合适的数据分片算法,以实现分布式缓存的高效运行和数据的合理分布。
|
1月前
|
机器学习/深度学习 人工智能 算法
"拥抱AI规模化浪潮:从数据到算法,解锁未来无限可能,你准备好迎接这场技术革命了吗?"
【10月更文挑战第14天】本文探讨了AI规模化的重要性和挑战,涵盖数据、算法、算力和应用场景等方面。通过使用Python和TensorFlow的示例代码,展示了如何训练并应用一个基本的AI模型进行图像分类,强调了AI规模化在各行业的广泛应用前景。
31 5
|
29天前
|
存储 JSON 算法
TDengine 检测数据最佳压缩算法工具,助你一键找出最优压缩方案
在使用 TDengine 存储时序数据时,压缩数据以节省磁盘空间是至关重要的。TDengine 支持用户根据自身数据特性灵活指定压缩算法,从而实现更高效的存储。然而,如何选择最合适的压缩算法,才能最大限度地降低存储开销?为了解决这一问题,我们特别推出了一个实用工具,帮助用户快速判断并选择最适合其数据特征的压缩算法。
35 0
|
1月前
|
算法 数据挖掘
基于粒子群优化算法的图象聚类识别matlab仿真
该程序基于粒子群优化(PSO)算法实现图像聚类识别,能识别0~9的数字图片。在MATLAB2017B环境下运行,通过特征提取、PSO优化找到最佳聚类中心,提高识别准确性。PSO模拟鸟群捕食行为,通过粒子间的协作优化搜索过程。程序包括图片读取、特征提取、聚类分析及结果展示等步骤,实现了高效的图像识别。
|
1月前
|
人工智能 算法 前端开发
无界批发零售定义及无界AI算法,打破传统壁垒,累积数据流量
“无界批发与零售”是一种结合了批发与零售的商业模式,通过后端逻辑、数据库设计和前端用户界面实现。该模式支持用户注册、登录、商品管理、订单处理、批发与零售功能,并根据用户行为计算信用等级,确保交易安全与高效。
|
1月前
|
前端开发 算法 JavaScript
无界SaaS模式深度解析:算力算法、链接力、数据确权制度
私域电商的无界SaaS模式涉及后端开发、前端开发、数据库设计、API接口、区块链技术、支付和身份验证系统等多个技术领域。本文通过简化框架和示例代码,指导如何将核心功能转化为技术实现,涵盖用户管理、企业店铺管理、数据流量管理等关键环节。
|
1月前
|
机器学习/深度学习 算法 数据处理
EM算法对人脸数据降维(机器学习作业06)
本文介绍了使用EM算法对人脸数据进行降维的机器学习作业。首先通过加载ORL人脸数据库,然后分别应用SVD_PCA、MLE_PCA及EM_PCA三种方法实现数据降维,并输出降维后的数据形状。此作业展示了不同PCA变种在人脸数据处理中的应用效果。
35 0
下一篇
无影云桌面