《中国人工智能学会通讯》——12.43 分类型数据聚类算法研究进展

简介: 本节书摘来自CCAI《中国人工智能学会通讯》一书中的第12章,第12.43节, 更多章节内容可以访问云栖社区“CCAI”公众号查看。

12.43 分类型数据聚类算法研究进展

在大数据环境下,许多数据是缺乏先验信息的,对数据标注的成本也越来越高,一个最自然的方法是对数据进行适当划分之后再进行相关的数据处理,而聚类分析是数据划分的一种重要技术手段[1] 。在许多实际应用中,分类型变量是一种非常重要的数据表现形式[2] 。比如,在问卷调查中,客户的兴趣爱好、家庭住址、教育情况都是分类型变量;在电子邮件过滤中,将邮件分为垃圾邮件和合法邮件;在医学中,一个病人受伤的程度可分为轻微的、中度的和严重的;在市场营销中,经常将客户分为高、中、低端客户。由于在现实世界中分类型数据的大量存在,分类型数据的聚类问题引起了广泛的关注。目前,分类型数据的聚类算法大致可分为三类[3] 。

(1) 基于相异测度的聚类:参照数值型数据聚类方法,定义出适合于分类型数据的相异测度,并设计出相应的分类型数据聚类算法,代表性算法有k-modes 算法[4-5]和 ROCK 算法[6]等聚类算法。

(2) 基于概率统计的聚类:针对分类型属性取值有限的特点,用概率统计方法对其进行描述,将类原型定义为概率分布的形式,且对象与类间的相似性也用概率来表示。代表性算法有 COBWEB [7] 、COBWEB/3 [8] 、ECOBWEB [9] 、COP-COBWEB [10]和基于 LTM 的多维聚类[11]等算法。

(3) 基于信息熵理论的聚类:利用信息熵来刻画类的有效性,认为一个类内属性值分布越均匀,则信息熵越大。代表性算法有 COOLCAT [12] 、LIMBO [13] 和 ACE [14-15] 等聚类算法。

由于分类型数据不能直接进行数值运算,相应的聚类模型及其算法设计与数值型数据有较大不同,主要体现在:

(1) 分类型变量缺乏几何特性:分类型变量通常含有一定的语义,没有几何特性,不能直接进行数值计算,也不便于可视化展示,分类型变量的特性更多是通过其频率的大小来体现变量值的分布。

(2) 数据驱动相似性计算:数值型数据相似性的计算大多数情况都假定对象在不同属性上是相互独立的,而分类型数据的相似性不仅要考虑到对象在同一属性上变量值的相似性,还要考虑其他属性上变量值对相似性的影响。

(3) 知识驱动相似性计算:不同相似性定义会产生不同的类结构,分类型变量相似性计算要尽可能考虑不同应用场景的语义知识,而数值型数据计算相似性时通常数据与语义是分离的。本文围绕分类型数据 k-mode 型算法的类中心表示和收敛性分析、分类型数据流聚类算法、分类型数据聚类有效性和混合型数据聚类算法四个方面综述了其相应的研究进展,并给出了未来研究方向的思考。

相关文章
|
3月前
|
机器学习/深度学习 人工智能 算法
猫狗宠物识别系统Python+TensorFlow+人工智能+深度学习+卷积网络算法
宠物识别系统使用Python和TensorFlow搭建卷积神经网络,基于37种常见猫狗数据集训练高精度模型,并保存为h5格式。通过Django框架搭建Web平台,用户上传宠物图片即可识别其名称,提供便捷的宠物识别服务。
411 55
|
2月前
|
机器学习/深度学习 人工智能 算法
基于Python深度学习的眼疾识别系统实现~人工智能+卷积网络算法
眼疾识别系统,本系统使用Python作为主要开发语言,基于TensorFlow搭建卷积神经网络算法,并收集了4种常见的眼疾图像数据集(白内障、糖尿病性视网膜病变、青光眼和正常眼睛) 再使用通过搭建的算法模型对数据集进行训练得到一个识别精度较高的模型,然后保存为为本地h5格式文件。最后使用Django框架搭建了一个Web网页平台可视化操作界面,实现用户上传一张眼疾图片识别其名称。
185 5
基于Python深度学习的眼疾识别系统实现~人工智能+卷积网络算法
|
4月前
|
机器学习/深度学习 算法 数据挖掘
K-means聚类算法是机器学习中常用的一种聚类方法,通过将数据集划分为K个簇来简化数据结构
K-means聚类算法是机器学习中常用的一种聚类方法,通过将数据集划分为K个簇来简化数据结构。本文介绍了K-means算法的基本原理,包括初始化、数据点分配与簇中心更新等步骤,以及如何在Python中实现该算法,最后讨论了其优缺点及应用场景。
216 6
|
2天前
|
监控 算法 安全
基于 Python 广度优先搜索算法的监控局域网电脑研究
随着局域网规模扩大,企业对高效监控计算机的需求增加。广度优先搜索(BFS)算法凭借其层次化遍历特性,在Python中可用于实现局域网内的计算机设备信息收集、网络连接状态监测及安全漏洞扫描,确保网络安全与稳定运行。通过合理选择数据结构与算法,BFS显著提升了监控效能,助力企业实现智能化的网络管理。
20 6
|
8天前
|
存储 缓存 监控
企业监控软件中 Go 语言哈希表算法的应用研究与分析
在数字化时代,企业监控软件对企业的稳定运营至关重要。哈希表(散列表)作为高效的数据结构,广泛应用于企业监控中,如设备状态管理、数据分类和缓存机制。Go 语言中的 map 实现了哈希表,能快速处理海量监控数据,确保实时准确反映设备状态,提升系统性能,助力企业实现智能化管理。
25 3
|
24天前
|
监控 算法 安全
内网桌面监控软件深度解析:基于 Python 实现的 K-Means 算法研究
内网桌面监控软件通过实时监测员工操作,保障企业信息安全并提升效率。本文深入探讨K-Means聚类算法在该软件中的应用,解析其原理与实现。K-Means通过迭代更新簇中心,将数据划分为K个簇类,适用于行为分析、异常检测、资源优化及安全威胁识别等场景。文中提供了Python代码示例,展示如何实现K-Means算法,并模拟内网监控数据进行聚类分析。
37 10
|
9天前
|
存储 算法 安全
基于 Go 语言的公司内网管理软件哈希表算法深度解析与研究
在数字化办公中,公司内网管理软件通过哈希表算法保障信息安全与高效管理。哈希表基于键值对存储和查找,如用户登录验证、设备信息管理和文件权限控制等场景,Go语言实现的哈希表能快速验证用户信息,提升管理效率,确保网络稳定运行。
23 0
|
2月前
|
机器学习/深度学习 人工智能 算法
Transformer打破三十年数学猜想!Meta研究者用AI给出反例,算法杀手攻克数学难题
《PatternBoost: Constructions in Mathematics with a Little Help from AI》提出了一种结合传统搜索算法和Transformer神经网络的PatternBoost算法,通过局部搜索和全局优化交替进行,成功应用于组合数学问题。该算法在图论中的Ramsey数研究中找到了更小的反例,推翻了一个30年的猜想,展示了AI在数学研究中的巨大潜力,但也面临可解释性和通用性的挑战。论文地址:https://arxiv.org/abs/2411.00566
94 13
|
3月前
|
机器学习/深度学习 人工智能 算法
【宠物识别系统】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+图像识别
宠物识别系统,本系统使用Python作为主要开发语言,基于TensorFlow搭建卷积神经网络算法,并收集了37种常见的猫狗宠物种类数据集【'阿比西尼亚猫(Abyssinian)', '孟加拉猫(Bengal)', '暹罗猫(Birman)', '孟买猫(Bombay)', '英国短毛猫(British Shorthair)', '埃及猫(Egyptian Mau)', '缅因猫(Maine Coon)', '波斯猫(Persian)', '布偶猫(Ragdoll)', '俄罗斯蓝猫(Russian Blue)', '暹罗猫(Siamese)', '斯芬克斯猫(Sphynx)', '美国斗牛犬
233 29
【宠物识别系统】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+图像识别
|
2天前
|
机器学习/深度学习 数据采集 算法
基于PSO粒子群优化的CNN-LSTM-SAM网络时间序列回归预测算法matlab仿真
本项目展示了基于PSO优化的CNN-LSTM-SAM网络时间序列预测算法。使用Matlab2022a开发,完整代码含中文注释及操作视频。算法结合卷积层提取局部特征、LSTM处理长期依赖、自注意力机制捕捉全局特征,通过粒子群优化提升预测精度。适用于金融市场、气象预报等领域,提供高效准确的预测结果。

热门文章

最新文章