《中国人工智能学会通讯》——12.46 分类型数据流聚类算法

简介: 本节书摘来自CCAI《中国人工智能学会通讯》一书中的第12章,第12.46节, 更多章节内容可以访问云栖社区“CCAI”公众号查看。

12.46 分类型数据流聚类算法

在许多真实的应用中经常产生连续到达的数据,诸如网络流量监控、股票市场、信用卡欺诈检测、网站点击流和超市的客户交易等。由于到达的数据随着时间变化,所以数据的分布也将随着时间发生变化。比如在社会网络分析中,一些人可能逐渐从一个主题转换到另一个主题,而一些人可能很快改变他们的兴趣,利用聚类分析可以发现不同群体在不同时间段行为模式。针对数值型数据,数据流的聚类问题已经做了大量的研究[21-24] 。

针对分类型数据,为挖掘动态Web 站点用户日志的演化,Nasraoui et al [25] 提出了一个 Web 用户挖掘框架,并且能够从一个真实网站的 Web 日志文件中发现用户的使用模式。Chen etal [26] 提出了一个分类型数据流的聚类框架,该框架在不同的滑动窗口下检测漂移的概念,并且基于当前窗口产生聚类结果,通过可视化对不同窗口聚类结果之间的关系进行展示。然而,在这个框架中,需要设置太多的参数增加了在不同应用中的困难。Cao et al [27-29] 基于滑动窗口技术和粗糙集的隶属函数、概念的上下近似,定义了两个概念间的距离,提出了概念漂移检测算法和数据标签算法,设计了可视化算法去观察不同滑动窗口下聚类结果的演化过程,实验结果表明,提出的框架不但能精确地检测到概念漂移 , 而且能提供高质量的聚类结果。此外,用户能通过可视化方法跟踪用户感兴趣类的演化趋势。但以上提及的这些方法仍面临如下两个问题:① 将新到达的数据子集聚类问题看作类标记问题,仅使用对象和类之间的相似性来确定到达对象的类标签。由于缺乏有效性标准和优化策略,无法去调整或优化聚类结果。② 聚类优化函数和漂移概念检测指标之间缺乏关联性,这样可能忽略聚类结果有效性对漂移概念检测的影响。对于新到达的数据子集,当它的聚类结果很差时,漂移概念检测结果可能是不正确的。为了克服这些问题,Bai etal [30] 建立了一个优化模型来解决分类型数据流的聚类问题,该模型充分考虑了类代表的确定性和前后相连时刻聚类结果的连续性。基于该优化模型,获得了一个概念漂移检测指标。理论分析发现,最小化目标函数等同于最小化漂移检测指标的值。通过融合检测指标和优化模型,提出了一种新的方法去捕获分类型数据流上的聚类结构的演变趋势,该方法可以有效地避免聚类有效性对概念漂移检测结果的影响。通过真实数据集,展示了提出的聚类优化算法的有效性。

相关文章
|
14天前
|
算法 数据挖掘 数据安全/隐私保护
基于FCM模糊聚类算法的图像分割matlab仿真
本项目展示了基于模糊C均值(FCM)算法的图像分割技术。算法运行效果良好,无水印。使用MATLAB 2022a开发,提供完整代码及中文注释,附带操作步骤视频。FCM算法通过隶属度矩阵和聚类中心矩阵实现图像分割,适用于灰度和彩色图像,广泛应用于医学影像、遥感图像等领域。
|
9天前
|
机器学习/深度学习 人工智能 算法
基于Python深度学习的【垃圾识别系统】实现~TensorFlow+人工智能+算法网络
垃圾识别分类系统。本系统采用Python作为主要编程语言,通过收集了5种常见的垃圾数据集('塑料', '玻璃', '纸张', '纸板', '金属'),然后基于TensorFlow搭建卷积神经网络算法模型,通过对图像数据集进行多轮迭代训练,最后得到一个识别精度较高的模型文件。然后使用Django搭建Web网页端可视化操作界面,实现用户在网页端上传一张垃圾图片识别其名称。
38 0
基于Python深度学习的【垃圾识别系统】实现~TensorFlow+人工智能+算法网络
|
9天前
|
机器学习/深度学习 人工智能 算法
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
手写数字识别系统,使用Python作为主要开发语言,基于深度学习TensorFlow框架,搭建卷积神经网络算法。并通过对数据集进行训练,最后得到一个识别精度较高的模型。并基于Flask框架,开发网页端操作平台,实现用户上传一张图片识别其名称。
30 0
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
|
9天前
|
机器学习/深度学习 人工智能 算法
基于深度学习的【蔬菜识别】系统实现~Python+人工智能+TensorFlow+算法模型
蔬菜识别系统,本系统使用Python作为主要编程语言,通过收集了8种常见的蔬菜图像数据集('土豆', '大白菜', '大葱', '莲藕', '菠菜', '西红柿', '韭菜', '黄瓜'),然后基于TensorFlow搭建卷积神经网络算法模型,通过多轮迭代训练最后得到一个识别精度较高的模型文件。在使用Django开发web网页端操作界面,实现用户上传一张蔬菜图片识别其名称。
48 0
基于深度学习的【蔬菜识别】系统实现~Python+人工智能+TensorFlow+算法模型
|
25天前
|
机器学习/深度学习 人工智能 算法
【车辆车型识别】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+算法模型
车辆车型识别,使用Python作为主要编程语言,通过收集多种车辆车型图像数据集,然后基于TensorFlow搭建卷积网络算法模型,并对数据集进行训练,最后得到一个识别精度较高的模型文件。再基于Django搭建web网页端操作界面,实现用户上传一张车辆图片识别其类型。
72 0
【车辆车型识别】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+算法模型
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-19
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-19
48 2
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-16
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-16
32 1
|
1月前
|
机器学习/深度学习 人工智能 算法
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-15
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-15
48 1
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-14
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-14
38 1
|
1月前
|
存储 人工智能 算法
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-18
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-18
37 0