《中国人工智能学会通讯》——12.46 分类型数据流聚类算法

简介: 本节书摘来自CCAI《中国人工智能学会通讯》一书中的第12章,第12.46节, 更多章节内容可以访问云栖社区“CCAI”公众号查看。

12.46 分类型数据流聚类算法

在许多真实的应用中经常产生连续到达的数据,诸如网络流量监控、股票市场、信用卡欺诈检测、网站点击流和超市的客户交易等。由于到达的数据随着时间变化,所以数据的分布也将随着时间发生变化。比如在社会网络分析中,一些人可能逐渐从一个主题转换到另一个主题,而一些人可能很快改变他们的兴趣,利用聚类分析可以发现不同群体在不同时间段行为模式。针对数值型数据,数据流的聚类问题已经做了大量的研究[21-24] 。

针对分类型数据,为挖掘动态Web 站点用户日志的演化,Nasraoui et al [25] 提出了一个 Web 用户挖掘框架,并且能够从一个真实网站的 Web 日志文件中发现用户的使用模式。Chen etal [26] 提出了一个分类型数据流的聚类框架,该框架在不同的滑动窗口下检测漂移的概念,并且基于当前窗口产生聚类结果,通过可视化对不同窗口聚类结果之间的关系进行展示。然而,在这个框架中,需要设置太多的参数增加了在不同应用中的困难。Cao et al [27-29] 基于滑动窗口技术和粗糙集的隶属函数、概念的上下近似,定义了两个概念间的距离,提出了概念漂移检测算法和数据标签算法,设计了可视化算法去观察不同滑动窗口下聚类结果的演化过程,实验结果表明,提出的框架不但能精确地检测到概念漂移 , 而且能提供高质量的聚类结果。此外,用户能通过可视化方法跟踪用户感兴趣类的演化趋势。但以上提及的这些方法仍面临如下两个问题:① 将新到达的数据子集聚类问题看作类标记问题,仅使用对象和类之间的相似性来确定到达对象的类标签。由于缺乏有效性标准和优化策略,无法去调整或优化聚类结果。② 聚类优化函数和漂移概念检测指标之间缺乏关联性,这样可能忽略聚类结果有效性对漂移概念检测的影响。对于新到达的数据子集,当它的聚类结果很差时,漂移概念检测结果可能是不正确的。为了克服这些问题,Bai etal [30] 建立了一个优化模型来解决分类型数据流的聚类问题,该模型充分考虑了类代表的确定性和前后相连时刻聚类结果的连续性。基于该优化模型,获得了一个概念漂移检测指标。理论分析发现,最小化目标函数等同于最小化漂移检测指标的值。通过融合检测指标和优化模型,提出了一种新的方法去捕获分类型数据流上的聚类结构的演变趋势,该方法可以有效地避免聚类有效性对概念漂移检测结果的影响。通过真实数据集,展示了提出的聚类优化算法的有效性。

相关文章
|
3天前
|
机器学习/深度学习 算法 数据挖掘
基于改进ISODATA算法的负荷场景曲线聚类(matlab代码)
基于改进ISODATA算法的负荷场景曲线聚类(matlab代码)
|
3天前
|
机器学习/深度学习 存储 人工智能
【人工智能】机器学习算法综述及常见算法详解
【人工智能】机器学习算法综述及常见算法详解
|
9天前
|
机器学习/深度学习 存储 人工智能
【AI 初识】人工智能中使用了哪些不同的搜索算法?
【5月更文挑战第2天】【AI 初识】人工智能中使用了哪些不同的搜索算法?
|
11天前
|
机器学习/深度学习 算法 数据可视化
Matlab决策树、模糊C-均值聚类算法分析高校教师职称学历评分可视化
Matlab决策树、模糊C-均值聚类算法分析高校教师职称学历评分可视化
|
11天前
|
机器学习/深度学习 算法 数据挖掘
【Python 机器学习专栏】K-means 聚类算法在 Python 中的实现
【4月更文挑战第30天】K-means 是一种常见的聚类算法,用于将数据集划分为 K 个簇。其基本流程包括初始化簇中心、分配数据点、更新簇中心并重复此过程直到收敛。在 Python 中实现 K-means 包括数据准备、定义距离函数、初始化、迭代和输出结果。虽然算法简单高效,但它需要预先设定 K 值,且对初始点选择敏感,可能陷入局部最优。广泛应用在市场分析、图像分割等场景。理解原理与实现对应用聚类分析至关重要。
|
12天前
|
机器学习/深度学习 数据采集 SQL
R语言K-Means(K均值聚类)和层次聚类算法对微博用户特征数据研究
R语言K-Means(K均值聚类)和层次聚类算法对微博用户特征数据研究
|
12天前
|
算法 搜索推荐 数据挖掘
MATLAB模糊C均值聚类FCM改进的推荐系统协同过滤算法分析MovieLens电影数据集
MATLAB模糊C均值聚类FCM改进的推荐系统协同过滤算法分析MovieLens电影数据集
|
12天前
|
算法 数据可视化 数据挖掘
数据分享|R语言改进的K-MEANS(K-均值)聚类算法分析股票盈利能力和可视化
数据分享|R语言改进的K-MEANS(K-均值)聚类算法分析股票盈利能力和可视化
|
13天前
|
算法 数据可视化 前端开发
r语言有限正态混合模型EM算法的分层聚类、分类和密度估计及可视化(下)
r语言有限正态混合模型EM算法的分层聚类、分类和密度估计及可视化
|
13天前
|
算法 数据可视化 数据挖掘
r语言有限正态混合模型EM算法的分层聚类、分类和密度估计及可视化(上)
r语言有限正态混合模型EM算法的分层聚类、分类和密度估计及可视化