《大数据分析原理与实践》一一3.2 关联规则分析

简介:

本节书摘来自华章计算机《大数据分析原理与实践》一书中的第3章,第3.2节,作者:王宏志 更多章节内容可以访问云栖社区“华章计算机”公众号查看。

3.2 关联规则分析

关联规则分析又称关联挖掘,就是在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性或因果结构。或者说,关联分析是发现交易数据库中不同商品(项)之间的联系。比较常用的算法是Apriori算法和FPgrowth
算法。
关联可分为简单关联、时序关联、因果关联。关联规则分析的目的是找出数据库中隐藏的关联,并以规则的形式表达出来,这就是关联规则,其定义如下:
给定一个项集合I={I1,I2,…,Im}和一个交易数据库D,其中每个事务t是I的非空子集,即每一个交易都与一个唯一的标识符TID对应。关联规则是形如X→Y的蕴涵式,其中,X和Y是I的子集合,分别称为关联规则的前驱和后继。
关联规则的有效性通常用支持度和置信度来衡量。X→Y在D中的支持度(support)是D中事务同时包含X、Y的百分比,即S(X→Y)=P(X?∪?Y);其置信度(confidence)是D中事务已经包含X的情况下,包含Y的百分比,即C(X→Y)=P(X|Y)。
如果满足最小支持度阈值和最小置信度阈值,则认为关联规则是有趣的。如果某个项集的支持度大于等于设定的最小支持度阈值,则称这个项集为“频繁项集”,所有“频繁k-项集”组成的集合通常记作Lk。这些阈值通常根据数据分析的需要人为设定。
我们用一个例子来说明关联规则的相关概念。
例如,某胃肠医院对来院看病的病人提供了5种可做的检查,某天早上前9位病人做了这5项检查(见表3-5)。
表3-5 9位病人5项检查结果表单
image

在表3-5中,每一行表示一个事务,{腹部B超}、{胃镜}都是1-项集,{腹部B超,胃镜}是2-项集,{腹部B超,胃镜,碳14}是3-项集。
考虑规则{腹部B超,胃镜}→{碳14},由于{腹部B超,胃镜,碳14}的支持度计数为2,而事务的总数是9,所以规则的支持度为。规则的置信度是项集{腹部B超,胃镜,碳14}的支持度计数与项集{腹部B超,胃镜}支持度计数的商。而项集{腹部B超,胃镜}支持度计数为4,所以置信度为。
假定支持度计数大于3(不包括3)的项集都是频繁的,那么我们可以得出频繁-1项集有{腹部B超},{胃镜},{碳14},计数分别为6,7,6。而频繁-2项集有{腹部B超,胃镜},{腹部B超,碳14},{胃镜,碳14},计数分别为4,4,4。还可以发现,不存在其他的频繁项集。
支持度–置信度框架是有局限性的,支持度的缺点在于许多潜在的有意义的模式会由于含有支持度计数较小的项而被删去。置信度的缺陷则在于忽略规则后件中项集的支持度。
为了解决置信度的这个缺陷,引入了兴趣因子和提升度的概念。
提升度lift(X→Y)=
对于二元变量,提升度等价于兴趣因子,其定义如下:
I(X→Y)=
该度量解释如下:
I(X→Y)=

例如,lift (腹部B超→胃镜)=I (腹部B超→胃镜)

关联规则挖掘过程主要包含两个阶段:
先从数据集中找出所有的频繁项集,它们的支持度均大于等于最小支持度阈值。
由这些频繁项集产生关联规则,计算它们的置信度,然后保留那些置信度大于等于最小置信度阈值的关联规则。
关联规则挖掘的具体算法将在本书11.3节详细讨论。

相关文章
|
8天前
|
SQL 分布式计算 数据挖掘
从湖仓分离到湖仓一体,四川航空基于 SelectDB 的多源数据联邦分析实践
川航选择引入 SelectDB 建设湖仓一体大数据分析引擎,取得了数据导入效率提升 3-6 倍,查询分析性能提升 10-18 倍、实时性提升至 5 秒内等收益。
从湖仓分离到湖仓一体,四川航空基于 SelectDB 的多源数据联邦分析实践
|
5天前
|
数据采集 机器学习/深度学习 数据可视化
探索大数据分析的无限可能:R语言的应用与实践
探索大数据分析的无限可能:R语言的应用与实践
38 9
|
11天前
|
机器学习/深度学习 数据采集 分布式计算
大数据分析中的机器学习基础:从原理到实践
大数据分析中的机器学习基础:从原理到实践
51 3
|
2月前
|
数据采集 存储 机器学习/深度学习
数据的秘密:如何用大数据分析挖掘商业价值
数据的秘密:如何用大数据分析挖掘商业价值
64 9
|
3月前
|
机器学习/深度学习 数据可视化 大数据
机器学习与大数据分析的结合:智能决策的新引擎
机器学习与大数据分析的结合:智能决策的新引擎
316 15
|
3月前
|
SQL 分布式计算 DataWorks
DataWorks产品测评|基于DataWorks和MaxCompute产品组合实现用户画像分析
本文介绍了如何使用DataWorks和MaxCompute产品组合实现用户画像分析。首先,通过阿里云官网开通DataWorks服务并创建资源组,接着创建MaxCompute项目和数据源。随后,利用DataWorks的数据集成和数据开发模块,将业务数据同步至MaxCompute,并通过ODPS SQL完成用户画像的数据加工,最终将结果写入`ads_user_info_1d`表。文章详细记录了每一步的操作过程,包括任务开发、运行、运维操作和资源释放,帮助读者顺利完成用户画像分析。此外,还指出了文档中的一些不一致之处,并提供了相应的解决方法。
|
3月前
|
分布式计算 DataWorks 搜索推荐
用户画像分析(MaxCompute简化版)
通过本教程,您可以了解如何使用DataWorks和MaxCompute产品组合进行数仓开发与分析,并通过案例体验DataWorks数据集成、数据开发和运维中心模块的相关能力。
|
4月前
|
机器学习/深度学习 存储 大数据
在大数据时代,高维数据处理成为难题,主成分分析(PCA)作为一种有效的数据降维技术,通过线性变换将数据投影到新的坐标系
在大数据时代,高维数据处理成为难题,主成分分析(PCA)作为一种有效的数据降维技术,通过线性变换将数据投影到新的坐标系,保留最大方差信息,实现数据压缩、去噪及可视化。本文详解PCA原理、步骤及其Python实现,探讨其在图像压缩、特征提取等领域的应用,并指出使用时的注意事项,旨在帮助读者掌握这一强大工具。
257 4
|
4月前
|
关系型数据库 分布式数据库 数据库
PolarDB 以其出色的性能和可扩展性,成为大数据分析的重要工具
在数字化时代,企业面对海量数据的挑战,PolarDB 以其出色的性能和可扩展性,成为大数据分析的重要工具。它不仅支持高速数据读写,还通过数据分区、索引优化等策略提升分析效率,适用于电商、金融等多个行业,助力企业精准决策。
91 4
|
4月前
|
机器学习/深度学习 分布式计算 算法
【大数据分析&机器学习】分布式机器学习
本文主要介绍分布式机器学习基础知识,并介绍主流的分布式机器学习框架,结合实例介绍一些机器学习算法。
662 5