机器学习关联分析PF和Apriori算法

简介: 机器学习关联分析PF和Apriori算法

1 什么是关联分析

此篇为了解篇幅,不做具体的算法实例,就是知道简单有这么回事,什么情况会用到的分析.


关联分析又称关联挖掘,就是在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性或因果结构。或者说,关联分析是发现交易数据库中不同商品(项)之间的联系。


简单的说:就是经常举例到的啤酒和尿片,大数据经典案例

买啤酒的人大部分会买尿片,所以放一起会卖的更好,我感觉有所依据,但是感觉是一种营销.


79910288ff47423cbb4ce5926845be51.png

2 Apriori算法

Apriori 算法是挖掘产生布尔关联规则所需频繁项集的基本算法,它使用一种称作逐层搜索的迭代方法,k 项集用于探索 k+1 项集。


衡量频率的指标有两个:一个是支持度,一个是置信度


这两个指标分别指的是这种模式的有用性和确定性。设置门限“最小支持度”和“最小置信度”,支持度和置信度同时高于这两个门限就可以认为是频繁模式了。


置信度是有“方向性”的,如果说购买面包的记录里有100%的记录都购买了麦片,那么就说购买面包后购买麦片的置信度为100%;反向地看,如果购买了麦片的记录有67%的记录都购买了面包,那么就说购买麦片后购买麦片的置信度为67%。


这里先不考虑置信度

e53e49b6345f445485619162c322a3e8.png


支持度概念:项集排列组合的一个最重要的性质是它的支持度计数,也就是包含特定项集的事务个数。我们从数学上定义项集X的支持度计数表示为

f49aed625a75424aa617645b71d817b7.png


统计总数得到:

都大于支持度2

8873317b7b5944e79d14c074b9584316.png

继续按照支持度淘汰

5932f55558384440be16da347bf90d9e.png

最后有一个公式的话最多能组成的项是t-1项,也就是四件商品,然后-1得到为三,最后得到最频繁的项集


d63f110fbcf7491bad58497a64da70b5.png

3 FP-growth算法

首先要知道,就是在每个购买记录中出现的各种单品其实体现的是一种组合的性质。也就是说,消费者在购买了一种单品的同时又购买了另一种单品。而且,这些单品的组合在记录中是无序的,也就是无法知道在记录1中究竟是先“购买”了面包然后诱使他又“购买”了麦片,还是先“购买”了面包后来又购买了麦片。因此只能研究一个无序的组合,这种组合就叫做“模式”。


这些模式里,有的出现频率很低,有的出现频率很高,一般认为频率较高的通常更有指导意义,这种高频率的模式就被称作“频繁模式”。


FP-growth 算法通过两次扫描事务数据库,把每个事务所包含的频繁项目按其支持度降序压缩存储到 FP—tree 中,这样在以后发现频繁模式的过程中,不需要再扫描事务数据库,仅在 FP-Tree 中进行查找即可。


e120422644f34d509f6ed6c8e00b5bb3.png

22788e49cad944b99330ba53fee98a7b.png

4 关联规则学习

关联规则学习是一种在大型数据库中发现变量之间的有趣性关系的方法,它的目的是利用一些有趣性的量度来识别数据库中发现的强规则。


目录
相关文章
|
2月前
|
机器学习/深度学习 数据采集 人工智能
【机器学习算法篇】K-近邻算法
K近邻(KNN)是一种基于“物以类聚”思想的监督学习算法,通过计算样本间距离,选取最近K个邻居投票决定类别。支持多种距离度量,如欧式、曼哈顿、余弦相似度等,适用于分类与回归任务。结合Scikit-learn可高效实现,需合理选择K值并进行数据预处理,常用于鸢尾花分类等经典案例。(238字)
|
6月前
|
机器学习/深度学习 边缘计算 算法
NOMA和OFDMA优化算法分析
NOMA和OFDMA优化算法分析
369 127
|
8月前
|
数据采集 机器学习/深度学习 算法
别急着上算法,咱先把数据整明白:大数据分析的5个基本步骤,你都搞对了吗?
别急着上算法,咱先把数据整明白:大数据分析的5个基本步骤,你都搞对了吗?
578 4
|
3月前
|
运维 监控 JavaScript
基于 Node.js 图结构的局域网设备拓扑分析算法在局域网内监控软件中的应用研究
本文探讨图结构在局域网监控系统中的应用,通过Node.js实现设备拓扑建模、路径分析与故障定位,提升网络可视化、可追溯性与运维效率,结合模拟实验验证其高效性与准确性。
273 3
|
3月前
|
存储 边缘计算 算法
【太阳能学报EI复现】基于粒子群优化算法的风-水电联合优化运行分析(Matlab代码实现)
【太阳能学报EI复现】基于粒子群优化算法的风-水电联合优化运行分析(Matlab代码实现)
|
4月前
|
机器学习/深度学习 算法 5G
【MUSIC、最大似然与克拉美-罗下界】MUSIC与ESPRIT 算法来估计到达角(AoA),并尝试推导克拉美-罗下界(CRLB)以分析其性能研究(Matlab代码实现)
【MUSIC、最大似然与克拉美-罗下界】MUSIC与ESPRIT 算法来估计到达角(AoA),并尝试推导克拉美-罗下界(CRLB)以分析其性能研究(Matlab代码实现)
211 0
|
5月前
|
编解码 算法 5G
MIMO雷达空间谱估计中Capon算法与MUSIC算法的对比分析及实现
MIMO雷达空间谱估计中Capon算法与MUSIC算法的对比分析及实现
463 2
|
5月前
|
人工智能 自然语言处理 算法
2025 年 7 月境内深度合成服务算法备案情况分析报告
2025年7月,中央网信办发布第十二批深度合成算法备案信息,全国389款产品通过备案,服务提供者占比超七成。截至7月14日,全国累计备案达3834款,覆盖文本、图像、音视频等多模态场景,广泛应用于生活服务、医疗、金融等领域。广东以135款居首,数字人、AI客服等C端应用主导,民营企业成主力,国企聚焦公共服务。随着AI政策推动,备案已成为AI产品合规上线关键环节。
|
7月前
|
机器学习/深度学习 数据采集 人工智能
20分钟掌握机器学习算法指南
在短短20分钟内,从零开始理解主流机器学习算法的工作原理,掌握算法选择策略,并建立对神经网络的直观认识。本文用通俗易懂的语言和生动的比喻,帮助你告别算法选择的困惑,轻松踏入AI的大门。
|
7月前
|
算法 Python
Apriori算法的Python实例演示
经过运行,你会看到一些集合出现,每个集合的支持度也会给出。这些集合就是你想要的,经常一起被购买的商品组合。不要忘记,`min_support`参数将决定频繁项集的数量和大小,你可以根据自己的需要进行更改。
330 18

热门文章

最新文章