机器学习关联分析PF和Apriori算法

简介: 机器学习关联分析PF和Apriori算法

1 什么是关联分析

此篇为了解篇幅,不做具体的算法实例,就是知道简单有这么回事,什么情况会用到的分析.


关联分析又称关联挖掘,就是在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性或因果结构。或者说,关联分析是发现交易数据库中不同商品(项)之间的联系。


简单的说:就是经常举例到的啤酒和尿片,大数据经典案例

买啤酒的人大部分会买尿片,所以放一起会卖的更好,我感觉有所依据,但是感觉是一种营销.


79910288ff47423cbb4ce5926845be51.png

2 Apriori算法

Apriori 算法是挖掘产生布尔关联规则所需频繁项集的基本算法,它使用一种称作逐层搜索的迭代方法,k 项集用于探索 k+1 项集。


衡量频率的指标有两个:一个是支持度,一个是置信度


这两个指标分别指的是这种模式的有用性和确定性。设置门限“最小支持度”和“最小置信度”,支持度和置信度同时高于这两个门限就可以认为是频繁模式了。


置信度是有“方向性”的,如果说购买面包的记录里有100%的记录都购买了麦片,那么就说购买面包后购买麦片的置信度为100%;反向地看,如果购买了麦片的记录有67%的记录都购买了面包,那么就说购买麦片后购买麦片的置信度为67%。


这里先不考虑置信度

e53e49b6345f445485619162c322a3e8.png


支持度概念:项集排列组合的一个最重要的性质是它的支持度计数,也就是包含特定项集的事务个数。我们从数学上定义项集X的支持度计数表示为

f49aed625a75424aa617645b71d817b7.png


统计总数得到:

都大于支持度2

8873317b7b5944e79d14c074b9584316.png

继续按照支持度淘汰

5932f55558384440be16da347bf90d9e.png

最后有一个公式的话最多能组成的项是t-1项,也就是四件商品,然后-1得到为三,最后得到最频繁的项集


d63f110fbcf7491bad58497a64da70b5.png

3 FP-growth算法

首先要知道,就是在每个购买记录中出现的各种单品其实体现的是一种组合的性质。也就是说,消费者在购买了一种单品的同时又购买了另一种单品。而且,这些单品的组合在记录中是无序的,也就是无法知道在记录1中究竟是先“购买”了面包然后诱使他又“购买”了麦片,还是先“购买”了面包后来又购买了麦片。因此只能研究一个无序的组合,这种组合就叫做“模式”。


这些模式里,有的出现频率很低,有的出现频率很高,一般认为频率较高的通常更有指导意义,这种高频率的模式就被称作“频繁模式”。


FP-growth 算法通过两次扫描事务数据库,把每个事务所包含的频繁项目按其支持度降序压缩存储到 FP—tree 中,这样在以后发现频繁模式的过程中,不需要再扫描事务数据库,仅在 FP-Tree 中进行查找即可。


e120422644f34d509f6ed6c8e00b5bb3.png

22788e49cad944b99330ba53fee98a7b.png

4 关联规则学习

关联规则学习是一种在大型数据库中发现变量之间的有趣性关系的方法,它的目的是利用一些有趣性的量度来识别数据库中发现的强规则。


目录
相关文章
|
1月前
|
机器学习/深度学习 算法 搜索推荐
从理论到实践,Python算法复杂度分析一站式教程,助你轻松驾驭大数据挑战!
【10月更文挑战第4天】在大数据时代,算法效率至关重要。本文从理论入手,介绍时间复杂度和空间复杂度两个核心概念,并通过冒泡排序和快速排序的Python实现详细分析其复杂度。冒泡排序的时间复杂度为O(n^2),空间复杂度为O(1);快速排序平均时间复杂度为O(n log n),空间复杂度为O(log n)。文章还介绍了算法选择、分而治之及空间换时间等优化策略,帮助你在大数据挑战中游刃有余。
60 4
|
9天前
|
机器学习/深度学习 人工智能 算法
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
手写数字识别系统,使用Python作为主要开发语言,基于深度学习TensorFlow框架,搭建卷积神经网络算法。并通过对数据集进行训练,最后得到一个识别精度较高的模型。并基于Flask框架,开发网页端操作平台,实现用户上传一张图片识别其名称。
30 0
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
|
1月前
|
数据采集 移动开发 数据可视化
模型预测笔记(一):数据清洗分析及可视化、模型搭建、模型训练和预测代码一体化和对应结果展示(可作为baseline)
这篇文章介绍了数据清洗、分析、可视化、模型搭建、训练和预测的全过程,包括缺失值处理、异常值处理、特征选择、数据归一化等关键步骤,并展示了模型融合技术。
58 1
模型预测笔记(一):数据清洗分析及可视化、模型搭建、模型训练和预测代码一体化和对应结果展示(可作为baseline)
|
26天前
|
并行计算 算法 IDE
【灵码助力Cuda算法分析】分析共享内存的矩阵乘法优化
本文介绍了如何利用通义灵码在Visual Studio 2022中对基于CUDA的共享内存矩阵乘法优化代码进行深入分析。文章从整体程序结构入手,逐步深入到线程调度、矩阵分块、循环展开等关键细节,最后通过带入具体值的方式进一步解析复杂循环逻辑,展示了通义灵码在辅助理解和优化CUDA编程中的强大功能。
|
30天前
|
机器学习/深度学习 算法 Java
机器学习、基础算法、python常见面试题必知必答系列大全:(面试问题持续更新)
机器学习、基础算法、python常见面试题必知必答系列大全:(面试问题持续更新)
|
1月前
|
机器学习/深度学习 数据可视化 数据挖掘
机器学习中空间和时间自相关的分析:从理论基础到实践应用
空间和时间自相关是数据分析中的重要概念,揭示了现象在空间和时间维度上的相互依赖关系。本文探讨了这些概念的理论基础,并通过野火风险预测的实际案例,展示了如何利用随机森林模型捕捉时空依赖性,提高预测准确性。
53 0
机器学习中空间和时间自相关的分析:从理论基础到实践应用
|
1月前
|
机器学习/深度学习 算法 决策智能
【机器学习】揭秘深度学习优化算法:加速训练与提升性能
【机器学习】揭秘深度学习优化算法:加速训练与提升性能
|
1月前
|
机器学习/深度学习 算法 Python
探索机器学习中的决策树算法:从理论到实践
【10月更文挑战第5天】本文旨在通过浅显易懂的语言,带领读者了解并实现一个基础的决策树模型。我们将从决策树的基本概念出发,逐步深入其构建过程,包括特征选择、树的生成与剪枝等关键技术点,并以一个简单的例子演示如何用Python代码实现一个决策树分类器。文章不仅注重理论阐述,更侧重于实际操作,以期帮助初学者快速入门并在真实数据上应用这一算法。
|
18天前
|
机器学习/深度学习 人工智能 算法
探索机器学习中的决策树算法
【10月更文挑战第29天】本文将深入浅出地介绍决策树算法,一种在机器学习中广泛使用的分类和回归方法。我们将从基础概念出发,逐步深入到算法的实际应用,最后通过一个代码示例来直观展示如何利用决策树解决实际问题。无论你是机器学习的初学者还是希望深化理解的开发者,这篇文章都将为你提供有价值的见解和指导。
|
1月前
|
机器学习/深度学习 算法 大数据
机器学习入门:梯度下降算法(下)
机器学习入门:梯度下降算法(下)

热门文章

最新文章