机器学习关联分析PF和Apriori算法

简介: 机器学习关联分析PF和Apriori算法

1 什么是关联分析

此篇为了解篇幅,不做具体的算法实例,就是知道简单有这么回事,什么情况会用到的分析.


关联分析又称关联挖掘,就是在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性或因果结构。或者说,关联分析是发现交易数据库中不同商品(项)之间的联系。


简单的说:就是经常举例到的啤酒和尿片,大数据经典案例

买啤酒的人大部分会买尿片,所以放一起会卖的更好,我感觉有所依据,但是感觉是一种营销.


79910288ff47423cbb4ce5926845be51.png

2 Apriori算法

Apriori 算法是挖掘产生布尔关联规则所需频繁项集的基本算法,它使用一种称作逐层搜索的迭代方法,k 项集用于探索 k+1 项集。


衡量频率的指标有两个:一个是支持度,一个是置信度


这两个指标分别指的是这种模式的有用性和确定性。设置门限“最小支持度”和“最小置信度”,支持度和置信度同时高于这两个门限就可以认为是频繁模式了。


置信度是有“方向性”的,如果说购买面包的记录里有100%的记录都购买了麦片,那么就说购买面包后购买麦片的置信度为100%;反向地看,如果购买了麦片的记录有67%的记录都购买了面包,那么就说购买麦片后购买麦片的置信度为67%。


这里先不考虑置信度

e53e49b6345f445485619162c322a3e8.png


支持度概念:项集排列组合的一个最重要的性质是它的支持度计数,也就是包含特定项集的事务个数。我们从数学上定义项集X的支持度计数表示为

f49aed625a75424aa617645b71d817b7.png


统计总数得到:

都大于支持度2

8873317b7b5944e79d14c074b9584316.png

继续按照支持度淘汰

5932f55558384440be16da347bf90d9e.png

最后有一个公式的话最多能组成的项是t-1项,也就是四件商品,然后-1得到为三,最后得到最频繁的项集


d63f110fbcf7491bad58497a64da70b5.png

3 FP-growth算法

首先要知道,就是在每个购买记录中出现的各种单品其实体现的是一种组合的性质。也就是说,消费者在购买了一种单品的同时又购买了另一种单品。而且,这些单品的组合在记录中是无序的,也就是无法知道在记录1中究竟是先“购买”了面包然后诱使他又“购买”了麦片,还是先“购买”了面包后来又购买了麦片。因此只能研究一个无序的组合,这种组合就叫做“模式”。


这些模式里,有的出现频率很低,有的出现频率很高,一般认为频率较高的通常更有指导意义,这种高频率的模式就被称作“频繁模式”。


FP-growth 算法通过两次扫描事务数据库,把每个事务所包含的频繁项目按其支持度降序压缩存储到 FP—tree 中,这样在以后发现频繁模式的过程中,不需要再扫描事务数据库,仅在 FP-Tree 中进行查找即可。


e120422644f34d509f6ed6c8e00b5bb3.png

22788e49cad944b99330ba53fee98a7b.png

4 关联规则学习

关联规则学习是一种在大型数据库中发现变量之间的有趣性关系的方法,它的目的是利用一些有趣性的量度来识别数据库中发现的强规则。


目录
相关文章
|
8天前
|
机器学习/深度学习 人工智能 算法
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
手写数字识别系统,使用Python作为主要开发语言,基于深度学习TensorFlow框架,搭建卷积神经网络算法。并通过对数据集进行训练,最后得到一个识别精度较高的模型。并基于Flask框架,开发网页端操作平台,实现用户上传一张图片识别其名称。
28 0
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
|
25天前
|
并行计算 算法 IDE
【灵码助力Cuda算法分析】分析共享内存的矩阵乘法优化
本文介绍了如何利用通义灵码在Visual Studio 2022中对基于CUDA的共享内存矩阵乘法优化代码进行深入分析。文章从整体程序结构入手,逐步深入到线程调度、矩阵分块、循环展开等关键细节,最后通过带入具体值的方式进一步解析复杂循环逻辑,展示了通义灵码在辅助理解和优化CUDA编程中的强大功能。
|
29天前
|
机器学习/深度学习 算法 Java
机器学习、基础算法、python常见面试题必知必答系列大全:(面试问题持续更新)
机器学习、基础算法、python常见面试题必知必答系列大全:(面试问题持续更新)
|
1月前
|
机器学习/深度学习 人工智能 算法
【玉米病害识别】Python+卷积神经网络算法+人工智能+深度学习+计算机课设项目+TensorFlow+模型训练
玉米病害识别系统,本系统使用Python作为主要开发语言,通过收集了8种常见的玉米叶部病害图片数据集('矮花叶病', '健康', '灰斑病一般', '灰斑病严重', '锈病一般', '锈病严重', '叶斑病一般', '叶斑病严重'),然后基于TensorFlow搭建卷积神经网络算法模型,通过对数据集进行多轮迭代训练,最后得到一个识别精度较高的模型文件。再使用Django搭建Web网页操作平台,实现用户上传一张玉米病害图片识别其名称。
56 0
【玉米病害识别】Python+卷积神经网络算法+人工智能+深度学习+计算机课设项目+TensorFlow+模型训练
|
17天前
|
机器学习/深度学习 人工智能 算法
探索机器学习中的决策树算法
【10月更文挑战第29天】本文将深入浅出地介绍决策树算法,一种在机器学习中广泛使用的分类和回归方法。我们将从基础概念出发,逐步深入到算法的实际应用,最后通过一个代码示例来直观展示如何利用决策树解决实际问题。无论你是机器学习的初学者还是希望深化理解的开发者,这篇文章都将为你提供有价值的见解和指导。
|
1月前
|
算法
PID算法原理分析
【10月更文挑战第12天】PID控制方法从提出至今已有百余年历史,其由于结构简单、易于实现、鲁棒性好、可靠性高等特点,在机电、冶金、机械、化工等行业中应用广泛。
|
1月前
|
算法
PID算法原理分析及优化
【10月更文挑战第6天】PID控制方法从提出至今已有百余年历史,其由于结构简单、易于实现、鲁棒性好、可靠性高等特点,在机电、冶金、机械、化工等行业中应用广泛。
|
1月前
|
机器学习/深度学习 算法 数据处理
EM算法对人脸数据降维(机器学习作业06)
本文介绍了使用EM算法对人脸数据进行降维的机器学习作业。首先通过加载ORL人脸数据库,然后分别应用SVD_PCA、MLE_PCA及EM_PCA三种方法实现数据降维,并输出降维后的数据形状。此作业展示了不同PCA变种在人脸数据处理中的应用效果。
34 0
|
6月前
|
机器学习/深度学习 存储 搜索推荐
利用机器学习算法改善电商推荐系统的效率
电商行业日益竞争激烈,提升用户体验成为关键。本文将探讨如何利用机器学习算法优化电商推荐系统,通过分析用户行为数据和商品信息,实现个性化推荐,从而提高推荐效率和准确性。
239 14
|
6月前
|
机器学习/深度学习 算法 搜索推荐
Machine Learning机器学习之决策树算法 Decision Tree(附Python代码)
Machine Learning机器学习之决策树算法 Decision Tree(附Python代码)