Apriori关联算法讲解以及利用Python实现算法软件设计

简介: Apriori关联算法讲解以及利用Python实现算法软件设计

一、Apriori关联算法原理概述


1.1 关联分析


关联分析是一种在大规模数据集中寻找有趣关系的任务。这些关系可以有两种形式:

(1) 频繁项集(frequent item sets): 经常出现在一块的物品的集合。

(2)关联规则(associational rules): 暗示两种物品之间可能存在很强的关系。


那些经常一起出现的物品集合,比如{啤酒,尿布,饼干}就是频繁项集中的一个例子,而根据上表也可以找到尿布->啤酒这样的关联规则。而我们是要通过关联分析大规模数据从而发现数据之间存在的有趣关系,那么问题来了,什么样的关系是有趣的呢?而这个有趣又是怎么定义的呢?我们可以通过支持度(support)和可信度(置信度confidence)来定义。一个项集的支持度指的是数据集中包含该项集记录所占的比例,上例中{豆奶}的支持度是2/5,{啤酒,尿布}的支持度是3/5;可信度是针对于像{尿布}->{啤酒}这样的关联规则来定义的,定义为:支持度({尿布,葡萄酒})/支持度(尿布)。


1.2 Apriori 原理


1.2.1 Apriori 算法流程步骤


收集数据:使用任意方法

准备数据:任何数据类型都可以,因为我们只保存集合

分析数据:使用任意方法

训练数据:使用Apiori算法来找到频繁项集

测试算法:不需要测试过程

使用算法:用于发现频繁项集以及物品之间的关联规则


1.2.2 使用Apriori算法来发现频繁集


Apriori 算法的两个输入参数分别是最小支持度和数据集。该算法首先会生成所有单个物品的项集列表。接着扫描交易记录来查看哪些项集满足最小支持度要求,那些不满足最小支持度要求的集合会被去掉。燃尽后对生下来的集合进行组合以声场包含两个元素的项集。接下来再重新扫描交易记录,去掉不满足最小支持度的项集。该过程重复进行直到所有项集被去掉。生成候选项集。


1.2.3 从频繁项集中挖掘关联规则


频繁项集可以使用Apriori算法寻找,当然下来就是要找出关联规则了。我们知道,假设有一个频繁项集,它们之间就有可能有一条关联规则,即可以表示为:“…—>…”,但反过来并不一定成立(其中箭头左边对应的集合为前件,箭头右边对应的集合为后件)。在上一节,我们使用最小支持度来量化频繁项集,对应的,采用可信度来量化关联规则。其中一条规则p—>H的可信度定义为:support(P|H)/support§,为找到其中的关联规则,我们可以先生成一个可能的规则列表,然后测试每条规则的可信度,结合可信度的最小要求,得到关联规则。同寻找频繁项集类似,我们可以为每个频繁项集产生许多关联规则,这样就会有很多的关联规则产生。结合Apriori原理,如果某条规则不满足最小可信度要求,那么该规则的所有子集也就不满足最小可信度要求,据此我们可以减少需要测试的规则数目,简化问题。


详细的Apriori算法大家都已经讲的很详细了,给大家推荐一篇优秀的博文:

Apriori算法详解


二、Python实现(重点来了!!!)


为了方便用户便捷的应用Apriori算法计算,我计划搭建一个便捷的可视化操作界面。一个Apriori算法计算器,先带大家看看效果,若需完整代码请看链接:Apriori算法代码链接(大家私信我可免费发给大家)

1、实验数据



注:(1)搭建的平台有两个数据输入端口,一种是用户导入csv文件数据进行计算另一种的用户手动输入订单。故导入csv文件端口使用数据集①进行计算,手动输入端口使用数据集②进行计算。

(2)数据集①于打包文件中的“样例数据.csv”中。


2、实验说明及过程截图

按照实验要求,本次实验使用python中的tkinter模块搭建计算关联规则的平台可视化界面,平台名称为“5433关联规则计算平台”。平台主界面截图如下:


主界面主要介绍了平台使用计算关联规则的两个算法,分类是Apriori算法与FP-tree算法。Apriori算法简单且易于实现,是最具代表性的关联规则挖掘算法。但是Apriori算法需要频繁的对数据库进行扫描,这大大增长了计算时间。因此本次太在Apriori的基础上加入FP-tree算法计算通道,FP-tree算法秩序进行两次扫描便可以对所有可能的频繁项进行计数。

点击“从本地文件读入数据”按钮,跳转到读入数据界面。从文件读入数据界面截图如下:



可见用户只需选择文件路径平台即可自动将文件中的数据读入平台数据库。同时用户可根据数据集的需要设置最小支持度与最小置信度。点击“Apriori计算”或“FP-tree计算”即可进入计算界面。若数据集过大建议使用FP-tree计算。后即可进入结果展示界面查看计算结果。结果展示界面截图如下:



点击“返回主界面”后点击“用户手动输入数据集”按钮进入手动输入数据界面。手动输入数据界面截图如下:


用户每输入一条数据点击“插入数据”按钮即可将数据插入数据库里。在设置最小支持度与最小置信度后,点击“Apriori计算”或“FP-tree计算”即可进入计算界面。

3、实验结果

本次计算于2021年10月21日星期四进行。

首先进行数据集①的计算,利用数据导入功能将“样例数据.csv”中的数据导入平台数据库,并设置最小支持度为0.2,最小置信度为0.5。操作截图如下:


分别点击“Apriori计算”进行计算。计算结果截图如下:


相关文章
|
2天前
|
算法 数据安全/隐私保护 开发者
马特赛特旋转算法:Python的随机模块背后的力量
马特赛特旋转算法是Python `random`模块的核心,由松本真和西村拓士于1997年提出。它基于线性反馈移位寄存器,具有超长周期和高维均匀性,适用于模拟、密码学等领域。Python中通过设置种子值初始化状态数组,经状态更新和输出提取生成随机数,代码简单高效。
|
12天前
|
机器学习/深度学习 人工智能 算法
基于Python深度学习的【垃圾识别系统】实现~TensorFlow+人工智能+算法网络
垃圾识别分类系统。本系统采用Python作为主要编程语言,通过收集了5种常见的垃圾数据集('塑料', '玻璃', '纸张', '纸板', '金属'),然后基于TensorFlow搭建卷积神经网络算法模型,通过对图像数据集进行多轮迭代训练,最后得到一个识别精度较高的模型文件。然后使用Django搭建Web网页端可视化操作界面,实现用户在网页端上传一张垃圾图片识别其名称。
43 0
基于Python深度学习的【垃圾识别系统】实现~TensorFlow+人工智能+算法网络
|
12天前
|
机器学习/深度学习 人工智能 算法
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
手写数字识别系统,使用Python作为主要开发语言,基于深度学习TensorFlow框架,搭建卷积神经网络算法。并通过对数据集进行训练,最后得到一个识别精度较高的模型。并基于Flask框架,开发网页端操作平台,实现用户上传一张图片识别其名称。
44 0
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
|
12天前
|
机器学习/深度学习 人工智能 算法
基于深度学习的【蔬菜识别】系统实现~Python+人工智能+TensorFlow+算法模型
蔬菜识别系统,本系统使用Python作为主要编程语言,通过收集了8种常见的蔬菜图像数据集('土豆', '大白菜', '大葱', '莲藕', '菠菜', '西红柿', '韭菜', '黄瓜'),然后基于TensorFlow搭建卷积神经网络算法模型,通过多轮迭代训练最后得到一个识别精度较高的模型文件。在使用Django开发web网页端操作界面,实现用户上传一张蔬菜图片识别其名称。
52 0
基于深度学习的【蔬菜识别】系统实现~Python+人工智能+TensorFlow+算法模型
|
16天前
|
算法 Python
在Python编程中,分治法、贪心算法和动态规划是三种重要的算法。分治法通过将大问题分解为小问题,递归解决后合并结果
在Python编程中,分治法、贪心算法和动态规划是三种重要的算法。分治法通过将大问题分解为小问题,递归解决后合并结果;贪心算法在每一步选择局部最优解,追求全局最优;动态规划通过保存子问题的解,避免重复计算,确保全局最优。这三种算法各具特色,适用于不同类型的问题,合理选择能显著提升编程效率。
32 2
|
25天前
|
算法 测试技术 开发者
在Python开发中,性能优化和代码审查至关重要。性能优化通过改进代码结构和算法提高程序运行速度,减少资源消耗
在Python开发中,性能优化和代码审查至关重要。性能优化通过改进代码结构和算法提高程序运行速度,减少资源消耗;代码审查通过检查源代码发现潜在问题,提高代码质量和团队协作效率。本文介绍了一些实用的技巧和工具,帮助开发者提升开发效率。
29 3
|
28天前
|
机器学习/深度学习 人工智能 算法
【车辆车型识别】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+算法模型
车辆车型识别,使用Python作为主要编程语言,通过收集多种车辆车型图像数据集,然后基于TensorFlow搭建卷积网络算法模型,并对数据集进行训练,最后得到一个识别精度较高的模型文件。再基于Django搭建web网页端操作界面,实现用户上传一张车辆图片识别其类型。
72 0
【车辆车型识别】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+算法模型
|
1月前
|
机器学习/深度学习 算法 Java
机器学习、基础算法、python常见面试题必知必答系列大全:(面试问题持续更新)
机器学习、基础算法、python常见面试题必知必答系列大全:(面试问题持续更新)
|
1月前
|
算法 安全 数据安全/隐私保护
基于game-based算法的动态频谱访问matlab仿真
本算法展示了在认知无线电网络中,通过游戏理论优化动态频谱访问,提高频谱利用率和物理层安全性。程序运行效果包括负载因子、传输功率、信噪比对用户效用和保密率的影响分析。软件版本:Matlab 2022a。完整代码包含详细中文注释和操作视频。
|
9天前
|
算法 数据安全/隐私保护 索引
OFDM系统PAPR算法的MATLAB仿真,对比SLM,PTS以及CAF,对比不同傅里叶变换长度
本项目展示了在MATLAB 2022a环境下,通过选择映射(SLM)与相位截断星座图(PTS)技术有效降低OFDM系统中PAPR的算法实现。包括无水印的算法运行效果预览、核心程序及详尽的中文注释,附带操作步骤视频,适合研究与教学使用。
下一篇
无影云桌面