【Python机器学习专栏】关联规则学习:Apriori算法详解

简介: 【4月更文挑战第30天】Apriori算法是一种用于关联规则学习的经典算法,尤其适用于购物篮分析,以发现商品间的购买关联。该算法基于支持度和置信度指标,通过迭代生成频繁项集并提取满足阈值的规则。Python中可借助mlxtend库实现Apriori,例如处理购物篮数据,设置支持度和置信度阈值,找出相关规则。

在数据分析和数据挖掘中,关联规则学习是一种非常重要的技术,它旨在从大型数据集中发现变量之间的关系。关联规则学习的最典型应用场景就是“购物篮分析”,通过了解哪些商品经常一起被购买,零售商可以制定更有效的销售策略。Apriori算法是关联规则学习中最常用的一种算法,本文将对Apriori算法进行详细的介绍,并通过Python实现该算法。

一、关联规则学习概述

关联规则学习是一种在大型数据集中寻找项集之间有趣关系的方法。一个关联规则可以表示为X -> Y,其中X和Y是不相交的项集,即X ∩ Y = ∅。关联规则学习的主要目标是找出支持度和置信度均满足一定阈值的强关联规则。

支持度(Support):表示项集{X, Y}在数据集中出现的频率,记作P(X, Y)。
置信度(Confidence):表示在出现项集X的条件下,项集Y也出现的概率,记作P(Y|X)。
二、Apriori算法原理

Apriori算法是一种基于候选项集生成和测试的关联规则学习算法。它利用了两个重要的性质来减少候选项集的数量:

如果一个项集是频繁的,则它的所有子集也一定是频繁的。
如果一个项集是非频繁的,则它的所有超集也一定是非频繁的。
基于这两个性质,Apriori算法通过迭代的方式生成候选项集,并计算每个候选项集的支持度,从而找出所有频繁的项集。在找到频繁的项集后,Apriori算法再从中提取出满足置信度阈值的关联规则。

三、Apriori算法步骤

数据准备:将数据集转换为适合Apriori算法处理的格式,通常是将数据集转换为布尔型矩阵,其中每一行代表一个事务,每一列代表一个项。

计算频繁1-项集:遍历数据集中的每一项,统计每项的出现次数,得到频繁1-项集列表L1。

迭代生成频繁k-项集(k > 1):

生成候选项集:根据L(k-1)和Apriori性质,生成候选k-项集列表Ck。
计算候选项集的支持度:遍历数据集中的每一个事务,统计Ck中每个候选项集的出现次数,从而计算支持度。
生成频繁k-项集:根据支持度阈值,从Ck中筛选出频繁的k-项集,形成列表Lk。
提取关联规则:从频繁项集中提取出满足置信度阈值的关联规则。

四、Python实现Apriori算法

在Python中,我们可以使用mlxtend库来实现Apriori算法。下面是一个简单的示例:

python
import pandas as pd
from mlxtend.frequent_patterns import apriori
from mlxtend.frequent_patterns import association_rules

示例数据集(购物篮数据)

dataset = [['牛奶', '面包', '黄油'],
['面包', '黄油', '尿布'],
['牛奶', '尿布', '啤酒', '鸡蛋'],
['面包', '牛奶', '尿布', '啤酒'],
['面包', '牛奶', '尿布', '鸡蛋'],
['面包', '黄油', '尿布', '啤酒'],
['面包', '黄油', '尿布', '可乐']]

将数据集转换为布尔型矩阵

def list_to_onehot(lst, vocabulary):
return [1 if word in lst else 0 for word in vocabulary]

合并所有事务形成词汇表

vocabulary = set([item for transaction in dataset for item in transaction])
transactions = [[list_to_onehot(transaction, vocabulary)] for transaction in dataset]

将布尔型矩阵转换为DataFrame

df = pd.DataFrame(transactions, columns=vocabulary)

计算频繁项集(设定支持度阈值为0.2)

frequent_itemsets = apriori(df, min_support=0.2, use_colnames=True)

提取关联规则(设定置信度阈值为0.7)

rules = association_rules(frequent_itemsets, metric="confidence", min_threshold=0.7)

打印关联规则

print(rules[['antecedents', 'consequents', 'support', 'confidence']])
在上面的代码中,我们首先定义了一个示例数据集,然后将其转换为布尔型矩阵。接着,我们使用mlxtend库中的

相关文章
|
8月前
|
机器学习/深度学习 算法 数据挖掘
没发论文的注意啦!重磅更新!GWO-BP-AdaBoost预测!灰狼优化、人工神经网络与AdaBoost集成学习算法预测研究(Matlab代码实现)
没发论文的注意啦!重磅更新!GWO-BP-AdaBoost预测!灰狼优化、人工神经网络与AdaBoost集成学习算法预测研究(Matlab代码实现)
241 0
|
6月前
|
机器学习/深度学习 数据采集 人工智能
【机器学习算法篇】K-近邻算法
K近邻(KNN)是一种基于“物以类聚”思想的监督学习算法,通过计算样本间距离,选取最近K个邻居投票决定类别。支持多种距离度量,如欧式、曼哈顿、余弦相似度等,适用于分类与回归任务。结合Scikit-learn可高效实现,需合理选择K值并进行数据预处理,常用于鸢尾花分类等经典案例。(238字)
|
7月前
|
机器学习/深度学习 运维 算法
【微电网多目标优化调度】多目标学习者行为优化算法MOLPB求解微电网多目标优化调度研究(Matlab代码实现)
【微电网多目标优化调度】多目标学习者行为优化算法MOLPB求解微电网多目标优化调度研究(Matlab代码实现)
319 1
|
11月前
|
机器学习/深度学习 数据采集 人工智能
20分钟掌握机器学习算法指南
在短短20分钟内,从零开始理解主流机器学习算法的工作原理,掌握算法选择策略,并建立对神经网络的直观认识。本文用通俗易懂的语言和生动的比喻,帮助你告别算法选择的困惑,轻松踏入AI的大门。
753 8
|
算法 数据可视化 开发者
为什么要学习数据结构与算法
今天,我向大家介绍一门非常重要的课程——《数据结构与算法》。这门课不仅是计算机学科的核心,更是每一位开发者从“小白”迈向“高手”的必经之路。
为什么要学习数据结构与算法
|
机器学习/深度学习 存储 Kubernetes
【重磅发布】AllData数据中台核心功能:机器学习算法平台
杭州奥零数据科技有限公司成立于2023年,专注于数据中台业务,维护开源项目AllData并提供商业版解决方案。AllData提供数据集成、存储、开发、治理及BI展示等一站式服务,支持AI大模型应用,助力企业高效利用数据价值。
|
机器学习/深度学习 人工智能 自然语言处理
AI训练师入行指南(三):机器学习算法和模型架构选择
从淘金到雕琢,将原始数据炼成智能珠宝!本文带您走进数字珠宝工坊,用算法工具打磨数据金砂。从基础的经典算法到精密的深度学习模型,结合电商、医疗、金融等场景实战,手把手教您选择合适工具,打造价值连城的智能应用。掌握AutoML改装套件与模型蒸馏术,让复杂问题迎刃而解。握紧算法刻刀,为数字世界雕刻文明!
444 6
|
机器学习/深度学习 算法 数据挖掘
K-means聚类算法是机器学习中常用的一种聚类方法,通过将数据集划分为K个簇来简化数据结构
K-means聚类算法是机器学习中常用的一种聚类方法,通过将数据集划分为K个簇来简化数据结构。本文介绍了K-means算法的基本原理,包括初始化、数据点分配与簇中心更新等步骤,以及如何在Python中实现该算法,最后讨论了其优缺点及应用场景。
1565 6
|
机器学习/深度学习 人工智能 算法
机器学习算法的优化与改进:提升模型性能的策略与方法
机器学习算法的优化与改进:提升模型性能的策略与方法
2426 13
机器学习算法的优化与改进:提升模型性能的策略与方法
|
机器学习/深度学习 算法 数据安全/隐私保护
基于机器学习的人脸识别算法matlab仿真,对比GRNN,PNN,DNN以及BP四种网络
本项目展示了人脸识别算法的运行效果(无水印),基于MATLAB2022A开发。核心程序包含详细中文注释及操作视频。理论部分介绍了广义回归神经网络(GRNN)、概率神经网络(PNN)、深度神经网络(DNN)和反向传播(BP)神经网络在人脸识别中的应用,涵盖各算法的结构特点与性能比较。