【Python机器学习专栏】关联规则学习：Apriori算法详解

2024-04-30 988

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【4月更文挑战第30天】Apriori算法是一种用于关联规则学习的经典算法，尤其适用于购物篮分析，以发现商品间的购买关联。该算法基于支持度和置信度指标，通过迭代生成频繁项集并提取满足阈值的规则。Python中可借助mlxtend库实现Apriori，例如处理购物篮数据，设置支持度和置信度阈值，找出相关规则。

在数据分析和数据挖掘中，关联规则学习是一种非常重要的技术，它旨在从大型数据集中发现变量之间的关系。关联规则学习的最典型应用场景就是“购物篮分析”，通过了解哪些商品经常一起被购买，零售商可以制定更有效的销售策略。Apriori算法是关联规则学习中最常用的一种算法，本文将对Apriori算法进行详细的介绍，并通过Python实现该算法。

一、关联规则学习概述

关联规则学习是一种在大型数据集中寻找项集之间有趣关系的方法。一个关联规则可以表示为X -> Y，其中X和Y是不相交的项集，即X ∩ Y = ∅。关联规则学习的主要目标是找出支持度和置信度均满足一定阈值的强关联规则。

支持度（Support）：表示项集{X, Y}在数据集中出现的频率，记作P(X, Y)。
置信度（Confidence）：表示在出现项集X的条件下，项集Y也出现的概率，记作P(Y|X)。
二、Apriori算法原理

Apriori算法是一种基于候选项集生成和测试的关联规则学习算法。它利用了两个重要的性质来减少候选项集的数量：

如果一个项集是频繁的，则它的所有子集也一定是频繁的。
如果一个项集是非频繁的，则它的所有超集也一定是非频繁的。
基于这两个性质，Apriori算法通过迭代的方式生成候选项集，并计算每个候选项集的支持度，从而找出所有频繁的项集。在找到频繁的项集后，Apriori算法再从中提取出满足置信度阈值的关联规则。

三、Apriori算法步骤

数据准备：将数据集转换为适合Apriori算法处理的格式，通常是将数据集转换为布尔型矩阵，其中每一行代表一个事务，每一列代表一个项。

计算频繁1-项集：遍历数据集中的每一项，统计每项的出现次数，得到频繁1-项集列表L1。

迭代生成频繁k-项集（k > 1）：

生成候选项集：根据L(k-1)和Apriori性质，生成候选k-项集列表Ck。
计算候选项集的支持度：遍历数据集中的每一个事务，统计Ck中每个候选项集的出现次数，从而计算支持度。
生成频繁k-项集：根据支持度阈值，从Ck中筛选出频繁的k-项集，形成列表Lk。
提取关联规则：从频繁项集中提取出满足置信度阈值的关联规则。

四、Python实现Apriori算法

在Python中，我们可以使用mlxtend库来实现Apriori算法。下面是一个简单的示例：

python
import pandas as pd
from mlxtend.frequent_patterns import apriori
from mlxtend.frequent_patterns import association_rules

示例数据集（购物篮数据）

dataset = [['牛奶', '面包', '黄油'],
['面包', '黄油', '尿布'],
['牛奶', '尿布', '啤酒', '鸡蛋'],
['面包', '牛奶', '尿布', '啤酒'],
['面包', '牛奶', '尿布', '鸡蛋'],
['面包', '黄油', '尿布', '啤酒'],
['面包', '黄油', '尿布', '可乐']]

将数据集转换为布尔型矩阵

def list_to_onehot(lst, vocabulary):
return [1 if word in lst else 0 for word in vocabulary]

合并所有事务形成词汇表

vocabulary = set([item for transaction in dataset for item in transaction])
transactions = [[list_to_onehot(transaction, vocabulary)] for transaction in dataset]

将布尔型矩阵转换为DataFrame

df = pd.DataFrame(transactions, columns=vocabulary)

计算频繁项集（设定支持度阈值为0.2）

frequent_itemsets = apriori(df, min_support=0.2, use_colnames=True)

提取关联规则（设定置信度阈值为0.7）

rules = association_rules(frequent_itemsets, metric="confidence", min_threshold=0.7)

打印关联规则

print(rules[['antecedents', 'consequents', 'support', 'confidence']])
在上面的代码中，我们首先定义了一个示例数据集，然后将其转换为布尔型矩阵。接着，我们使用mlxtend库中的

【Python机器学习专栏】关联规则学习：Apriori算法详解

示例数据集（购物篮数据）

将数据集转换为布尔型矩阵

合并所有事务形成词汇表

将布尔型矩阵转换为DataFrame

计算频繁项集（设定支持度阈值为0.2）

提取关联规则（设定置信度阈值为0.7）

打印关联规则

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

【Python机器学习专栏】关联规则学习：Apriori算法详解

示例数据集（购物篮数据）

将数据集转换为布尔型矩阵

合并所有事务形成词汇表

将布尔型矩阵转换为DataFrame

计算频繁项集（设定支持度阈值为0.2）

提取关联规则（设定置信度阈值为0.7）

打印关联规则

热门文章

最新文章

相关课程

相关电子书

相关实验场景