机器学习中的关联规则分析

简介: 在一组数据中找到某种内在联系,举个例子:在国外的某家超市,工作人员发现牛奶、啤酒、尿布经常在男性的账单中出现,看似风马牛不相及的事情,但确实就发生了,后来超市采取三者放在比较近的地方以提高销售量,事实证明他们真的成功了,其实是劳累了一天的爸爸在买孩子尿布的时候顺便买了啤酒,本质上是有因果关系的。所以关联分析就是通过数据分析出隐藏的关系的一种机器学习方法。

一、关联规则的背景

在一组数据中找到某种内在联系,举个例子:在国外的某家超市,工作人员发现牛奶、啤酒、尿布经常在男性的账单中出现,看似风马牛不相及的事情,但确实就发生了,后来超市采取三者放在比较近的地方以提高销售量,事实证明他们真的成功了,其实是劳累了一天的爸爸在买孩子尿布的时候顺便买了啤酒,本质上是有因果关系的。所以关联分析就是通过数据分析出隐藏的关系的一种机器学习方法。

二、基本概念

  • 项集

    由一个或者多个项组成的集合,例如: {牛奶, 面包, 尿布}

  • 支持数($\sigma$)

    一个项集出现的次数,例如:$\sigma$({牛奶, 面包, 尿布}) = 2

  • 支持度

    包含项集的记录占总记录的比例

    $S(x) = \sigma(x)/N$

  • 频繁项集

    支持度大于最小支持度阈值的项集

三、关联规则的产生

1.定义

$X->Y$

X到Y是不相交的项集

例子: {牛奶, 尿布}-> {啤酒}

2.满足的条件

  • 支持度

​ 包含项集X和Y的记录数占总记录数的比例

​ S(X->Y) = $\sigma{(X\cup Y)}/N$

  • 置信度

    包含项集X和Y的记录数占项集X的支持数

需要满足支持度和置信度都大于给定的最小阈值

3.寻找关联规则的策略

关联规则的寻找也可以采用枚举的办法找到

  • 寻找频繁项集

    支持度大等于最小支持度阀值的项集

  • 寻找支持度和置信度满足条件的规则

    在满足频繁项集的基础上满足置信度也大于等于最小置信度的规则

4.频繁项集的产生

减少候选项集的数目

  • 先验原理

    项集是频繁的,则它的子集也是频繁的

    反之,如果项集是非频繁的,则超集(父集)也是非频繁的

    支持度的反单调性:项集的支持度不大于子集的支持度

  • Apriori算法

    利用剪枝技术进行实现,开始假设每个项都是一个关联规则,然后计算支持度,不满足要求的这个项直接去掉,实现剪枝的目的

    然后再增加一个项,将剩余的满足条件的项进行组合,得到一个所有可能的组合表,可能产生的候选集比较多,可以采用特殊的数据结构进行处理,然后对两个项的规则再次计算支持度,最后也利用最小支持度进行剪枝,反复进行,直至达到预期的规则,此时就产生了一个频繁项集

减少比较次数

可将候选集合存储再一个hash表中以减少比较次数

5.产生规则

由同一个频繁项集可以产生多种不同的规则,对这些产生的规则进行置信度的计算,选择一个比较高的作为关联规则学习的结果,例如

{牛奶, 尿布}-> {啤酒} c~1~ = 66.7%

{牛奶, 啤酒}-> {尿布} c~2~ = 50%

{啤酒, 尿布}-> {牛奶} c~3~ = 100%

选择c~3~更加合适

目录
相关文章
|
1月前
|
机器学习/深度学习 数据可视化 搜索推荐
Python在社交媒体分析中扮演关键角色,借助Pandas、NumPy、Matplotlib等工具处理、可视化数据及进行机器学习。
【7月更文挑战第5天】Python在社交媒体分析中扮演关键角色,借助Pandas、NumPy、Matplotlib等工具处理、可视化数据及进行机器学习。流程包括数据获取、预处理、探索、模型选择、评估与优化,以及结果可视化。示例展示了用户行为、话题趋势和用户画像分析。Python的丰富生态使得社交媒体洞察变得高效。通过学习和实践,可以提升社交媒体分析能力。
51 1
|
3天前
|
机器学习/深度学习 人工智能 数据处理
【人工智能】项目实践与案例分析:利用机器学习探测外太空中的系外行星
探测外太空中的系外行星是天文学和天体物理学的重要研究领域。随着望远镜观测技术的进步和大数据的积累,科学家们已经能够观测到大量恒星的光度变化,并尝试从中识别出由行星凌日(行星经过恒星前方时遮挡部分光线)引起的微小亮度变化。然而,由于数据量巨大且信号微弱,传统方法难以高效准确地识别所有行星信号。因此,本项目旨在利用机器学习技术,特别是深度学习,从海量的天文观测数据中自动识别和分类系外行星的信号。这要求设计一套高效的数据处理流程、构建适合的机器学习模型,并实现自动化的预测和验证系统。
13 1
【人工智能】项目实践与案例分析:利用机器学习探测外太空中的系外行星
|
14天前
|
机器学习/深度学习 算法 数据中心
【机器学习】面试问答:PCA算法介绍?PCA算法过程?PCA为什么要中心化处理?PCA为什么要做正交变化?PCA与线性判别分析LDA降维的区别?
本文介绍了主成分分析(PCA)算法,包括PCA的基本概念、算法过程、中心化处理的必要性、正交变换的目的,以及PCA与线性判别分析(LDA)在降维上的区别。
29 4
|
17天前
|
机器学习/深度学习 算法 搜索推荐
基于机器学习的用户行为分析:深入洞察与精准决策
【8月更文挑战第3天】基于机器学习的用户行为分析为企业提供了深入了解用户需求、优化产品设计和制定精准营销策略的有力工具。随着人工智能和大数据技术的不断发展,用户行为分析将更加智能化和个性化。未来,我们可以期待更加高效、精准的机器学习算法和模型的出现,以及更多创新性的应用场景的拓展。同时,也需要关注数据隐私和安全性问题,确保用户数据的安全和合规使用。
|
30天前
|
机器学习/深度学习 算法 数据可视化
Fisher模型在统计学和机器学习领域通常指的是Fisher线性判别分析(Fisher's Linear Discriminant Analysis,简称LDA)
Fisher模型在统计学和机器学习领域通常指的是Fisher线性判别分析(Fisher's Linear Discriminant Analysis,简称LDA)
|
13天前
|
机器学习/深度学习 数据采集 数据可视化
基于机器学习的一线城市租房价格预测分析与实现,实现三种算法预测
本文通过数据采集、处理、特征选择和机器学习建模,对一线城市租房价格进行预测分析,比较了随机森林、一元线性回归和多元线性回归模型,并发现随机森林模型在预测租房价格方面表现最佳,为租房市场参与者提供决策支持。
|
17天前
|
机器学习/深度学习 算法
【机器学习】梯度消失和梯度爆炸的原因分析、表现及解决方案
本文分析了深度神经网络中梯度消失和梯度爆炸的原因、表现形式及解决方案,包括梯度不稳定的根本原因以及如何通过网络结构设计、激活函数选择和权重初始化等方法来解决这些问题。
9 0
|
2月前
|
机器学习/深度学习 计算机视觉
【机器学习】YOLOv10与YOLOv8分析
【机器学习】YOLOv10与YOLOv8分析
303 6
|
2月前
|
机器学习/深度学习 存储 自然语言处理
【机器学习】LoRA:大语言模型中低秩自适应分析
【机器学习】LoRA:大语言模型中低秩自适应分析
148 5