机器学习中的关联规则分析

简介: 在一组数据中找到某种内在联系,举个例子:在国外的某家超市,工作人员发现牛奶、啤酒、尿布经常在男性的账单中出现,看似风马牛不相及的事情,但确实就发生了,后来超市采取三者放在比较近的地方以提高销售量,事实证明他们真的成功了,其实是劳累了一天的爸爸在买孩子尿布的时候顺便买了啤酒,本质上是有因果关系的。所以关联分析就是通过数据分析出隐藏的关系的一种机器学习方法。

一、关联规则的背景

在一组数据中找到某种内在联系,举个例子:在国外的某家超市,工作人员发现牛奶、啤酒、尿布经常在男性的账单中出现,看似风马牛不相及的事情,但确实就发生了,后来超市采取三者放在比较近的地方以提高销售量,事实证明他们真的成功了,其实是劳累了一天的爸爸在买孩子尿布的时候顺便买了啤酒,本质上是有因果关系的。所以关联分析就是通过数据分析出隐藏的关系的一种机器学习方法。

二、基本概念

  • 项集

    由一个或者多个项组成的集合,例如: {牛奶, 面包, 尿布}

  • 支持数($\sigma$)

    一个项集出现的次数,例如:$\sigma$({牛奶, 面包, 尿布}) = 2

  • 支持度

    包含项集的记录占总记录的比例

    $S(x) = \sigma(x)/N$

  • 频繁项集

    支持度大于最小支持度阈值的项集

三、关联规则的产生

1.定义

$X->Y$

X到Y是不相交的项集

例子: {牛奶, 尿布}-> {啤酒}

2.满足的条件

  • 支持度

​ 包含项集X和Y的记录数占总记录数的比例

​ S(X->Y) = $\sigma{(X\cup Y)}/N$

  • 置信度

    包含项集X和Y的记录数占项集X的支持数

需要满足支持度和置信度都大于给定的最小阈值

3.寻找关联规则的策略

关联规则的寻找也可以采用枚举的办法找到

  • 寻找频繁项集

    支持度大等于最小支持度阀值的项集

  • 寻找支持度和置信度满足条件的规则

    在满足频繁项集的基础上满足置信度也大于等于最小置信度的规则

4.频繁项集的产生

减少候选项集的数目

  • 先验原理

    项集是频繁的,则它的子集也是频繁的

    反之,如果项集是非频繁的,则超集(父集)也是非频繁的

    支持度的反单调性:项集的支持度不大于子集的支持度

  • Apriori算法

    利用剪枝技术进行实现,开始假设每个项都是一个关联规则,然后计算支持度,不满足要求的这个项直接去掉,实现剪枝的目的

    然后再增加一个项,将剩余的满足条件的项进行组合,得到一个所有可能的组合表,可能产生的候选集比较多,可以采用特殊的数据结构进行处理,然后对两个项的规则再次计算支持度,最后也利用最小支持度进行剪枝,反复进行,直至达到预期的规则,此时就产生了一个频繁项集

减少比较次数

可将候选集合存储再一个hash表中以减少比较次数

5.产生规则

由同一个频繁项集可以产生多种不同的规则,对这些产生的规则进行置信度的计算,选择一个比较高的作为关联规则学习的结果,例如

{牛奶, 尿布}-> {啤酒} c~1~ = 66.7%

{牛奶, 啤酒}-> {尿布} c~2~ = 50%

{啤酒, 尿布}-> {牛奶} c~3~ = 100%

选择c~3~更加合适

目录
相关文章
|
3月前
|
机器学习/深度学习 算法 数据可视化
机器学习模型中特征贡献度分析:预测贡献与错误贡献
本文将探讨特征重要性与特征有效性之间的关系,并引入两个关键概念:预测贡献度和错误贡献度。
372 3
|
4天前
|
机器学习/深度学习 数据采集 运维
机器学习在运维中的实时分析应用:新时代的智能运维
机器学习在运维中的实时分析应用:新时代的智能运维
37 12
|
25天前
|
机器学习/深度学习 分布式计算 算法
【大数据分析&机器学习】分布式机器学习
本文主要介绍分布式机器学习基础知识,并介绍主流的分布式机器学习框架,结合实例介绍一些机器学习算法。
158 5
|
5月前
|
机器学习/深度学习 数据可视化 搜索推荐
Python在社交媒体分析中扮演关键角色,借助Pandas、NumPy、Matplotlib等工具处理、可视化数据及进行机器学习。
【7月更文挑战第5天】Python在社交媒体分析中扮演关键角色,借助Pandas、NumPy、Matplotlib等工具处理、可视化数据及进行机器学习。流程包括数据获取、预处理、探索、模型选择、评估与优化,以及结果可视化。示例展示了用户行为、话题趋势和用户画像分析。Python的丰富生态使得社交媒体洞察变得高效。通过学习和实践,可以提升社交媒体分析能力。
89 1
|
2月前
|
数据采集 移动开发 数据可视化
模型预测笔记(一):数据清洗分析及可视化、模型搭建、模型训练和预测代码一体化和对应结果展示(可作为baseline)
这篇文章介绍了数据清洗、分析、可视化、模型搭建、训练和预测的全过程,包括缺失值处理、异常值处理、特征选择、数据归一化等关键步骤,并展示了模型融合技术。
117 1
模型预测笔记(一):数据清洗分析及可视化、模型搭建、模型训练和预测代码一体化和对应结果展示(可作为baseline)
|
2月前
|
机器学习/深度学习 数据可视化 数据挖掘
机器学习中空间和时间自相关的分析:从理论基础到实践应用
空间和时间自相关是数据分析中的重要概念,揭示了现象在空间和时间维度上的相互依赖关系。本文探讨了这些概念的理论基础,并通过野火风险预测的实际案例,展示了如何利用随机森林模型捕捉时空依赖性,提高预测准确性。
99 0
机器学习中空间和时间自相关的分析:从理论基础到实践应用
|
2月前
|
机器学习/深度学习 数据可视化 算法
机器学习中的回归分析:理论与实践
机器学习中的回归分析:理论与实践
|
2月前
|
机器学习/深度学习 数据采集 算法
【Python篇】从零到精通:全面分析Scikit-Learn在机器学习中的绝妙应用
【Python篇】从零到精通:全面分析Scikit-Learn在机器学习中的绝妙应用
49 2
|
2月前
|
机器学习/深度学习 数据挖掘
二、机器学习之回归模型分析
二、机器学习之回归模型分析
161 0
|
3月前
|
机器学习/深度学习 存储 人工智能
文本情感识别分析系统Python+SVM分类算法+机器学习人工智能+计算机毕业设计
使用Python作为开发语言,基于文本数据集(一个积极的xls文本格式和一个消极的xls文本格式文件),使用Word2vec对文本进行处理。通过支持向量机SVM算法训练情绪分类模型。实现对文本消极情感和文本积极情感的识别。并基于Django框架开发网页平台实现对用户的可视化操作和数据存储。
55 0
文本情感识别分析系统Python+SVM分类算法+机器学习人工智能+计算机毕业设计