【数据挖掘】关联规则和Apriori算法

简介: 一.数据挖掘概念1.1什么是数据挖掘?数据挖掘就是从海量的数据源中,如数据库、文本、图片、万维网、视频等资源中寻找有用的模式,这些模式是有用的、有潜在价值的、可以被理解的。

一.数据挖掘概念

1.1什么是数据挖掘?

数据挖掘就是从海量的数据源中,如数据库、文本、图片、万维网、视频等资源中寻找有用的模式,这些模式是有用的、有潜在价值的、可以被理解的。

1.2从数据中发现知识的步骤

  • 采集数据
  • 存储数据
  • 管理数据
  • 分析数据
  • 结果应用

1.3数据挖掘的任务

1.传统数据挖掘任务

  • 分类
  • 聚类
  • 关联规则挖掘
  • 序列挖掘
  • 离群点发现
  • 数据可视化

2.互联网时代的数据挖掘任务

  • 文本、网页分析
    • 知识库(实体、属性、关系抽取)
    • 关键词发现
  • 社交网络分析
  • 商品推荐
  • 互联网搜索排序
  • 互联网广告

1.4相关领域

  • 机器学习
  • 概率统计
  • 数据库
  • 信息检索
  • 推荐系统
  • 自然语言处理

1.5 数据挖掘的方法

数据挖掘的方法有很多种,常见的有:

  1. 监督学习(或者称为分类)
  2. 无监督学习(或者称为聚类)
  3. 关联规则挖掘
  4. 序列模式挖掘

1.6数据挖掘经典案例

通俗的理解,数据挖掘就是从数据中发掘规律,利用规律创造价值。啤酒与尿布 是很经典的数据挖掘案例:在超市中,把啤酒和尿布摆在一起会使啤酒和尿布这两种风马牛不相及的商品销量大幅增加。原因是美国的妇女通常在家照顾孩子,丈夫去超市购物时会买上自己需要的啤酒和孩子需要的尿布。这个发现给商家带来了利润,那么这个规律是怎么发现的?靠的就是数据挖掘,通过数据挖掘还可以发现更多有价值的规律。

二、关联规则

2.1关联规则的基本概念

设I={i1,i2,i3……im)是一个项目(item)集合,T=(t1,t2,t3,……tn)是一个事务集合,每个事务ti是一个项目集合,ti是I的子集.一个关联规则是形如X→Y的蕴涵关系,其中X包含于I,Y包含于I,称为一个项集.

数学描述不太容易理解,拿商场购物来举个具体例子:商场中所有的商品是一个大的集合,相当于项目集合I;顾客一次的购买记录是一个事务,比如一位顾客在商场买了猪肉、白菜、芹菜是一个事务,另一位顾客买了羽毛拍、羽毛球,毛巾也是一个事务,{猪肉,白菜、芹菜}、{羽毛拍,羽毛球,毛巾}都是所有商品的子集.买了羽毛拍又买了羽毛球就是一个关联规则.记做

羽毛球拍 →羽毛球

2.2支持度和置信度

支持度:T中的交易同时包含X和Y.

sup=(X∪Y).count/n

置信度:T中包含X的事务同时包含Y

conf=(X∪Y).count/X.count

举例来理解这两个概念,下面一个包含7个事务的事务集合:
t1: 牛肉、鸡肉、牛奶
t2: 牛肉、奶酪
t3:奶酪、靴子
t4:牛肉、鸡肉、奶酪
t5:牛肉、鸡肉、衣服、奶酪、牛奶
t6:鸡肉、衣服、牛奶
t7:鸡肉、牛奶、衣服
牛肉→鸡肉 [sup=3/7,conf=3/4]
鸡肉,衣服→牛奶 [sup=3/7,conf=3/3]
支持度太小则表明相应的规则很可能只是偶然发生的,在商业环境中覆盖太少案例的规则很可能没有任何价值.置信度决定了规则的可预测度,如果一个规则的置信度太低,则从X很难推断出Y,置信度太低的规则在实际应用中也不会有很大的用处.最小支持度最小置信度分别用minsupminconf表示
给定一个事务数据集合怎么找出其中的关联规则?关联规则挖掘算法有很多,采用的不一样的算法在算法执行效率上各有不同,但是在同样的关联规则下挖掘出的关联规则应该是一样的.其中最著名的是Apriori算法.

三.Apriori算法

Apriori算法分两步进行:

  1. 生成所有频繁项目集:一个频繁项目集是一个支持度高于minsup的集合.
  2. 从频繁项目及中生成可信关联规则:一个可信关联规则是置信度大于minconf的规则.
目录
相关文章
|
3月前
|
算法 前端开发 机器人
一文了解分而治之和动态规则算法在前端中的应用
该文章详细介绍了分而治之策略和动态规划算法在前端开发中的应用,并通过具体的例子和LeetCode题目解析来说明这两种算法的特点及使用场景。
一文了解分而治之和动态规则算法在前端中的应用
|
3月前
|
机器学习/深度学习 数据采集 算法
数据挖掘和机器学习算法
数据挖掘和机器学习算法
|
3月前
|
存储 算法 大数据
Apriori算法和Eclat算法差异
Apriori算法和Eclat算法差异
|
4月前
|
机器学习/深度学习 存储 人工智能
【数据挖掘】2022年2023届秋招知能科技公司机器学习算法工程师 笔试题
本文是关于2022-2023年知能科技公司机器学习算法工程师岗位的秋招笔试题,包括简答题和编程题,简答题涉及神经网络防止过拟合的方法、ReLU激活函数的使用原因以及条件概率计算,编程题包括路径行走时间计算和两车相向而行相遇时间问题。
79 2
【数据挖掘】2022年2023届秋招知能科技公司机器学习算法工程师 笔试题
|
4月前
|
机器学习/深度学习 自然语言处理 算法
【数据挖掘】2020奇安信秋招算法方向试卷1 笔试题解析
2020年奇安信秋招算法方向试卷1的题目解析,覆盖了数据结构、机器学习、深度学习、自然语言处理、排序算法、激活函数、主题模型、采样方法、图像处理等多个领域的知识点。
57 1
【数据挖掘】2020奇安信秋招算法方向试卷1 笔试题解析
|
4月前
|
机器学习/深度学习 存储 算法
【数据挖掘】2020奇安信秋招算法方向试卷3 笔试题解析
2020年奇安信秋招算法方向试卷3的题目解析,涵盖了数据结构、机器学习、深度学习、自然语言处理、排序算法、激活函数、PCA、词嵌入库等多个领域的知识点。
64 1
【数据挖掘】2020奇安信秋招算法方向试卷3 笔试题解析
|
4月前
|
机器学习/深度学习 人工智能 算法
【数据挖掘】2022年2023届秋招奇虎360机器学习算法工程师 笔试题
本文提供了奇虎360公司2022年秋招机器学习算法工程师岗位的笔试题内容,包括选择题和编程题,涉及概率统计、数据结构、机器学习、计算机组成原理等多个领域。
102 5
|
4月前
|
机器学习/深度学习 算法 数据挖掘
【数据挖掘】2022年2023届秋招宏瓴科技公司机器学习算法工程师 笔试题
关于宏瓴科技有限公司2022-2023年秋招机器学习算法工程师岗位的笔试题目及作者个人对部分题目的解答尝试,涉及贝叶斯误差和贝叶斯最优分类器的概念、贝叶斯误差的重要性和估算方法,以及如何有效利用训练集和测试集进行深度学习模型训练的数据集划分策略。
62 4
|
4月前
|
数据可视化 算法 前端开发
基于python flask+pyecharts实现的中药数据可视化大屏,实现基于Apriori算法的药品功效关系的关联规则
本文介绍了一个基于Python Flask和Pyecharts实现的中药数据可视化大屏,该系统应用Apriori算法挖掘中药药材与功效之间的关联规则,为中医药学研究提供了数据支持和可视化分析工具。
145 2
|
4月前
|
数据采集 自然语言处理 数据可视化
基于Python的社交媒体评论数据挖掘,使用LDA主题分析、文本聚类算法、情感分析实现
本文介绍了基于Python的社交媒体评论数据挖掘方法,使用LDA主题分析、文本聚类算法和情感分析技术,对数据进行深入分析和可视化,以揭示文本数据中的潜在主题、模式和情感倾向。
286 0

热门文章

最新文章

下一篇
DataWorks