R语言数据挖掘2.1.2.1 关联规则

简介:

2.1.2.1 关联规则


关联分析可以从海量数据集中发现有意义的关系,这种关系可以表示成关联规则的形式或频繁项集的形式。具体的关联分析算法将在后面一个章节中给出。

关联规则挖掘旨在发现给定数据集(事务数据集或其他序列-模式-类型数据集)中的结果规则集合。给定预先定义的最小支持度计数s和置信度c,给定已发现的规则X→Y support_count (X→Y)≥s且confidence (X→Y)≥c。

当X∩Y=(X、Y不相交),则X→Y是关联规则。规则的兴趣度通过支持度(support)和置信度(confidence)来测量。支持度表示数据集中规则出现的频率,而置信度测量在X出现的前提下,Y出现的可能性。

对于关联规则,衡量规则可用性的核心度量是规则的支持度和置信度。两者之间的关系是:

 

support_count(X)是数据集中包含X的项集数。

通常,在support_count(X)中,支持度和置信度的值表示为0~100的百分数。

给定最小支持度阈值s和最小置信度阈值c。如果support_count (X→Y) > s且confidence (X→Y)≥c,则关联规则X→Y称为强规则。

对于关联规则含义的解释应当慎重,尤其是当不能确定地判断规则是否意味着因果关系时。它只说明规则的前件和后件同时发生。以下是可能遇到不同种类的规则:

布尔关联规则:若规则包含项出现的关联关系,则称为布尔关联规则。

单维关联规则:若规则最多包含一个维度,则为单维关联规则。

多维关联规则:若规则至少涉及两个维度,则为多维关联规则。

相关关联规则:若关系或规则是通过统计相关进行测量的,满足给定的相关性规则,则称为相关关联规则。

定量关联规则:若规则中至少一个项或属性是定量的,则称为定量关联规则。

相关文章
|
8月前
|
数据库
R语言关联规则Apriori对抗肿瘤中药数据库知识发现研究(下)
R语言关联规则Apriori对抗肿瘤中药数据库知识发现研究(下)
|
8月前
|
数据可视化 算法 大数据
数据分享|R语言改进Apriori关联规则挖掘研究西安PM2.5含量与天气因素关系数据可视化
数据分享|R语言改进Apriori关联规则挖掘研究西安PM2.5含量与天气因素关系数据可视化
|
8月前
|
机器学习/深度学习 数据采集 算法
R语言、WEKA关联规则、决策树、聚类、回归分析工业企业创新情况影响因素数据
R语言、WEKA关联规则、决策树、聚类、回归分析工业企业创新情况影响因素数据
|
8月前
|
算法 数据可视化 网络可视化
R语言Apriori算法关联规则对中药用药复方配伍规律药方挖掘可视化(上)
R语言Apriori算法关联规则对中药用药复方配伍规律药方挖掘可视化
R语言Apriori算法关联规则对中药用药复方配伍规律药方挖掘可视化(上)
|
8月前
|
算法 数据挖掘 数据库
R语言主成分PCA、决策树、boost预警模型在跨区域犯罪研究数据挖掘分析|数据分享
R语言主成分PCA、决策树、boost预警模型在跨区域犯罪研究数据挖掘分析|数据分享
|
8月前
|
数据采集 数据可视化
R语言关联规则Apriori对杭州空气质量与气象因子数据研究可视化
R语言关联规则Apriori对杭州空气质量与气象因子数据研究可视化
|
8月前
|
机器学习/深度学习 算法 数据可视化
R语言改进关联规则挖掘Apriori在超市销售数据可视化
R语言改进关联规则挖掘Apriori在超市销售数据可视化
|
8月前
|
数据可视化 数据挖掘
数据分享|R语言IMDb TOP250电影特征数据挖掘可视化分析受众偏好、排名、投票、评分(下)
数据分享|R语言IMDb TOP250电影特征数据挖掘可视化分析受众偏好、排名、投票、评分
|
8月前
|
数据可视化 算法 数据挖掘
数据分享|R语言IMDb TOP250电影特征数据挖掘可视化分析受众偏好、排名、投票、评分(上)
数据分享|R语言IMDb TOP250电影特征数据挖掘可视化分析受众偏好、排名、投票、评分
|
8月前
|
算法 数据可视化 数据库
R语言关联规则Apriori对抗肿瘤中药数据库知识发现研究(上)
R语言关联规则Apriori对抗肿瘤中药数据库知识发现研究