关联模式评估| 学习笔记

简介: 快速学习关联模式评估。

开发者学堂课程【高校精品课-北京理工大学-数据仓库与数据挖掘(上):关联模式评估】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/921/detail/15639


关联模式评估

 

在之前的章节中,我们向大家介绍了关联规则的挖掘算法,通过关联规则挖掘算法,我们可以产生大量的关联规则,我们这个时候需要一些有趣的度量方式对我们的规则进行评估和排序。

在之前我们给大家讲了规则的两种度量方式,一种是支持度,一种是置信度。那是不是经过最小支持度阈值和最小置信度阈值过滤之后得到的规则就是有趣的规则.

image.png

我们向大家举个例子介绍一下。首先我们来看一下规则的箱仪表,对于给定的规则由 X 推出 Y,我们可以根据 X 和 Y项集的发生频率构建这个规则的箱仪表,这个相应表示一个二维矩阵的形式。

其中 F1 代表的是项集 XBY 的支持度计数,F10 表示的是项集 X 和 Y 并集的支持度计数。F01代表的是 X 补集和 Y 并集项集的支持度计数,F00 代表的是 X 补集和Y补集并集的支持度计数。根据这个计数,我们就可以很方便的计算规则的置信度。假设我从数据集中挖掘到了一条规则,由茶推出咖啡,那么我们可以首先够检查和咖啡的箱仪表。通过这个箱仪表技术,我们可以计算这条规则的置信度,也就是约等于 givenchy 康菲出现的概率。

那么在我们的箱仪表中,我们可以发现喝茶的人数是200,这200人中有150人是既喝茶又和咖啡。所以他的置信度是0.75,假设我的规则的最小置信度阈值是0.5,那么这个规则就是一条强关联规则.

image.png

但是这个规则他是不是有意义的?也就是说他是不是有趣的?我们可以进一步的分析。那么通过我们刚才构建的这个箱仪表,我们不仅可以推出我们这个规则的置信度是0.75,我们还可以计算出喝咖啡的概率是0.8,而我们规则不喝茶,推出喝咖啡的置信度是0.8125,我们把0.75和0.8进行对比,那么也就是如果我不知道这个顾客他是喝茶还是喝咖啡,那么他喝咖啡的概率就是0.8。然后在我知道了这个顾客喝茶的前提下,那么这个顾客喝咖啡的概率反而是0.75。也就是喝茶似乎降低了喝咖啡这个事件的概率。

image.png

此外,我们还可以把我们的规则由喝茶推出喝咖啡,不喝茶去喝咖啡进行对比。很显然,我们第二条规则的自信度更高一些,那么也就意味着我们这个规则其实由喝茶推出喝咖啡,反而降低了我们这个推理的可靠性。

image.png

我们再来看一下另外一个例子。那么这个例子,依然是够挖掘得到了一条规则,就是由喝茶推出他吃蜂蜜,那么对于这个规则,我们可以根据箱仪表计算得到它的置信度是0.5,如果我们设最小置信度阈值是50%的话,那么这个规则它是基本上是一个勉勉强强的潜规则。但是我们再通过这个箱仪表我们分析可以得到,那么在整个事务数据集中,那么吃蜂蜜的这个概率是非常低的,那么也是只有零点一二,也就是在喝茶的前提下,能够提高吃蜂蜜这个事件的发生概率,比如说这个规则他的置信度虽然只有零点五,但是它其实比我们刚才喝茶推出喝咖啡的这个规则更有实际应用价值,那么也就是我们在对关联规则进行评估的时候,仅仅使用我们的支持度和置信度是不够的,我们还需要分析我们规则前件和后件的相关性,因此在关联规则评估中还有一些其他的评估指标,比如我们这里向大家介绍 lift 提升度这样的一个评价指标利,lift 它的计算公式如我们的 ppt 所示,

image.png

对于 lift 这个指标来说,如果 x 和 y 也就是规则的前进和规则的后件如果是独立的,那么也就是我们的 lift 的指标的值就是等于一的,那如果这个 lift 的值是大于一的,也就意味着我们的规则的前件和后件之间是一种正相关的关系,也就是说随这其中一个事件 x 的发生,那么另外一个事件外发生的可能性会增大,对于这样的规则才是有意义的,但是如果这个规则他的 lift 的值是小于一的,那么意识如果事件 x 发生,他甚至会降低我们事件外发生的概率,对于这样的规则的可靠性是比较低的,我们现在再回到我们之前喝咖啡和喝茶的这个例子,

image.png

那么计算是0.75,他虽然是远远超过了最小执行度阈值,但是我们可以计算它的 lift 的,lift 是等于0.9375,也就是低于一的,也就意味着这两个事件喝茶和咖啡,他们之间是负相关的,那么这个规则它其实是没有意义的。

所以说在进行关联规则评估的时候,我们不仅要考虑它的置信度和支持度,我们还要考虑它的事件的相关性程度。

相关文章
|
2月前
|
数据挖掘 数据建模 BI
Dataphin常见问题之衍生指标的计算逻辑需要写where和group条件如何解决
Dataphin是阿里云提供的一站式数据处理服务,旨在帮助企业构建一体化的智能数据处理平台。Dataphin整合了数据建模、数据处理、数据开发、数据服务等多个功能,支持企业更高效地进行数据治理和分析。
|
14天前
R语言资产配置策略量化模型:改进的移动平均线策略动态回测
R语言资产配置策略量化模型:改进的移动平均线策略动态回测
13 0
|
8月前
|
机器学习/深度学习
评估操作
评估操作是指在机器学习中,通过一些指标来衡量模型在训练数据和测试数据上的表现,从而判断模型的性能和泛化能力。常用的评估操作包括计算损失函数、准确率、精确率、召回率、F1 值等。
38 1
|
9月前
|
机器人 API 区块链
Pionex派网量化网格交易机器人开发策略部署[源码执行规则示例]
Pionex派网量化网格交易机器人开发策略部署[源码执行规则示例]
|
测试技术
软件测试面试题:lr自动关联和手动关联
软件测试面试题:lr自动关联和手动关联
95 0
|
项目管理
【软件工程】CMMI 能力成熟度模型集成 ( CMMI 级别 | CMMI 级别、过程域、目标、实践 | CMMI 评估对象 | 过程域的 阶段式分组 | 过程域的 连续式分组 ) ★
【软件工程】CMMI 能力成熟度模型集成 ( CMMI 级别 | CMMI 级别、过程域、目标、实践 | CMMI 评估对象 | 过程域的 阶段式分组 | 过程域的 连续式分组 ) ★
278 0
|
定位技术 开发者
业务中台构建策略:划分子域、上下文、事件风暴、需求结构化和能力可配置(1)
业务中台构建策略:划分子域、上下文、事件风暴、需求结构化和能力可配置(1)
232 0
业务中台构建策略:划分子域、上下文、事件风暴、需求结构化和能力可配置(1)
|
架构师 数据可视化 定位技术
业务中台构建策略:划分子域、上下文、事件风暴、需求结构化和能力可配置(2)
业务中台构建策略:划分子域、上下文、事件风暴、需求结构化和能力可配置(2)
312 0
业务中台构建策略:划分子域、上下文、事件风暴、需求结构化和能力可配置(2)
|
搜索推荐 算法 数据挖掘
数据策略案例
抖音、快手策略推荐分析
525 0
数据策略案例
|
算法
数据策略分析
数据策略如何驱动业务增长
677 0
数据策略分析