开发者学堂课程【高校精品课-北京理工大学-数据仓库与数据挖掘(上):关联模式评估】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/921/detail/15639
关联模式评估
在之前的章节中,我们向大家介绍了关联规则的挖掘算法,通过关联规则挖掘算法,我们可以产生大量的关联规则,我们这个时候需要一些有趣的度量方式对我们的规则进行评估和排序。
在之前我们给大家讲了规则的两种度量方式,一种是支持度,一种是置信度。那是不是经过最小支持度阈值和最小置信度阈值过滤之后得到的规则就是有趣的规则.
我们向大家举个例子介绍一下。首先我们来看一下规则的箱仪表,对于给定的规则由 X 推出 Y,我们可以根据 X 和 Y项集的发生频率构建这个规则的箱仪表,这个相应表示一个二维矩阵的形式。
其中 F1 代表的是项集 XBY 的支持度计数,F10 表示的是项集 X 和 Y 并集的支持度计数。F01代表的是 X 补集和 Y 并集项集的支持度计数,F00 代表的是 X 补集和Y补集并集的支持度计数。根据这个计数,我们就可以很方便的计算规则的置信度。假设我从数据集中挖掘到了一条规则,由茶推出咖啡,那么我们可以首先够检查和咖啡的箱仪表。通过这个箱仪表技术,我们可以计算这条规则的置信度,也就是约等于 givenchy 康菲出现的概率。
那么在我们的箱仪表中,我们可以发现喝茶的人数是200,这200人中有150人是既喝茶又和咖啡。所以他的置信度是0.75,假设我的规则的最小置信度阈值是0.5,那么这个规则就是一条强关联规则.
但是这个规则他是不是有意义的?也就是说他是不是有趣的?我们可以进一步的分析。那么通过我们刚才构建的这个箱仪表,我们不仅可以推出我们这个规则的置信度是0.75,我们还可以计算出喝咖啡的概率是0.8,而我们规则不喝茶,推出喝咖啡的置信度是0.8125,我们把0.75和0.8进行对比,那么也就是如果我不知道这个顾客他是喝茶还是喝咖啡,那么他喝咖啡的概率就是0.8。然后在我知道了这个顾客喝茶的前提下,那么这个顾客喝咖啡的概率反而是0.75。也就是喝茶似乎降低了喝咖啡这个事件的概率。
此外,我们还可以把我们的规则由喝茶推出喝咖啡,不喝茶去喝咖啡进行对比。很显然,我们第二条规则的自信度更高一些,那么也就意味着我们这个规则其实由喝茶推出喝咖啡,反而降低了我们这个推理的可靠性。
我们再来看一下另外一个例子。那么这个例子,依然是够挖掘得到了一条规则,就是由喝茶推出他吃蜂蜜,那么对于这个规则,我们可以根据箱仪表计算得到它的置信度是0.5,如果我们设最小置信度阈值是50%的话,那么这个规则它是基本上是一个勉勉强强的潜规则。但是我们再通过这个箱仪表我们分析可以得到,那么在整个事务数据集中,那么吃蜂蜜的这个概率是非常低的,那么也是只有零点一二,也就是在喝茶的前提下,能够提高吃蜂蜜这个事件的发生概率,比如说这个规则他的置信度虽然只有零点五,但是它其实比我们刚才喝茶推出喝咖啡的这个规则更有实际应用价值,那么也就是我们在对关联规则进行评估的时候,仅仅使用我们的支持度和置信度是不够的,我们还需要分析我们规则前件和后件的相关性,因此在关联规则评估中还有一些其他的评估指标,比如我们这里向大家介绍 lift 提升度这样的一个评价指标利,lift 它的计算公式如我们的 ppt 所示,
对于 lift 这个指标来说,如果 x 和 y 也就是规则的前进和规则的后件如果是独立的,那么也就是我们的 lift 的指标的值就是等于一的,那如果这个 lift 的值是大于一的,也就意味着我们的规则的前件和后件之间是一种正相关的关系,也就是说随这其中一个事件 x 的发生,那么另外一个事件外发生的可能性会增大,对于这样的规则才是有意义的,但是如果这个规则他的 lift 的值是小于一的,那么意识如果事件 x 发生,他甚至会降低我们事件外发生的概率,对于这样的规则的可靠性是比较低的,我们现在再回到我们之前喝咖啡和喝茶的这个例子,
那么计算是0.75,他虽然是远远超过了最小执行度阈值,但是我们可以计算它的 lift 的,lift 是等于0.9375,也就是低于一的,也就意味着这两个事件喝茶和咖啡,他们之间是负相关的,那么这个规则它其实是没有意义的。
所以说在进行关联规则评估的时候,我们不仅要考虑它的置信度和支持度,我们还要考虑它的事件的相关性程度。