关联规则中最小支持度和最小置信度

简介:   Apriori算法有支持度和置信度两个概念,都是在执行算法之前自己设定的,在每一次迭代过程后,大于支持度的项集被保留为频繁项集,最后生成的规则由最终的频繁项集组成。 一、支持度  支持度就是所有我们分析的交易中,某两种(若干种)商品同时(这里的同时,一般意味着同单或者一次独立的交易)被购买的概率(比率)。

  Apriori算法有支持度和置信度两个概念,都是在执行算法之前自己设定的,在每一次迭代过程后,大于支持度的项集被保留为频繁项集,最后生成的规则由最终的频繁项集组成。

一、支持度
  支持度就是所有我们分析的交易中,某两种(若干种)商品同时(这里的同时,一般意味着同单或者一次独立的交易)被购买的概率(比率)。我们选择支持度的最终目的就是找出同时被购买的两个商品,可以提高我们的推荐转换率,从而增加收入。那么可以选出支持度最高的前n对(以下分析仅考虑两种商品,简称“对”)商品,我通常是选择总对数的万分之一或者是前20个。这样的数量不会很多,可以比较快的进行下一步分析,而且做推荐,要记住一点,“不能急功近利”。

  根据万分之一或者前20,可以得到一个支持度,其实这个时候的支持度阀值,对本次分析已经意义不大了,主要是用于后续推荐系统的智能学习提供一个参考值。

二、置信度
  置信度就是根据某一个条件,得到一个结论的可信程度、可靠程度。例子中,“购买了尿布”这个条件,可以推出“同时也会购买啤酒”这个结论的可靠程度很高,百度百科关联规则_百度百科 中分析的数据表明沃尔玛尿布到啤酒的置信度高达70%。

  在分析支持度得到的前20对商品中,分别计算双向置信度(购买a同时购买b和购买b同时购买a的置信度都要算),然后筛选中前n个置信度较高的置信度,分析其对应的结论。通过有经验的业务人员,从中共同选出最合理的一对商品,来进行单向的购物车推荐。这时得到的一个置信度,可以作为今后机器学习的参考值。

  个人觉得机器学习要做到全自动,几乎不可能,特别是对于我这种初学者,现在还接触不到。因此个人比较偏向半自动和人工分析辅助来完成一些功能。
 
  作者:知乎吴健
  链接:http://www.zhihu.com/question/22574269/answer/22227427
  离线进行关联规则的运算,在线结合实时访问页面,根据离线计算的关联规则进行实时推荐。

 

目录
相关文章
|
5月前
|
C++
1984. 学生分数的最小差值C++
1984. 学生分数的最小差值C++
|
7月前
R语言中固定与随机效应Meta分析 - 效率和置信区间覆盖
R语言中固定与随机效应Meta分析 - 效率和置信区间覆盖
|
7月前
|
资源调度 算法 数据挖掘
变异系数法:一种强大的数据离散度度量工具
变异系数法:一种强大的数据离散度度量工具
315 0
变异系数法:一种强大的数据离散度度量工具
|
算法 测试技术 C++
C++前缀和算法的应用:最大化城市的最小供电站数目(一)
C++前缀和算法的应用:最大化城市的最小供电站数目
|
算法 测试技术 C#
C++前缀和算法的应用:最大化城市的最小供电站数目(二)
C++前缀和算法的应用:最大化城市的最小供电站数目
|
PyTorch 算法框架/工具
softmax是数字越大,概率越大,如何设置一种新的方法,数字越大,概率越小?
如果您希望在输入数字越大时获得更小的概率,可以使用 Softmax 函数的变体——Softmax 函数的负版本(Negative Softmax)。
344 0
softmax是数字越大,概率越大,如何设置一种新的方法,数字越大,概率越小?
|
物联网
以f结尾的频繁项集,置信度,支持度
以f结尾的频繁项集,置信度,支持度
|
数据库
数据库——最小支持度&最小置信度
本篇文章主要讲述了数据库中最小支持度和最小置信度的问题,采用的是案例讲解法,没有公式,浅显易懂
542 1
数据库——最小支持度&最小置信度
|
机器学习/深度学习 人工智能 算法
【机器学习】基于组平均的AGNES算法,支持多维数组,距离用欧式距离
【机器学习】基于组平均的AGNES算法,支持多维数组,距离用欧式距离
182 0
【机器学习】基于组平均的AGNES算法,支持多维数组,距离用欧式距离
|
机器学习/深度学习 算法 数据挖掘
通过随机采样和数据增强来解决数据不平衡的问题
通过随机采样和数据增强来解决数据不平衡的问题
340 0
通过随机采样和数据增强来解决数据不平衡的问题