什么是商品关联模型?
在介绍商品关联模型之前,先给你介绍一个非常经典的案例。
美国零售超市巨头沃尔玛,曾经针对自己的超市客户进行了行为分析,发现男性客户购买尿不湿时,订单上经常还会出现“啤酒”这个商品,后来经过调查发现,原来很多父亲都是在为宝宝买尿不湿的时候,才临时产生了啤酒的购买意愿。因此为了增加两种商品的销量,沃尔玛将啤酒货架放置在了尿不湿商品区的旁边,这样的商品组合竟然意外地达到了提高双重销量的效果。
那么,两个看似毫无关联的商品为什么会相互影响对方的销量呢?
因为在这个场景中,影响商品销量的因素不再是商品本身,而是人 / 用户,这也是前面介绍的帕累托模型、波士顿模型所无法解决的问题。
因此商品关联分析其实就是研究商品关联性的一种模型,通过研究用户的购买情况,来反映某个商品对于用户的黏性和追随程度,也就是研究商品之间的“共性”。比如尿不湿和啤酒的共性,就都是“父亲的刚需商品”,对于不同共性的商品研究,可以针对不同用户制定不同的分类策略。
再举一些生活中常见的例子你可能会更加理解,例如超市中泡面商品区的旁边一定有火腿肠、淘宝搜索洗面奶时下面的商品推荐中一定会有防晒霜、餐厅中大多会推出“饮料+食物”的套餐,等等,这些商品都属于强关联关系,因此生活中大多会进行捆绑销售。
总而言之,商品关联模型研究的是商品与商品之间的关联性强弱。关联性越强,两个商品的互相影响力就会越大,当一个商品出现数据波动时,另一个商品的数据波动也会越大,反之亦然。
商品关联模型的指标
商品关联分析究竟难不难做呢?其实对于很多人来说,做出浅显易懂的关联分析并不难,例如购物率分析等,但真正想要做出具有实际价值的购物篮分析,就没有那么容易了。因为寻找出顾客购买商品的规律是我们对商品或者产品分析的目的,如何用算法找到商品之间的规律,就需要用到指标。
下面是商品关联模型的三种常见的衡量指标。
1.支持度
表明 C 既包含在 A 内也包含在 B 内的比例,也就是客户既购买了 A 商品的同时,也购买了 B 商品的比例,计算公式是由某一商品组合的购买次数与总购买次数的比例,算法为:
D=E[(A&B)/F]
其中 D 代表支持度,E 代表概率函数,A&B 代表购买了 A 且购买了 B 的次数,F 代表购买总次数。
用更加直观的图形说明一下,如下图所示:
支持度越低,说明两个商品之间的关联性越差,越不可能产生联系;而支持度越高,说明两个商品同时出现的频率也很高,越容易产生联系。
比如,某超市中今天有 10 笔订单,其中商品牛奶出现的次数是 8 次,面包出现的次数同样也是 8 次,牛奶与面包同时被购买的次数是 6 次。
那么按照公式可以计算出,面包 + 牛奶的商品支持度为:6/10=0.6。
达到 60% 的支持度说明牛奶和面包同时出现的概率很高,属于高关联性商品组合。
2.置信度
置信度表示包含 A 的同时也包含在 B 中的 C,也就是 C 的比例占 A 的比例的比值,其公式为:
D=E[(A&B/A)]
其中 D 代表置信度,E 表示条件概率,A&B 代表购买了 A 且购买了 B 的次数,A 代表购买 A 的次数。
也就是说,其表示的是“购买 A 会影响之后再购买 B”的条件概率,用图表示就是交集在 A 中的比例,如下图所示。
置信度的意义是说明某个商品对另一个商品的影响程度。如果置信度越高,说明二者的关联关系越强烈;置信度越低,说明二者之间的关系并不紧密。
比如还是上面的例子,某超市今天有 10 笔订单,其中商品牛奶出现的次数是 8 次,面包出现的次数同样也是 8 次,牛奶与面包同时被购买的次数是 6 次。那么按照公式可以计算出,面包在牛奶中的商品置信度为:6/8=0.75。
因为牛奶与面包订单的总数都是一样的,所以牛奶在面包中的置信度同样为:6/8=0.75。
3.提升度
提升度表示同时购买 A 和 B 的比例与单独购买 A 或 B 的比例进行比较,看顾客是否更愿意买组合后的商品,而不是单独购买,其公式为:
S=D(A&B)/P(A)×P(B)
其中 S 代表提升度,D(A&B)代表 A 商品和 B 商品同时被购买的支持度,P(A)代表商品 A 被单独购买的概率,P(B)代表商品 B 被单独购买的概率。
提升度大于 1 表示该商品组合的方式价值更高,小于 1 则相反。
比如还是上面的例子,牛奶单独出现的次数是 2 次,面包单独出现的次数同样也是 2 次,它们的商品支持度均为 0.2;而牛奶与面包同时被购买的次数是 6 次,那么按照公式可以计算出,面包 + 牛奶的商品组合提升度为:0.6/(0.2×0.2)=15。
因为提升度大于 1,所以说明牛奶 + 面包的商品组合是非常有效的,比单独购买牛奶或者单独购买面包要合理得多。