数据分析模型-关联模型

简介: 尿布与啤酒背后的原理,如何让客户加满购物篮?

什么是商品关联模型?

在介绍商品关联模型之前,先给你介绍一个非常经典的案例。


美国零售超市巨头沃尔玛,曾经针对自己的超市客户进行了行为分析,发现男性客户购买尿不湿时,订单上经常还会出现“啤酒”这个商品,后来经过调查发现,原来很多父亲都是在为宝宝买尿不湿的时候,才临时产生了啤酒的购买意愿。因此为了增加两种商品的销量,沃尔玛将啤酒货架放置在了尿不湿商品区的旁边,这样的商品组合竟然意外地达到了提高双重销量的效果。


那么,两个看似毫无关联的商品为什么会相互影响对方的销量呢?


因为在这个场景中,影响商品销量的因素不再是商品本身,而是人 / 用户,这也是前面介绍的帕累托模型、波士顿模型所无法解决的问题。


因此商品关联分析其实就是研究商品关联性的一种模型,通过研究用户的购买情况,来反映某个商品对于用户的黏性和追随程度,也就是研究商品之间的“共性”。比如尿不湿和啤酒的共性,就都是“父亲的刚需商品”,对于不同共性的商品研究,可以针对不同用户制定不同的分类策略。


再举一些生活中常见的例子你可能会更加理解,例如超市中泡面商品区的旁边一定有火腿肠、淘宝搜索洗面奶时下面的商品推荐中一定会有防晒霜、餐厅中大多会推出“饮料+食物”的套餐,等等,这些商品都属于强关联关系,因此生活中大多会进行捆绑销售。


总而言之,商品关联模型研究的是商品与商品之间的关联性强弱。关联性越强,两个商品的互相影响力就会越大,当一个商品出现数据波动时,另一个商品的数据波动也会越大,反之亦然。

商品关联模型的指标

商品关联分析究竟难不难做呢?其实对于很多人来说,做出浅显易懂的关联分析并不难,例如购物率分析等,但真正想要做出具有实际价值的购物篮分析,就没有那么容易了。因为寻找出顾客购买商品的规律是我们对商品或者产品分析的目的,如何用算法找到商品之间的规律,就需要用到指标。


下面是商品关联模型的三种常见的衡量指标。

1.支持度

表明 C 既包含在 A 内也包含在 B 内的比例,也就是客户既购买了 A 商品的同时,也购买了 B 商品的比例,计算公式是由某一商品组合的购买次数与总购买次数的比例,算法为:


D=E[(A&B)/F]


其中 D 代表支持度,E 代表概率函数,A&B 代表购买了 A 且购买了 B 的次数,F 代表购买总次数。


用更加直观的图形说明一下,如下图所示:

image.png

支持度越低,说明两个商品之间的关联性越差,越不可能产生联系;而支持度越高,说明两个商品同时出现的频率也很高,越容易产生联系。


比如,某超市中今天有 10 笔订单,其中商品牛奶出现的次数是 8 次,面包出现的次数同样也是 8 次,牛奶与面包同时被购买的次数是 6 次。

image.png

那么按照公式可以计算出,面包 + 牛奶的商品支持度为:6/10=0.6。


达到 60% 的支持度说明牛奶和面包同时出现的概率很高,属于高关联性商品组合。


2.置信度

置信度表示包含 A 的同时也包含在 B 中的 C,也就是 C 的比例占 A 的比例的比值,其公式为:


D=E[(A&B/A)]


其中 D 代表置信度,E 表示条件概率,A&B 代表购买了 A 且购买了 B 的次数,A 代表购买 A 的次数。


也就是说,其表示的是“购买 A 会影响之后再购买 B”的条件概率,用图表示就是交集在 A 中的比例,如下图所示。

image.png

置信度的意义是说明某个商品对另一个商品的影响程度。如果置信度越高,说明二者的关联关系越强烈;置信度越低,说明二者之间的关系并不紧密。


比如还是上面的例子,某超市今天有 10 笔订单,其中商品牛奶出现的次数是 8 次,面包出现的次数同样也是 8 次,牛奶与面包同时被购买的次数是 6 次。那么按照公式可以计算出,面包在牛奶中的商品置信度为:6/8=0.75。


因为牛奶与面包订单的总数都是一样的,所以牛奶在面包中的置信度同样为:6/8=0.75。

3.提升度

提升度表示同时购买 A 和 B 的比例与单独购买 A 或 B 的比例进行比较,看顾客是否更愿意买组合后的商品,而不是单独购买,其公式为:


S=D(A&B)/P(A)×P(B)


其中 S 代表提升度,D(A&B)代表 A 商品和 B 商品同时被购买的支持度,P(A)代表商品 A 被单独购买的概率,P(B)代表商品 B 被单独购买的概率。


提升度大于 1 表示该商品组合的方式价值更高,小于 1 则相反。


比如还是上面的例子,牛奶单独出现的次数是 2 次,面包单独出现的次数同样也是 2 次,它们的商品支持度均为 0.2;而牛奶与面包同时被购买的次数是 6 次,那么按照公式可以计算出,面包 + 牛奶的商品组合提升度为:0.6/(0.2×0.2)=15。


因为提升度大于 1,所以说明牛奶 + 面包的商品组合是非常有效的,比单独购买牛奶或者单独购买面包要合理得多。

目录
相关文章
|
2月前
|
机器学习/深度学习 数据采集 数据挖掘
实战派教学:掌握Scikit-learn,轻松实现数据分析与机器学习模型优化!
【10月更文挑战第4天】Scikit-learn凭借高效、易用及全面性成为数据科学领域的首选工具,简化了数据预处理、模型训练与评估流程,并提供丰富算法库。本文通过实战教学,详细介绍Scikit-learn的基础入门、数据预处理、模型选择与训练、评估及调优等关键步骤,助你快速掌握并优化数据分析与机器学习模型。从环境搭建到参数调优,每一步都配有示例代码,便于理解和实践。
105 2
|
7月前
|
SQL 自然语言处理 数据挖掘
大模型与数据分析:探索Text-to-SQL(上)
大模型与数据分析:探索Text-to-SQL(上)
3598 0
|
7月前
|
SQL 自然语言处理 数据挖掘
大模型与数据分析:探索Text-to-SQL(中)
大模型与数据分析:探索Text-to-SQL(中)
1246 0
|
4月前
|
数据采集 机器学习/深度学习 算法
"揭秘数据质量自动化的秘密武器:机器学习模型如何精准捕捉数据中的‘隐形陷阱’,让你的数据分析无懈可击?"
【8月更文挑战第20天】随着大数据成为核心资源,数据质量直接影响机器学习模型的准确性和效果。传统的人工审查方法效率低且易错。本文介绍如何运用机器学习自动化评估数据质量,解决缺失值、异常值等问题,提升模型训练效率和预测准确性。通过Python和scikit-learn示例展示了异常值检测的过程,最后强调在自动化评估的同时结合人工审查的重要性。
110 2
|
4月前
|
机器学习/深度学习 前端开发 数据挖掘
基于Python Django的房价数据分析平台,包括大屏和后台数据管理,有线性、向量机、梯度提升树、bp神经网络等模型
本文介绍了一个基于Python Django框架开发的房价数据分析平台,该平台集成了多种机器学习模型,包括线性回归、SVM、GBDT和BP神经网络,用于房价预测和市场分析,同时提供了前端大屏展示和后台数据管理功能。
123 9
|
4月前
|
机器学习/深度学习 数据采集 数据可视化
【python】python母婴数据分析模型预测可视化(数据集+论文+PPT+源码)【独一无二】
【python】python母婴数据分析模型预测可视化(数据集+论文+PPT+源码)【独一无二】
|
5月前
|
机器学习/深度学习 算法 数据挖掘
从零到精通:Scikit-learn在手,数据分析与机器学习模型评估不再难!
【7月更文挑战第25天】在数据科学中,模型评估是理解模型泛化能力的关键。对新手来说,众多评估指标可能令人困惑,但Scikit-learn简化了这一过程。
61 2
|
4月前
|
机器学习/深度学习 搜索推荐 数据挖掘
【深度解析】超越RMSE和MSE:揭秘更多机器学习模型性能指标,助你成为数据分析高手!
【8月更文挑战第17天】本文探讨机器学习模型评估中的关键性能指标。从均方误差(MSE)和均方根误差(RMSE)入手,这两种指标对较大预测偏差敏感,适用于回归任务。通过示例代码展示如何计算这些指标及其它如平均绝对误差(MAE)和决定系数(R²)。此外,文章还介绍了分类任务中的准确率、精确率、召回率和F1分数,并通过实例说明这些指标的计算方法。最后,强调根据应用场景选择合适的性能指标的重要性。
621 0
|
5月前
|
数据采集 机器学习/深度学习 数据挖掘
Python基于波动率模型(ARCH和GARCH)进行股票数据分析项目实战
Python基于波动率模型(ARCH和GARCH)进行股票数据分析项目实战
|
5月前
|
数据采集 机器学习/深度学习 数据可视化
关于Python数据分析项目的简要概述:从CSV加载数据,执行数据预处理,进行数据探索,选择线性回归模型进行训练,评估模型性能并优化,最后结果解释与可视化。
【7月更文挑战第5天】这是一个关于Python数据分析项目的简要概述:从CSV加载数据,执行数据预处理(填充缺失值,处理异常值),进行数据探索(可视化和统计分析),选择线性回归模型进行训练,评估模型性能并优化,最后结果解释与可视化。此案例展示了数据科学的典型流程。
87 2