市场购物篮分析(规则归纳/C5.0)+apriori

简介: 之前介绍了C5.0的内容,今天将描述超市购物篮内容(所购买的全部商品的集合)的虚构数据,以及购买的相关个人数据(通过忠诚卡方案获得)。目的是寻找购买相似产品并且可按人口统计学方式(年龄,收入)刻画其特征的客户群。

之前介绍了C5.0的内容,今天将描述超市购物篮内容(所购买的全部商品的集合)的虚构数据,以及购买的相关个人数据(通过忠诚卡方案获得)。目的是寻找购买相似产品并且可按人口统计学方式(年龄,收入)刻画其特征的客户群。

要做这项工作,要进行两个阶段的工作:

关联规则建模和一个解释所购买商品之间联系的WEB显示;

C5.0规则归纳(描绘已标识产品组的购买者的特征)

Note:此应用不直接使用预测模型,因此,不对最终模型进行准确性度量,在数据挖掘过程中也不存在与之相关的训练/检验两个步骤的区分。

本例使用baskrule的流,该流引用名为BASKETS1n的数据文件。这些文件可在Clementine安装文件的Demo目录中找到。文件baskrule位于streams目录下。

访问数据

使用“变量文件”节点连接到数据集BASKETS1n,选择要从该文件读取的字段名称。

将“类型”节点连接到数据源,然后将该节点连接到“表”节点。

将字段卡ID的测量级别设置为无类型(因为每个忠诚卡ID在数据集中只出现一次,因此对于建模没有用处)。选择名义作为字段性别的测量级别(确保Apriori建模算法不会将性别视为标志)。

连接一个表,显示数据如下:

购物篮摘要:

cardid购买此篮商品的客户的忠诚卡标识符。

value购物篮的总购买价格

pmethod购物篮的支付方法

卡持有者的个人详细信息:

sex

homeown卡持有者是否拥有住房

income

age

购物篮内容---产品类别的出现标志:

fruitveg

freshmeat

dairy

cannedveg

cannedmeat

frozenmeal

beer

wine

softdrink

fish

confectionery

发现购物篮内容的关系

首先,需要使用Apriori大致了解购物篮内容的关系(关联)以生成关联规则,选择要再此建模过程中使用的字段,方法是:编辑“类型”节点,将所有产品类别的角色设置为两者,并将所有其他角色设置为无。(双向表示该字段可以是结果模型的输入或者输出。)

指定了用于建模的字段后,将Apriori节点附加到“类型”节点,编辑它,选择选项“只显示值为真的标志变量”。

然后在Apriori节点上单击“运行”。结果(管理器窗口右上角“模型”选项卡上的模型)包含可以查看(使用上下文菜单,然后选择“浏览”)的关联规则。

这些规则显示冻肉,罐装蔬菜和啤酒之间尊在多种关联。出现双向关联规则。

frozenmeal->beer

beer->frozenmeal

提示:WEB显示(只显示双向关联)可能会突出显示此数据中的一些模式。将WEB节点附加到“类型”节点,编辑WEB节点,选择所有购物篮内容字段,选择“仅显示true标志”。

然后在WEB节点上单击“运行”。

因为大多数产品类别组合都会出现在多个购物篮中,所以WEB上的强连接太多,无法显示模型表示的客户群。故我们要进行限制性WEB显示。

要制定弱连接和强连接,请单击工具栏上的黄色双箭头按钮。这回展开显示WEB输出摘要和控件的对话框。

选择“大小表示强/正常/弱”。

将弱连接设置为低于90。

将强连接设置为高于100。

在最终显示中,会有三个客户群突出显示:

购买鱼和果蔬的客户,可将这类客户成为“健康食客”

购买酒和粮果的客户

购买啤酒、冻肉和罐装蔬菜(“啤酒、豆类和比萨”)的客户

描绘客户群的特征

根据客户购买的产品类型标识了三个客户群,但是还要知道这些客户是谁,即,他们的人口统计学特征。通过为每个群中,每个客户添加标志,并使用规则归纳(C5.0)来基于规则描绘这些标志的特征,可以实现这一点。

首先,必须获取每个群的标志。使用刚刚创建的web显示,可以自动生成每个群的标志,使用鼠标右键,单击fruitveg和fish之间的链接以突出显示该链接,然后右键单击并选择“为链接生成‘派生’节点”。

编辑最终的“派生”节点以将“派生”字段名称更改为健康。使用从wine到confectionery的链接重复该练习,并将最终的“派生”字段命名为wine_chocs.

对于第三个群(涉及三个链接),首先要确保未选择任何链接。然后,按住shift同时单击鼠标左键,从而选择cannedveg、beer和frozenmeal中的全部三个链接。(一定要处于“交互”模式而不是“编辑”模式。)然后,从web显示菜单中选择:

生成>导出节点(“和”)

将最终“派生”字段的名称更改为beer_beans_pizza。

要描绘这些客户群的特征,要连续将现有的类型节点连接到这三个导出节点,然后附加另一个类型节点。在新的“类型”节点中,将除以下字段外的所有字段的角色都设置为无:value、pmethod、sex、homeown、income和age(这些字段的角色应该设置为输入),以及相关的客户群(例如,beer_beans_pizza,他们的角色应该设置为目标)。

附加C5.0节点,将输出类型设置为规则集,然后在节点上单击“运行”。最终模型(用于beer_beans_pizza)包含此客户群的明确人口统计学特征:

Rule 1 for T:

if sex=M

and income <=16,900

then T

此案例结合了Apriori和C5.0完成了用户购买行为的分析(一方面是用户的自身行为的把握,另一方面是用户买什么产品,怎么搭配让用户去买的把握)事实上,多数的时候我们只完成了一方面的工作,或者把二者隔离开来分析,真正的分析不应该是只问用户买什么,我们怎么搭配销售最好,还要精准投放,精准的分析用户的自身素质。

从上图发现:

工资收入高于16950的人购买三者的比例99.2%

工资低于16950的人的女士购买三者比例98.8%

等等......

通过在第二个类型节点中选择其他客户群标志作为输出,可将同意方法应用到这些标志,通过在此上下文使用Apriori代替C5.0,可生成更多替代特征描绘;Apriori也用于同时描绘所有客户群的特征,原因是,Apriori并非被限制到一个输出字段。下图为整个过程的数据流。

相关文章
|
Java Maven
解决【IDEA】Maven项目pom.xml依赖包下载太慢
【IDEA】Maven项目pom.xml依赖包下载太慢
解决【IDEA】Maven项目pom.xml依赖包下载太慢
|
消息中间件 关系型数据库 Kafka
OBCP第七章 OB迁移、备份与恢复-迁移服务
OBCP第七章 OB迁移、备份与恢复-迁移服务
336 0
|
4月前
|
人工智能 文字识别 自然语言处理
三分钟搞定图片识别+翻译+地图定位,通义灵码 2.5 真的太猛了
在本次体验中,我通过通义灵码 2.5 实测其全新集成的 3000+ MCP 工具能力,展示了如何仅凭一句自然语言指令,就能快速完成 OCR、翻译、地图等多个常用服务的调用与组合。通义灵码不仅自动匹配合适工具,还能生成完整调用代码,省去繁琐的 SDK 集成和文档查阅过程,大幅提升开发效率。这次升级让 AI 编程助手真正具备了“工具理解 + 代码落地”的能力,是开发流程的一次深度革新。
391 7
|
机器学习/深度学习 人工智能 自然语言处理
自动化办公:AI如何改变工作方式
【7月更文第19天】随着人工智能技术的飞速发展,我们的工作方式正经历着前所未有的转型。从繁琐的文档处理到高效的会议安排,再到个性化的邮件回复,AI正逐步成为现代办公不可或缺的一部分。本文将深入探讨AI如何在这些核心办公场景中发挥作用,提升工作效率,优化工作流程,从而推动工作方式的全面革新。
1145 3
|
Java Linux Shell
Linux开发和编程指南:搭建环境、Shell脚本与常见编程语言配置及使用
Linux开发和编程指南:搭建环境、Shell脚本与常见编程语言配置及使用
2551 0
|
人工智能 分布式计算 数据挖掘
阿里云 MaxCompute MaxFrame 开启免费公测,统一 Python 开发生态
阿里云 MaxCompute MaxFrame 开启免费公测,统一 Python 开发生态。分布式计算框架 MaxFrame 支持 Python 编程接口并可直接复用 MaxCompute 弹性计算资源及海量数据,100%兼容 Pandas 且自动分布式,与 MaxCompute Notebook、镜像管理等功能共同构成了 MaxCompute 的 Python 开发生态。用户可以以更熟悉、高效、灵活的方式在 MaxCompute 上进行大规模数据分析处理、可视化数据探索分析以及科学计算、ML/AI 开发等工作。
436 7
|
存储 关系型数据库 MySQL
【MySQL】数据库规范化的三大法则 — 一探范式设计原则
【MySQL】数据库规范化的三大法则 — 一探范式设计原则
|
存储 缓存 算法
高并发架构设计三大利器:缓存、限流和降级
软件系统有三个追求:高性能、高并发、高可用,俗称三高。本篇讨论高并发,从高并发是什么到高并发应对的策略、缓存、限流、降级等。
3587 6
|
存储 传感器 监控
工业相机如何实现实时和本地Raw格式图像和Bitmap格式图像的保存和相互转换(C#代码,UI界面版)
工业相机如何实现实时和本地Raw格式图像和Bitmap格式图像的保存和相互转换(C#代码,UI界面版)
653 0
|
弹性计算 安全 数据安全/隐私保护
Internet Information Services(IIS)部署Web项目
本文为您介绍如何快速使用IIS搭建简单网站并发布项目。