SPSS modeler用关联规则Apriori模型对笔记本电脑购买事务销量数据研究

简介: SPSS modeler用关联规则Apriori模型对笔记本电脑购买事务销量数据研究

自2011年全球PC出货量达到历史最高的3.64亿台后,全球PC市场出货量已经连续四年下滑点击文末“阅读原文”获取完整代码数据

相关视频

image.png

市场调研公司Gartner最新数据显示,2015年Q3全球PC销量同比降低7.7%,至7370万台。IDC数据更加不乐观,2015年Q3全球PC出货量共计7100万台,同比下降10.8%,相比之前预测的下滑9.2%更夸张。其中,中国市场下滑幅度预计在6%左右。本次调查就是针对笔记本电脑销量运用数据挖掘的方式展开讨论

研究数据及范围

本研究以统计学原理为基础,通过网上收集已有的数据并调查,采用数据挖掘技术以及描述性的统计方法,对笔记本电脑销量问题进行研究,分析什么影响群众购买笔记本电脑情况

本次数据是在数据网站搜集到的spss类型的数据,共有13个变量,5000多份数据资料,没有系统缺失值。其中5个定距变量,8个定类变量:

2bfba7656431592c59d4a1233fb13109.png

研究目的:

1、寻找影响笔记本电脑销量的主要因素。

2、建立基于数据挖掘技术的有关笔记本电脑销量预测模型。

研究方法

运用数据挖掘clemtime描述性分析,推断性分析,和建模分析

分析过程

1.数据导入与异常值和离群值的处理

172a39464a1f4c6eed44cfb84dbc5064.png

我们可以看见数据存在离群值和异常值,对于离群值,我采用coerce,即用距离离群值最近的正常值代替它们。对于极端值采用discard extremes,即剔除极端值。


点击标题查阅往期内容


R语言Apriori算法关联规则对中药用药复方配伍规律药方挖掘可视化



左右滑动查看更多



01

02

03

04



基本描述分析

通过clmtime描述性分析并作图,

销售价格与月成交量的基本关系:散点图,

0987c92b996cdfad886da69c9d88832b.png

价格越贵成交量越少,价格越便宜销售量就相对多。

月成交量与电脑屏幕尺寸的基本关系:散点堆积图

3a4f5dd2f3974696171b1d45abc0ba6a.png

从图中可以看出,销售量峰值在15.6英寸到13英寸之间。

2571830caa3b261e419d5a6cb22944f6.png

从图中可以看出散点集中在部分品牌,如联想,苹果,戴尔等;

模型简介

   关联规则是数据挖掘算法中主要技术之一,是在无指导学习系统中挖掘本地模式的最普遍形式。在数据挖掘中,常见的关联规则挖掘模型有AIS、SETM、Apriori、DHP、MLT2L1、ML-TML1等。其中,Apriori算法是一种最有影响的挖掘关联规则频繁项集的模型。

Apriori模型原理

   Apriori算法通过多次扫描事务数据库来产生频繁项目集,我们称这种方法为逐层搜索迭代法。具体地说,该算法的基本思想是通过对数据库的多次扫描来发现所有的频繁项集。首先第1遍扫描事务数据库生成频繁1项集,记为L1;然后基于L1第2遍扫描事务数据库生成频繁2项集,记为L2;依此迭代,基于L(k-1)第k遍扫描事务数据库生成频繁k项集,记为Lk。在后续的扫描中,首先以前一次所发现的所有频繁项集为基础,生成所有新的候选项集(Candidate Item sets),然后扫描数据库,计算这些候选项集的支持度,最后确定候选项集中哪些可成为频繁项集。重复上述过程直到再也产生不出新的频繁项集。

adede96b8efd2ce6b562520df686f806.png

仿真

平台及数据

为了验证Apriori模型在DSS数据挖掘中应用的可行性,本文在SPSS modeler软件平台上对Apriori模型进行仿真。实验数据来自于某电商网站的DSS系统中的顾客及购买电脑数据。数据包括1277条购买事务记录,每条购买事务记录中包含内容:价格、月成交量、累计评价、人气、产品名称、能效等级、品牌、屏幕尺寸、显存容量、机械硬盘容量、内存容量等。本文结合Apriori模型分析DSS中的顾客信息及购买数据分析哪些特征电脑最有可能购买。

价格 月成交量 累计评价 人气 产品名称 能效等级 品牌 屏幕尺寸 显存容量 机械硬盘容量 内存容量
3299 205 1353 4099 Acer/宏碁 E5 E5-572G-... 一级 Acer/宏碁 15.6英寸 2GB 500GB 4GB
3299 205 1353 4099 Acer/宏碁 E5 E5-572G-... 一级 Acer/宏碁 15.6英寸 2GB 500GB 4GB
3609 183 2149 14134 Acer/宏碁 E15 E5-572G-... 一级 Acer/宏碁 15.6英寸 2GB 500GB 4GB
3609 183 2149 14134 Acer/宏碁 E15 E5-572G-... 一级 Acer/宏碁 15.6英寸 2GB 500GB 4GB
3609 183 2149 14134 Acer/宏碁 E15 E5-572G-... 一级 Acer/宏碁 15.6英寸 2GB 500GB 4GB
3609 183 2149 14134 Acer/宏碁 E15 E5-572G-... 一级 Acer/宏碁 15.6英寸 2GB 500GB 4GB
...









4709 88 195 1409 Acer/宏碁 威武 V5-591G 一级 Acer/宏碁 15.6英寸 2GB 1TB 8GB
4709 88 195 1409 Acer/宏碁 威武 V5-591G 一级 Acer/宏碁 15.6英寸 2GB 1TB 8GB
4709 88 195 1409 Acer/宏碁 威武 V5-591G 一级 Acer/宏碁 15.6英寸 2GB 1TB 8GB
4400 88 159 4365 Acer/宏碁 Aspire F15 F5... 一级 Acer/宏碁 15.6英寸 4GB 1TB 8GB
7588 85 445 2492 Apple/苹果 MacBook Air ... Apple/苹果 13.3英寸 共享内存容量 无机械硬盘 4GB
7588 85 445 2492 Apple/苹果 MacBook Air ... Apple/苹果 13.3英寸 共享内存容量 无机械硬盘 4GB

实验结果及分析

本文分别用Apriori算法对数据进行处理挖掘,具体结果如下所示。

Apriori算法

虽然 Apriori 算法可以直接挖掘生成表中的交易数据集,但是为了关联挖掘其他算法的需要先把交易数据集转换成分析数据集,构建的数据流如图 1 所示。

065caaccd2a74486ea1d2e2835f6433d.png

通过格式转换,发现数据源中共有二十种电脑,设最低条件支持度为15%,最小规则置信度为30%,最大前项数为5,选择专家模式,挖掘出大类电脑的13条关联规则,如图 2 所示。生成的13条规则如下所示:

6da2408850a9ffec0fcb52e389ceadf4.png

从实验结果来看,实验产生了三条置信度和支持度最高的关联规则:分别为能效等级 = 一级,品牌 = Lenovo/联想,支持度=19.27899686,置信度=97.5609756097561;m能效等级 = 一级,品牌 = Lenovo/联想 and 内存容量 = 4GB   ,支持度=12.695924764890282  ,置信度=97.53086419753086;能效等级 = 一级,       品牌 = Lenovo/联想 and 显存容量 = 2GB       支持度=13.166144200626958    ,置信度=96.42857142857143。同时,三条关联规则的提升值都可以接受。因此,能效等级、品牌 = Lenovo/联想、内存容量是最可能连带销售的电脑特征。因此,在实际销售或者在电脑的摆放过程中,可以将这些特征的电脑进行捆绑销售。

分析及建议: 通过表 2 可以清晰的看到购买Lenovo/联想、能效等级 = 一级的顾客比较多,建议电商网站可以加大对这些电脑的采购,由上述结果可知,同时购买Lenovo/联想、能效等级 = 一级的顾客的情况占总订单数的19.27%,能效等级 = 一级,品牌 = Lenovo/联想 and 内存容量 = 4GB的订单分别占总订单数的12.69%,购买能效等级 = 一级电脑的人有97.530会购买Lenovo/联想,95%的人会购买华硕,由此可见,能效等级、内存、品牌这三种电脑特征关联度较高,可以将能效等级 = 一级、Lenovo/联想、华硕的电脑摆放在一块,从而增加销量。此外,在符合支持度和置信度的条件下没有顾客购买东芝、清华同方等,建议有关人员减少这几种电脑的进货量,但为了保持电脑的多样性,还是要适当地进货。

相关文章
|
7月前
|
算法 数据可视化 数据挖掘
【视频】关联规则模型、Apriori算法及R语言挖掘商店交易数据与交互可视化|数据分享
【视频】关联规则模型、Apriori算法及R语言挖掘商店交易数据与交互可视化|数据分享
|
7月前
|
数据采集 机器学习/深度学习 算法
数据分享|WEKA关联规则挖掘Apriori算法在学生就业数据中的应用
数据分享|WEKA关联规则挖掘Apriori算法在学生就业数据中的应用
|
7月前
|
数据可视化 数据挖掘
数据分享|spss modeler用贝叶斯网络分析糯稻品种影响因素数据可视化
数据分享|spss modeler用贝叶斯网络分析糯稻品种影响因素数据可视化
|
7月前
|
机器学习/深度学习 数据采集 人工智能
SPSS modeler利用类神经网络对茅台股价涨跌幅度进行预测
SPSS modeler利用类神经网络对茅台股价涨跌幅度进行预测
|
7月前
|
机器学习/深度学习 算法 搜索推荐
SPSS大学生网络购物行为研究:因子分析、主成分、聚类、交叉表和卡方检验
SPSS大学生网络购物行为研究:因子分析、主成分、聚类、交叉表和卡方检验
|
7月前
|
算法 数据可视化 数据挖掘
IBM SPSS Modeler分类决策树C5.0模型分析空气污染物数据
IBM SPSS Modeler分类决策树C5.0模型分析空气污染物数据
|
7月前
|
机器学习/深度学习 数据可视化 搜索推荐
PYTHON条件生存森林模型CONDITIONAL SURVIVAL FOREST分类预测客户流失交叉验证可视化|数据分享
PYTHON条件生存森林模型CONDITIONAL SURVIVAL FOREST分类预测客户流失交叉验证可视化|数据分享
|
7月前
|
移动开发 算法 数据可视化
数据分享|Spss Modeler关联规则Apriori模型、Carma算法分析超市顾客购买商品数据挖掘实例
数据分享|Spss Modeler关联规则Apriori模型、Carma算法分析超市顾客购买商品数据挖掘实例
|
7月前
|
数据采集 存储 算法
数据分享|Weka数据挖掘Apriori关联规则算法分析用户网购数据
数据分享|Weka数据挖掘Apriori关联规则算法分析用户网购数据
|
7月前
|
机器学习/深度学习 数据可视化 算法
R语言CART决策树、随机森林、chaid树预测母婴电商平台用户寿命、流失可视化
R语言CART决策树、随机森林、chaid树预测母婴电商平台用户寿命、流失可视化