SPSS Modeler决策树和神经网络模型对淘宝店铺服装销量数据预测可视化|数据分享

简介: SPSS Modeler决策树和神经网络模型对淘宝店铺服装销量数据预测可视化|数据分享

本文阐述了服装店铺营销的现状,为客户提出了将数据挖掘技术应用到服装营销中的方案点击文末“阅读原文”获取完整代码数据

相关视频

image.png

image.png

image.png

在分析决策树算法的基础上,介绍了决策树神经网络和算法及其的构造,并使用该算法对淘宝店铺客户数据查看文末了解数据免费获取方式进行分类及对新客户类型预测,实现对商业数据中隐藏信息的挖掘,且对该挖掘模型进行了验证。

淘宝店铺原始数据

现在店铺面临的一个共同问题是店铺数据量非常大,而其中真正有价值的信息却很少。数据挖掘技术的出现,给店铺决策者带来了辅助决策支持。店铺可以利用先进的数据挖掘和商务智能分析技术对信息进行加工,店铺领导必须将经营模式转变为以客户为中心,为客户提供个性化服务。

674321bdbba4010982d583c3999fd1f0.png

建模前的准备过程

主要包括数据的抽取、数据的预处理、重要变量的描述统计。数据的预处理具体包括数据的清晰、属性的筛选、数据的平衡、数据的归一化、数据的离散化。

接下来我们打开 Modeler,新建 Stream,拖入一个“可变文件”节点到工作区。双击节点。选择示例数据文件作为输入。然后我们点击“可变文件”节点的预览按钮。得到结果如图:

f39ccddcf296510450b661cc5dd6c6ea.png

利用“数据审核”节点审核数据

“数据审核”节点可以提供给我们很多有用的信息,其中就包括数据缺失值信息。

7e76e84637478eb1dc26d5f5d3eff01a.png

dbe4ffed9fa24c4ae87df0d8b7e7e981.png

从上图中我们可以看到很多有用的信息,数据的分布图形,数据的类型,统计值等,在这里我们要关注的是最后一列有效数据,从销量来看可以发现有七个缺失值 ,这说明 “数据审核”节点已经成功的帮我们识别出了这列缺失值。同时我们可以发现有效数据仍然是 8792。

下边我们在 Modeler 中定义缺失值。

在类型页里我们发现有一列名为“缺失”,我们在销量这一列我们点击缺失这以空白项。

如上图,我们选择“定义空白”,添加一个缺失值为“无”。然后点击确定,关闭窗口。然后重新检查数据:

20f710bbdc7169599174c268c9933851.png

可以看到,其他变量的样本数也变成了8792,说明缺失值已经删去。

然后我们对数据进行异常点处理。

对于连续型数据,运行数据审核节点,在质量页面我们就可以查看离群值和极值。默认情况下,Modeler 是根据平均值的标准差来确定离群值和极值的。

得到异常值处理的结果:

068c8ef7e4a87d3b51411e86733b0b3e.png

我们可以发现,数据中含有大量的异常点和极值。因此,我们需要把这些样本删除。

85194d1ef192288b9dba3547b4dc0046.png

选择工具条里的生成按键,选择离群值和极值超节点。这时,Modeler 会帮我们自动生成一个过滤离群值和极值的超节点。我们连接“可变文件”节点和这个超节点,Modeler 就会帮我们按照我们期望的处理方式来处理离群值和极值。

然后我们可以得到以下的均值比较结果:

2b920a922f782e650a773d399e842e64.png cce57e559ab8b2b92167e38dd9b194e3.png 从结果我们可以判断影响用户会选择哪一个店家的重要因素是该店铺的销量而非价格。

数据的建模与仿真

决策树演算法是在进行数据挖掘时经常使用的分类和预测方法。

一个决策树的架构,是由三个部分所组成:叶节点 (Leaf Node)、决策节点 (Decision nodes) 以及分支 。决策树演算法的基本原理为:通过演算法中所规定的分类条件对于整体数据进行分类,产生一个决策节点,并持续依照演算法规则分类,直到数据无法再分类为止。

决策树演算法依据其演算原理以及可适用分析数据类型的不同延伸出多种决策树演算法。在 IBM SPSS Modeler 中,主要提供了四种常用的决策树演算法供使用者选择,分别为:C5.0、CHAID、QUEST 以及 C&R Tree 四种。

模型的建立

建立决策树模型串流

为了产生决策树模型,我们需要在数据建模前就定义好各栏位的角色,也就是加入字段选项下的「类型」节点。将类型节点拉入串流后,我们会先点选读取值按钮,接着设定角色。在本案例中,栏位 y 是我们最后预测的目标,因此先将其角色设定为“目标”,余下的栏位则是要设定为“输入”。

数据分区

为了在训练出模型后能够分析模型准确度,在此我们将加入字段选项下的「分区」节点,将数据分为 70%训练数据以及 30%测试数据。

d852302303d31e466ff34eba1feee243.png

考量到数据特性以及我们希望提供的决策树具有多元分类法,因此我们将建立 chaid分类模型。

CHAID 节点设定

将 CHAID 节点与分区节点连结后,我们将于此节点编辑页面中的模型标签下设定相关的变数。由于 CHAID 节点设定较多,以下将挑选我们有修改预设值的变数进行详细介绍。此定义来自“SPSS Modeler 15 Modeling Nodes 文件”。

生成决策树模型

决策树节点设定完成后,点击主工具列的运行当前流前即可看到两个决策树模型的产生。查看器标签则是将一样的决策树结果用树状图的方式展现。

3792537110327692cfbcd4c1966799ba.png

从上图中我们可以看到预测变量的重要性,排名是对销量变量影响最大的变量。其次是价格和正品保障。

分析结果

在前面的串流产生中,我们加入了分区节点将数据分成训练数据与测试数据,因此在决策树模型产生后,可加入分析节点 。分析节点中我们勾选重合矩阵选项,因此除了分析节点原本就提供的正确错误率比较,可进一步了解实际值与预测值的比较矩阵 。

5b8d35788efc436aea009654a42160de.png

然后我们对该数据进行神经网络分析。

然后我们可以得到如下的神经网络模型结果:

43dff82eb435d5ce26373468e0bb926d.png

上图是对神经网络模型的一个概要,其中包括目标变量,使用的模型,使用的停止规则以及神经元的个数,还有该模型的正确率。同时我们也可以得到,预测变量的重要性。

7593e31b2ed6885c1faa0bec5b71ee18.png

从上面的图形中我们可以判断,对销量影响最大的变量是销售额,然后是评论数,其次是运费,价格排名,原价格等等。从上面的结果我们可以判断神经网络模型得到的变量重要性,和决策树模型得到的结果有些不同。

因此下面我们还要对神经网络模型和决策树模型在测试集上的准确度表现进行对比。

分析结果

在前面的串流产生中,我们加入了分区节点将数据分成训练数据与测试数据,因此在决策树模型产生后,可加入分析节点 。分析节点中我们勾选重合矩阵选项,因此除了分析节点原本就提供的正确错误率比较,可进一步了解实际值与预测值的比较矩阵 。

a8fbc6533600bf2dc56e488bacb1efe0.png

结论与决策、建议

本文的预测系统使用了神经网络模型和决策树模型,建立了服装销售量预测模型,实现了服装销售量的预测以及结果分析,并且通过变量重要性图以及误差分析对比,让店铺了解该商品的重要影响因素是销售额、评论、价格等等,使得决策者可以有一个合理的服装销量的预测值。

因此,服装店铺可以根据以上所得的决策树模型来分析客户数据,获得各类会员的特点,对客户进行分类,实现对客户价值度、客户结构等的研究。这样有助于店铺为不同类型的客户制定针对性的营销策略,找到针对性强的销售分市场,稳定并扩大客户群体。

最后我们得到了结果文件:

dc2ebd310fb5c1ab436a2a969652ac4b.png

模型的改进

模型可能还不够完善,服装销售额还要考虑其他因素,服装促销的费用,店面的规模等,模型需要进一步完善才行。同时,模型训练的数据也还可以增加,少量的训练数据不具备非常强的说服力。另外由于模型的误差还是比较大,因此,可以考虑进一步调整模型的参数,以提高模型的准确度。

参考文献

[1] 王惠文,吴载斌,孟杰.偏最小二乘回归的线性与非线性方法[M].北京:国防工业出版社,2006.9,1-2,32.

[2] 任露泉.回归设计及其优化[M].北京:科学出版社,2009,20,248. [3] 黄强等.PC使用一册通[M] .北京:人民邮电出版社,1998,10.

[4] 周品,赵新芳.MATLAB数理统计分析[M].北京:国防工业出版社,2009.4,274.

相关文章
|
18天前
|
机器学习/深度学习 数据采集 人工智能
基于Huffman树的层次化Softmax:面向大规模神经网络的高效概率计算方法
层次化Softmax算法通过引入Huffman树结构,将传统Softmax的计算复杂度从线性降至对数级别,显著提升了大规模词汇表的训练效率。该算法不仅优化了计算效率,还在处理大规模离散分布问题上提供了新的思路。文章详细介绍了Huffman树的构建、节点编码、概率计算及基于Gensim的实现方法,并讨论了工程实现中的优化策略与应用实践。
62 15
基于Huffman树的层次化Softmax:面向大规模神经网络的高效概率计算方法
|
5天前
|
网络协议 安全 网络安全
探索网络模型与协议:从OSI到HTTPs的原理解析
OSI七层网络模型和TCP/IP四层模型是理解和设计计算机网络的框架。OSI模型包括物理层、数据链路层、网络层、传输层、会话层、表示层和应用层,而TCP/IP模型则简化为链路层、网络层、传输层和 HTTPS协议基于HTTP并通过TLS/SSL加密数据,确保安全传输。其连接过程涉及TCP三次握手、SSL证书验证、对称密钥交换等步骤,以保障通信的安全性和完整性。数字信封技术使用非对称加密和数字证书确保数据的机密性和身份认证。 浏览器通过Https访问网站的过程包括输入网址、DNS解析、建立TCP连接、发送HTTPS请求、接收响应、验证证书和解析网页内容等步骤,确保用户与服务器之间的安全通信。
35 1
|
9天前
|
监控 安全 BI
什么是零信任模型?如何实施以保证网络安全?
随着数字化转型,网络边界不断变化,组织需采用新的安全方法。零信任基于“永不信任,永远验证”原则,强调无论内外部,任何用户、设备或网络都不可信任。该模型包括微分段、多因素身份验证、单点登录、最小特权原则、持续监控和审核用户活动、监控设备等核心准则,以实现强大的网络安全态势。
|
1月前
|
存储 网络协议 安全
30 道初级网络工程师面试题,涵盖 OSI 模型、TCP/IP 协议栈、IP 地址、子网掩码、VLAN、STP、DHCP、DNS、防火墙、NAT、VPN 等基础知识和技术,帮助小白们充分准备面试,顺利踏入职场
本文精选了 30 道初级网络工程师面试题,涵盖 OSI 模型、TCP/IP 协议栈、IP 地址、子网掩码、VLAN、STP、DHCP、DNS、防火墙、NAT、VPN 等基础知识和技术,帮助小白们充分准备面试,顺利踏入职场。
90 2
|
1月前
|
网络虚拟化
生成树协议(STP)及其演进版本RSTP和MSTP,旨在解决网络中的环路问题,提高网络的可靠性和稳定性
生成树协议(STP)及其演进版本RSTP和MSTP,旨在解决网络中的环路问题,提高网络的可靠性和稳定性。本文介绍了这三种协议的原理、特点及区别,并提供了思科和华为设备的命令示例,帮助读者更好地理解和应用这些协议。
69 4
|
1月前
|
运维 网络协议 算法
7 层 OSI 参考模型:详解网络通信的层次结构
7 层 OSI 参考模型:详解网络通信的层次结构
202 1
|
1月前
|
网络协议 算法 网络性能优化
计算机网络常见面试题(一):TCP/IP五层模型、TCP三次握手、四次挥手,TCP传输可靠性保障、ARQ协议
计算机网络常见面试题(一):TCP/IP五层模型、应用层常见的协议、TCP与UDP的区别,TCP三次握手、四次挥手,TCP传输可靠性保障、ARQ协议、ARP协议
|
1月前
|
机器学习/深度学习 人工智能 算法
【车辆车型识别】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+算法模型
车辆车型识别,使用Python作为主要编程语言,通过收集多种车辆车型图像数据集,然后基于TensorFlow搭建卷积网络算法模型,并对数据集进行训练,最后得到一个识别精度较高的模型文件。再基于Django搭建web网页端操作界面,实现用户上传一张车辆图片识别其类型。
87 0
【车辆车型识别】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+算法模型
|
11天前
|
SQL 安全 网络安全
网络安全与信息安全:知识分享####
【10月更文挑战第21天】 随着数字化时代的快速发展,网络安全和信息安全已成为个人和企业不可忽视的关键问题。本文将探讨网络安全漏洞、加密技术以及安全意识的重要性,并提供一些实用的建议,帮助读者提高自身的网络安全防护能力。 ####
51 17
|
22天前
|
存储 SQL 安全
网络安全与信息安全:关于网络安全漏洞、加密技术、安全意识等方面的知识分享
随着互联网的普及,网络安全问题日益突出。本文将介绍网络安全的重要性,分析常见的网络安全漏洞及其危害,探讨加密技术在保障网络安全中的作用,并强调提高安全意识的必要性。通过本文的学习,读者将了解网络安全的基本概念和应对策略,提升个人和组织的网络安全防护能力。