SPSS Modeler分析物流发货明细数据:K-MEANS(K均值)聚类和Apriori关联规则挖掘

简介: SPSS Modeler分析物流发货明细数据:K-MEANS(K均值)聚类和Apriori关联规则挖掘

全文链接:http://tecdat.cn/?p=32633

物流发货明细数据在现代物流业中扮演着至关重要的角色点击文末“阅读原文”获取完整代码数据


通过对这些数据进行挖掘和分析,我们可以发现隐含在背后的供应链运营规律和商业模式,从而指导企业在物流策略、成本管理和客户服务等方面做出更加科学和有效的决策。


SPSS Modeler是一款功能强大、界面友好的数据挖掘和分析工具,可以帮助企业对物流发货明细数据进行深入和准确的挖掘分析,提高数据价值和运营效率。

本文将以SPSS Modeler帮助客户分析物流发货明细数据,介绍如何使用SPSS Modeler对物流发货明细数据进行聚类分析和关联规则挖掘,并分析得出有益的结论和建议,为企业的物流运营和发展提供参考与支持。


数据的预处理

本研究的数据是一组关于物流的发货明细,数据包括以下字段:项目、指令日期、始发省、始发市、目的省、目的市、收货人单位、品名、数量、签收时间、签收数量、拒收数量和拒收原因。

image.png

对数据进行预处理:

(1)补充缺失值。对没有记录的数据缺失采用平均值法,以该字段的平均分数填充。

(2)规范化数据。运用最小-最大规范化方法对数据进行规范化处理,将数据映射到[0,1]区间,计算公式如下。

image.png

其中:ymax为该字段的最大值;

     ymin为该字段的最小值。


过程及结果分析

(1)读取数据

选择SPSS Modeler的Source-Excel-Data,在Data选项页中通过Import Files输入框选定Excel格式的成绩表文件,并点击Read Values 按钮,将所有数据读入,如图所示。

(2)K-Means 模型设置

选择SPSS Modeler的Modeling-K-means,将K-Means模型节点添加进数据流来,双击K-Means图标,在弹出的对话框中选择Model选项页,选项页中的参数解释如下:

1)Numbers of cluster:制定生成的聚类数目,这里设置为3.

2)Use Partitioned Data:如果用户定义了分割数据集,选择训练数据集作为建模数据集,并利用测试数据集对模型进行评价。

继续选择对话框中的Expert选项页,如图5所示,对该选项页中的参数做一下设置:

Model选项:选择Expert模式,表示将进行高级模式的选择。

Stop on选项:选择custom选项修改迭代终止的条件:

1)Maximum iterations(最大迭代数):该选项允许在迭代制定次数后终止训练,这里设置为20.

2)Change tolerance(差异容忍度):该选项允许在一次迭代中质心之间的最大差异小于制定水平时终止训练。

image.png

(3)执行和输出

设置完成后,选中Execute 按钮,即可得到执行并观察到结果。点击VIEW选项卡,可以以图表的形式来显示模型的统计信息以及各个属性在各簇中的分布信息。

image.png


点击标题查阅往期内容


SPSS用K均值聚类KMEANS、决策树、逻辑回归和T检验研究通勤出行交通方式选择的影响因素调查数据分析


01

02

03

04


(4)聚类结果

结果表明:簇1和2中的签收数量较低,簇5中的签收数量一般,簇4中的签收数量最低,可见,大部分样本的签收数量处于中等水平;各变量在各簇中的显著程度均较大,表明不同聚类簇的签收数量的分化程度较高,差异显著。

簇1

image.png

簇2

image.png

簇3

image.png

簇4

image.png

簇5

image.png

从每个聚类簇的情况来看,签收数量最多的是第5个簇,该簇中的最多的始发地是广东深圳,签收数量达到了2833件,其次是上海,签收数量达到了1287。同时从结果可以看到四川成都的签收数量最低,说明物流的集中地集中在广东深圳上海等地。


关联规则挖掘


本文分别用Apriori算法对数据进行处理挖掘,具体结果如下所示。

(1)Apriori算法

虽然 Apriori 算法可以直接挖掘生成表中的交易数据集,但是为了关联挖掘其他算法的需要先把交易数据集转换成分析数据集,构建的数据流如图所示。

image.png

1 商品关联规则 Apriori 算法挖掘流图

通过格式转换,发现数据源中共有二十种商品,设最低条件支持度为15%,最小规则置信度为30%,最大前项数为5,选择专家模式,挖掘出大类商品的15条关联规则,如图所示。生成的38条规则如下所示:

image.png

分析及建议: 通过图可以清晰的看到深圳、广东、北京的物流订单比较多,建议物流企业可以加大对这些地区的工作人员安排,由上述结果可知,发往北京和发往广东深圳的物流运单分别占总运单数的51.515%,41.414%,由此可见,北京 山东  深圳三个目的地的关联度较高,可以将这些地点的仓库摆放在一块,从而增加效率。同时可以看到 发往北京的物品中出现了较多的 三星 SM-W2016商品。因此,可以将这些商品交由专人来负责来提高效率。

最后我们得到了以下结果和文件:

image.png

相关文章
|
SQL 分布式计算 数据可视化
Tableau与大数据:可视化工具在大数据分析中的应用
【4月更文挑战第8天】Tableau是一款领先的数据可视化工具,擅长于大数据分析,提供广泛的数据连接器,支持多源整合。它与Hadoop、Spark等深度集成,实现高效大数据处理。Tableau的拖拽式界面和交互式分析功能使得非技术人员也能轻松探索数据。在实战中,Tableau用于业务监控、数据storytelling和自助式分析,推动数据民主化,提升决策效率。未来,Tableau将持续创新,扩展生态系统,并保障数据安全与合规性,助力企业最大化数据价值。
933 0
|
算法 关系型数据库 MySQL
MySQL高级篇——排序、分组、分页优化
排序优化建议、案例验证、范围查询时索引字段选择、filesort调优、双路排序和单路排序、分组优化、带排序的深分页优化
MySQL高级篇——排序、分组、分页优化
|
存储 固态存储 测试技术
电脑性能的影响因素
电脑性能的影响因素【10月更文挑战第31天】
790 2
|
11月前
|
人工智能 供应链 数据可视化
新一代信息技术助力企业数字化转型
本文深入探讨了企业数字化转型的内涵、重要性及其实现路径,强调了数字化转型不仅是技术革新,更是企业全方位的升级。文章分析了转型过程中面临的挑战与机遇,并介绍了板栗看板如何作为高效的项目管理工具,助力企业优化流程、提升效率,推动数字化转型的成功实施。
469 11
|
运维 负载均衡 网络协议
OSPF的主要特点与优势
OSPF的主要特点与优势
1103 0
|
SQL 关系型数据库 MySQL
实时计算 Flink版产品使用问题之在自定义RichSinkFunction中,如何获取source的schema
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
供应链 搜索推荐 数据挖掘
微店商品详情数据接口(micro.item_get)丨微店API接口指南
`micro.item_get`接口是微店API的关键工具,让开发者能获取商品详情,包括名称、价格、描述、图片、销量和SKU,用于电商同步、数据分析、个性化营销和提升购物体验。此接口加速了数据驱动的决策和业务优化。
|
存储 人工智能 安全
保障隐私的Elasticsearch AI搜索解决方案
【8月更文第28天】随着大数据和人工智能技术的发展,搜索引擎在日常生活中扮演着越来越重要的角色。然而,用户隐私保护成为了一个不容忽视的问题。本文将探讨如何在确保用户数据隐私的同时,利用Elasticsearch实现智能搜索功能。我们将介绍一种综合方案,该方案结合了加密技术、差分隐私、匿名化处理以及安全多方计算等方法,以保障用户数据的安全性
893 0
|
存储 监控 数据安全/隐私保护
数据迁移至云:最佳实践与工具
【6月更文挑战第1天】企业在数字化转型中选择将数据迁移至云以获取灵活性、降低成本及增强安全性。迁移前需详细规划,评估目标和需求,选择合适的云服务商。确保数据备份,利用工具如 AWS DataSync 自动化迁移,注意数据格式兼容性,并在迁移中监控、测试数据完整性。保障安全性,设置访问权限和加密。迁移后优化管理云资源,实现最佳性能和成本效益。遵循最佳实践,确保数据迁移顺利。
349 1
|
SQL 存储 BI
数据仓库名词和术语
数据仓库名词和术语
下一篇
oss云网关配置