数据分享|WEKA关联规则挖掘Apriori算法在学生就业数据中的应用

简介: 数据分享|WEKA关联规则挖掘Apriori算法在学生就业数据中的应用

关联规则挖掘作为数据挖掘的一个重要分支,对于发现数据之间的潜在关联和规律具有重要意义。在教育领域,学生就业数据是一类重要的数据资源,通过关联规则挖掘可以揭示学生就业相关的规律和影响因素。本文旨在探讨WEKA关联规则挖掘Apriori算法在学生就业数据中的应用,以期为提高学生就业率和优化学生培养方案提供参考点击文末“阅读原文”获取完整代码数据

相关视频

image.png

本文首先介绍了关联规则挖掘的基本概念和方法,包括Apriori算法的原理、优势和适用场景。接着,本文详细阐述了WEKA数据挖掘软件的功能和特点,以及如何利用WEKA实现Apriori算法在学生就业数据中的具体应用。通过分析,本文发现Apriori算法可以有效地发现学生就业数据中的关联规则,揭示学生就业相关的规律和影响因素。

本文的研究成果不仅有助于提高学生就业率和优化学生培养方案,还可以为教育管理部门提供科学依据和决策支持。同时,本文的研究方法也可以为其他领域的数据挖掘应用提供参考和借鉴。

Weka

Weka是怀卡托智能分析系统的缩写,该系统由新西兰怀卡托大学开发。Weka使用Java写成的,并且限制在GNU通用公共证书的条件下发布。它可以运行于几乎所有操作平台,是一款免费的,非商业化的机器学习以及数据挖掘软件。Weka提供了一个统一界面,可结合预处理以及后处理方法,将许多不同的学习算法应用于任何所给的数据集,并评估由不同的学习方案所得出的结果。

af5a52a02780bca976c6380d86d5458d.png

数据

数据使用的是学生数据查看文末了解数据免费获取方式

部分数据如下图所示:

c02a29399025ee440784c72f6e97c837.png

数据建模

数据预处理

466f68907f4e3824c9d5c0f926de9459.png

指标选取

本次分析一共选取了13个指标427个样本,分别是:

             毕业年份

             性别

             生源所在地

             政治面貌

             民族

             实习经历

             平均成绩  

             平均学分绩    

             加权学分成绩    

             名次

             毕业去向

             就业形式

             单位所在地。

数据审核

84811f3b001c71c2da8f1d13ba161a67.png

由上表,可得:本次分析的数据都是有效的,不存在缺失值。


点击标题查阅往期内容


数据分享|Weka数据挖掘Apriori关联规则算法分析用户网购数据



左右滑动查看更多

8c93d280e0e947f0a98a41f7580b0d06.png

描述性统计量

15fda625e49877bd46869d0ad2cbe8e4.png 3cdfc8b71518d8eac0ca28df1fcff63d.png

31e09a9f3e0743beb8d4f5eae371ab6d.png 895833d24eb379e33c35daaa0eb333c0.png

d888de5290f8107741fcba7847df226a.png e017de8f9fafcda15a9eb599e907a9c7.png

f78c314f1ec46db16adf5d79cd434c98.png

73b08ade63b86637d06345fe5968f370.png 3b10a957d629cf1422bb8984ad42f954.png

4b8a0763713b30c668387f824518f6de.png

由上表,可得各个变量的均值、中值、最大值和最小值。可以看出这8个连续性变量不存在量纲上的差异,因此在后面的分析中,不需要进行标准化处理。

数据预处理:

419b51bd292c61605a65eb4db5ef7448.png

在进行关联规则挖掘之前,首先对属性进行离散化处理,将数值型变量转化成分类变量。

模型的实际应用

研究数据说明

 本文分别用Apriori算法对数据进行处理挖掘,具体结果如下所示。

(1)Apriori算法

虽然 Apriori 算法可以直接挖掘生成表中的交易数据集,但是为了关联挖掘其他算法的需要先把交易数据集转换成分析数据集,构建的算法设置图如图所示。

参数设置

通过格式转换, 设最低条件支持度为15%,最小规则置信度为30%,最大前项数为5,选择专家模式,挖掘出最有价值的10条关联规则,如图 所示。生成的10条规则如下所示:

c7993f25e838b2cc25a87c1a147d2db3.png

762e22cfe1f0e819a7d40806aaa23337.png

分析及建议: 通过图可以清晰的看到有实习经历的汉族学生有较大的概率获得就业协议。说明实习经历是影响学生是否就业的重要因素。同时,可以看到签订就业协议的学生大多数的毕业去向是派遣。从政治面貌来看,为共青团员的学生具有更大的概率能签订就业协议。从性别来看,大部分强关联规则中出现的性别为男。

结论

利用WEKA软件,通过分析频繁项集及关联规则生成的过程,采用Apriori算法对数据分别进行了解析挖掘,针对挖掘结果提出了相应的建议,对学生的就业准备和就业策略有着一定的现实的意义。


相关文章
|
2月前
|
存储 算法 大数据
Apriori算法和Eclat算法差异
Apriori算法和Eclat算法差异
|
3月前
|
数据可视化 算法 前端开发
基于python flask+pyecharts实现的中药数据可视化大屏,实现基于Apriori算法的药品功效关系的关联规则
本文介绍了一个基于Python Flask和Pyecharts实现的中药数据可视化大屏,该系统应用Apriori算法挖掘中药药材与功效之间的关联规则,为中医药学研究提供了数据支持和可视化分析工具。
130 2
|
4月前
|
存储 算法 大数据
Apriori算法和Eclat算法在性能上有哪些主要的差异
Apriori算法和Eclat算法在性能上有哪些主要的差异
|
4月前
|
算法 数据挖掘 数据库
|
24天前
|
算法 安全 数据安全/隐私保护
基于game-based算法的动态频谱访问matlab仿真
本算法展示了在认知无线电网络中,通过游戏理论优化动态频谱访问,提高频谱利用率和物理层安全性。程序运行效果包括负载因子、传输功率、信噪比对用户效用和保密率的影响分析。软件版本:Matlab 2022a。完整代码包含详细中文注释和操作视频。
|
9天前
|
算法 数据挖掘 数据安全/隐私保护
基于FCM模糊聚类算法的图像分割matlab仿真
本项目展示了基于模糊C均值(FCM)算法的图像分割技术。算法运行效果良好,无水印。使用MATLAB 2022a开发,提供完整代码及中文注释,附带操作步骤视频。FCM算法通过隶属度矩阵和聚类中心矩阵实现图像分割,适用于灰度和彩色图像,广泛应用于医学影像、遥感图像等领域。
|
10天前
|
算法 调度
基于遗传模拟退火混合优化算法的车间作业最优调度matlab仿真,输出甘特图
车间作业调度问题(JSSP)通过遗传算法(GA)和模拟退火算法(SA)优化多个作业在并行工作中心上的加工顺序和时间,以最小化总完成时间和机器闲置时间。MATLAB2022a版本运行测试,展示了有效性和可行性。核心程序采用作业列表表示法,结合遗传操作和模拟退火过程,提高算法性能。
|
11天前
|
存储 算法 决策智能
基于免疫算法的TSP问题求解matlab仿真
旅行商问题(TSP)是一个经典的组合优化问题,目标是寻找经过每个城市恰好一次并返回起点的最短回路。本文介绍了一种基于免疫算法(IA)的解决方案,该算法模拟生物免疫系统的运作机制,通过克隆选择、变异和免疫记忆等步骤,有效解决了TSP问题。程序使用MATLAB 2022a版本运行,展示了良好的优化效果。
|
10天前
|
机器学习/深度学习 算法 芯片
基于GSP工具箱的NILM算法matlab仿真
基于GSP工具箱的NILM算法Matlab仿真,利用图信号处理技术解析家庭或建筑内各电器的独立功耗。GSPBox通过图的节点、边和权重矩阵表示电气系统,实现对未知数据的有效分类。系统使用MATLAB2022a版本,通过滤波或分解技术从全局能耗信号中提取子设备的功耗信息。
|
10天前
|
机器学习/深度学习 算法 5G
基于MIMO系统的SDR-AltMin混合预编码算法matlab性能仿真
基于MIMO系统的SDR-AltMin混合预编码算法通过结合半定松弛和交替最小化技术,优化大规模MIMO系统的预编码矩阵,提高信号质量。Matlab 2022a仿真结果显示,该算法能有效提升系统性能并降低计算复杂度。核心程序包括预编码和接收矩阵的设计,以及不同信噪比下的性能评估。
27 3