数据分享|WEKA关联规则挖掘Apriori算法在学生就业数据中的应用

简介: 数据分享|WEKA关联规则挖掘Apriori算法在学生就业数据中的应用

关联规则挖掘作为数据挖掘的一个重要分支,对于发现数据之间的潜在关联和规律具有重要意义。在教育领域,学生就业数据是一类重要的数据资源,通过关联规则挖掘可以揭示学生就业相关的规律和影响因素。本文旨在探讨WEKA关联规则挖掘Apriori算法在学生就业数据中的应用,以期为提高学生就业率和优化学生培养方案提供参考点击文末“阅读原文”获取完整代码数据

相关视频

image.png

本文首先介绍了关联规则挖掘的基本概念和方法,包括Apriori算法的原理、优势和适用场景。接着,本文详细阐述了WEKA数据挖掘软件的功能和特点,以及如何利用WEKA实现Apriori算法在学生就业数据中的具体应用。通过分析,本文发现Apriori算法可以有效地发现学生就业数据中的关联规则,揭示学生就业相关的规律和影响因素。

本文的研究成果不仅有助于提高学生就业率和优化学生培养方案,还可以为教育管理部门提供科学依据和决策支持。同时,本文的研究方法也可以为其他领域的数据挖掘应用提供参考和借鉴。

Weka

Weka是怀卡托智能分析系统的缩写,该系统由新西兰怀卡托大学开发。Weka使用Java写成的,并且限制在GNU通用公共证书的条件下发布。它可以运行于几乎所有操作平台,是一款免费的,非商业化的机器学习以及数据挖掘软件。Weka提供了一个统一界面,可结合预处理以及后处理方法,将许多不同的学习算法应用于任何所给的数据集,并评估由不同的学习方案所得出的结果。

af5a52a02780bca976c6380d86d5458d.png

数据

数据使用的是学生数据查看文末了解数据免费获取方式

部分数据如下图所示:

c02a29399025ee440784c72f6e97c837.png

数据建模

数据预处理

466f68907f4e3824c9d5c0f926de9459.png

指标选取

本次分析一共选取了13个指标427个样本,分别是:

             毕业年份

             性别

             生源所在地

             政治面貌

             民族

             实习经历

             平均成绩  

             平均学分绩    

             加权学分成绩    

             名次

             毕业去向

             就业形式

             单位所在地。

数据审核

84811f3b001c71c2da8f1d13ba161a67.png

由上表,可得:本次分析的数据都是有效的,不存在缺失值。


点击标题查阅往期内容


数据分享|Weka数据挖掘Apriori关联规则算法分析用户网购数据



左右滑动查看更多

8c93d280e0e947f0a98a41f7580b0d06.png

描述性统计量

15fda625e49877bd46869d0ad2cbe8e4.png 3cdfc8b71518d8eac0ca28df1fcff63d.png

31e09a9f3e0743beb8d4f5eae371ab6d.png 895833d24eb379e33c35daaa0eb333c0.png

d888de5290f8107741fcba7847df226a.png e017de8f9fafcda15a9eb599e907a9c7.png

f78c314f1ec46db16adf5d79cd434c98.png

73b08ade63b86637d06345fe5968f370.png 3b10a957d629cf1422bb8984ad42f954.png

4b8a0763713b30c668387f824518f6de.png

由上表,可得各个变量的均值、中值、最大值和最小值。可以看出这8个连续性变量不存在量纲上的差异,因此在后面的分析中,不需要进行标准化处理。

数据预处理:

419b51bd292c61605a65eb4db5ef7448.png

在进行关联规则挖掘之前,首先对属性进行离散化处理,将数值型变量转化成分类变量。

模型的实际应用

研究数据说明

 本文分别用Apriori算法对数据进行处理挖掘,具体结果如下所示。

(1)Apriori算法

虽然 Apriori 算法可以直接挖掘生成表中的交易数据集,但是为了关联挖掘其他算法的需要先把交易数据集转换成分析数据集,构建的算法设置图如图所示。

参数设置

通过格式转换, 设最低条件支持度为15%,最小规则置信度为30%,最大前项数为5,选择专家模式,挖掘出最有价值的10条关联规则,如图 所示。生成的10条规则如下所示:

c7993f25e838b2cc25a87c1a147d2db3.png

762e22cfe1f0e819a7d40806aaa23337.png

分析及建议: 通过图可以清晰的看到有实习经历的汉族学生有较大的概率获得就业协议。说明实习经历是影响学生是否就业的重要因素。同时,可以看到签订就业协议的学生大多数的毕业去向是派遣。从政治面貌来看,为共青团员的学生具有更大的概率能签订就业协议。从性别来看,大部分强关联规则中出现的性别为男。

结论

利用WEKA软件,通过分析频繁项集及关联规则生成的过程,采用Apriori算法对数据分别进行了解析挖掘,针对挖掘结果提出了相应的建议,对学生的就业准备和就业策略有着一定的现实的意义。


相关文章
|
3天前
|
算法 数据库
Apriori算法实现
Apriori算法实现
10 0
|
3天前
|
机器学习/深度学习 算法 数据挖掘
【Python机器学习专栏】关联规则学习:Apriori算法详解
【4月更文挑战第30天】Apriori算法是一种用于关联规则学习的经典算法,尤其适用于购物篮分析,以发现商品间的购买关联。该算法基于支持度和置信度指标,通过迭代生成频繁项集并提取满足阈值的规则。Python中可借助mlxtend库实现Apriori,例如处理购物篮数据,设置支持度和置信度阈值,找出相关规则。
|
3天前
|
算法 数据安全/隐私保护 计算机视觉
基于二维CS-SCHT变换和LABS方法的水印嵌入和提取算法matlab仿真
该内容包括一个算法的运行展示和详细步骤,使用了MATLAB2022a。算法涉及水印嵌入和提取,利用LAB色彩空间可能用于隐藏水印。水印通过二维CS-SCHT变换、低频系数处理和特定解码策略来提取。代码段展示了水印置乱、图像处理(如噪声、旋转、剪切等攻击)以及水印的逆置乱和提取过程。最后,计算并保存了比特率,用于评估水印的稳健性。
|
1天前
|
算法
MATLAB|【免费】融合正余弦和柯西变异的麻雀优化算法SCSSA-CNN-BiLSTM双向长短期记忆网络预测模型
这段内容介绍了一个使用改进的麻雀搜索算法优化CNN-BiLSTM模型进行多输入单输出预测的程序。程序通过融合正余弦和柯西变异提升算法性能,主要优化学习率、正则化参数及BiLSTM的隐层神经元数量。它利用一段简单的风速数据进行演示,对比了改进算法与粒子群、灰狼算法的优化效果。代码包括数据导入、预处理和模型构建部分,并展示了优化前后的效果。建议使用高版本MATLAB运行。
|
3天前
|
算法 计算机视觉
基于高斯混合模型的视频背景提取和人员跟踪算法matlab仿真
该内容是关于使用MATLAB2013B实现基于高斯混合模型(GMM)的视频背景提取和人员跟踪算法。算法通过GMM建立背景模型,新帧与模型比较,提取前景并进行人员跟踪。文章附有程序代码示例,展示从读取视频到结果显示的流程。最后,结果保存在Result.mat文件中。
|
3天前
|
资源调度 算法 块存储
m基于遗传优化的LDPC码OMS译码算法最优偏移参数计算和误码率matlab仿真
MATLAB2022a仿真实现了遗传优化的LDPC码OSD译码算法,通过自动搜索最佳偏移参数ΔΔ以提升纠错性能。该算法结合了低密度奇偶校验码和有序统计译码理论,利用遗传算法进行全局优化,避免手动调整,提高译码效率。核心程序包括编码、调制、AWGN信道模拟及软输入软输出译码等步骤,通过仿真曲线展示了不同SNR下的误码率性能。
9 1
|
3天前
|
存储 算法 数据可视化
基于harris角点和RANSAC算法的图像拼接matlab仿真
本文介绍了使用MATLAB2022a进行图像拼接的流程,涉及Harris角点检测和RANSAC算法。Harris角点检测寻找图像中局部曲率变化显著的点,RANSAC则用于排除噪声和异常点,找到最佳匹配。核心程序包括自定义的Harris角点计算函数,RANSAC参数设置,以及匹配点的可视化和仿射变换矩阵计算,最终生成全景图像。
|
3天前
|
算法 Serverless
m基于遗传优化的LDPC码NMS译码算法最优归一化参数计算和误码率matlab仿真
MATLAB 2022a仿真实现了遗传优化的归一化最小和(NMS)译码算法,应用于低密度奇偶校验(LDPC)码。结果显示了遗传优化的迭代过程和误码率对比。遗传算法通过选择、交叉和变异操作寻找最佳归一化因子,以提升NMS译码性能。核心程序包括迭代优化、目标函数计算及性能绘图。最终,展示了SNR与误码率的关系,并保存了关键数据。
16 1
|
3天前
|
算法 调度
考虑需求响应的微网优化调度模型【粒子群算法】【matlab】
考虑需求响应的微网优化调度模型【粒子群算法】【matlab】
|
3天前
|
运维 算法
基于改进遗传算法的配电网故障定位(matlab代码)
基于改进遗传算法的配电网故障定位(matlab代码)