数据分享|WEKA关联规则挖掘Apriori算法在学生就业数据中的应用

简介: 数据分享|WEKA关联规则挖掘Apriori算法在学生就业数据中的应用

关联规则挖掘作为数据挖掘的一个重要分支,对于发现数据之间的潜在关联和规律具有重要意义。在教育领域,学生就业数据是一类重要的数据资源,通过关联规则挖掘可以揭示学生就业相关的规律和影响因素。本文旨在探讨WEKA关联规则挖掘Apriori算法在学生就业数据中的应用,以期为提高学生就业率和优化学生培养方案提供参考点击文末“阅读原文”获取完整代码数据

相关视频

image.png

本文首先介绍了关联规则挖掘的基本概念和方法,包括Apriori算法的原理、优势和适用场景。接着,本文详细阐述了WEKA数据挖掘软件的功能和特点,以及如何利用WEKA实现Apriori算法在学生就业数据中的具体应用。通过分析,本文发现Apriori算法可以有效地发现学生就业数据中的关联规则,揭示学生就业相关的规律和影响因素。

本文的研究成果不仅有助于提高学生就业率和优化学生培养方案,还可以为教育管理部门提供科学依据和决策支持。同时,本文的研究方法也可以为其他领域的数据挖掘应用提供参考和借鉴。

Weka

Weka是怀卡托智能分析系统的缩写,该系统由新西兰怀卡托大学开发。Weka使用Java写成的,并且限制在GNU通用公共证书的条件下发布。它可以运行于几乎所有操作平台,是一款免费的,非商业化的机器学习以及数据挖掘软件。Weka提供了一个统一界面,可结合预处理以及后处理方法,将许多不同的学习算法应用于任何所给的数据集,并评估由不同的学习方案所得出的结果。

af5a52a02780bca976c6380d86d5458d.png

数据

数据使用的是学生数据查看文末了解数据免费获取方式

部分数据如下图所示:

c02a29399025ee440784c72f6e97c837.png

数据建模

数据预处理

466f68907f4e3824c9d5c0f926de9459.png

指标选取

本次分析一共选取了13个指标427个样本,分别是:

             毕业年份

             性别

             生源所在地

             政治面貌

             民族

             实习经历

             平均成绩  

             平均学分绩    

             加权学分成绩    

             名次

             毕业去向

             就业形式

             单位所在地。

数据审核

84811f3b001c71c2da8f1d13ba161a67.png

由上表,可得:本次分析的数据都是有效的,不存在缺失值。


点击标题查阅往期内容


数据分享|Weka数据挖掘Apriori关联规则算法分析用户网购数据



左右滑动查看更多

8c93d280e0e947f0a98a41f7580b0d06.png

描述性统计量

15fda625e49877bd46869d0ad2cbe8e4.png 3cdfc8b71518d8eac0ca28df1fcff63d.png

31e09a9f3e0743beb8d4f5eae371ab6d.png 895833d24eb379e33c35daaa0eb333c0.png

d888de5290f8107741fcba7847df226a.png e017de8f9fafcda15a9eb599e907a9c7.png

f78c314f1ec46db16adf5d79cd434c98.png

73b08ade63b86637d06345fe5968f370.png 3b10a957d629cf1422bb8984ad42f954.png

4b8a0763713b30c668387f824518f6de.png

由上表,可得各个变量的均值、中值、最大值和最小值。可以看出这8个连续性变量不存在量纲上的差异,因此在后面的分析中,不需要进行标准化处理。

数据预处理:

419b51bd292c61605a65eb4db5ef7448.png

在进行关联规则挖掘之前,首先对属性进行离散化处理,将数值型变量转化成分类变量。

模型的实际应用

研究数据说明

 本文分别用Apriori算法对数据进行处理挖掘,具体结果如下所示。

(1)Apriori算法

虽然 Apriori 算法可以直接挖掘生成表中的交易数据集,但是为了关联挖掘其他算法的需要先把交易数据集转换成分析数据集,构建的算法设置图如图所示。

参数设置

通过格式转换, 设最低条件支持度为15%,最小规则置信度为30%,最大前项数为5,选择专家模式,挖掘出最有价值的10条关联规则,如图 所示。生成的10条规则如下所示:

c7993f25e838b2cc25a87c1a147d2db3.png

762e22cfe1f0e819a7d40806aaa23337.png

分析及建议: 通过图可以清晰的看到有实习经历的汉族学生有较大的概率获得就业协议。说明实习经历是影响学生是否就业的重要因素。同时,可以看到签订就业协议的学生大多数的毕业去向是派遣。从政治面貌来看,为共青团员的学生具有更大的概率能签订就业协议。从性别来看,大部分强关联规则中出现的性别为男。

结论

利用WEKA软件,通过分析频繁项集及关联规则生成的过程,采用Apriori算法对数据分别进行了解析挖掘,针对挖掘结果提出了相应的建议,对学生的就业准备和就业策略有着一定的现实的意义。


相关文章
|
3天前
|
机器学习/深度学习 人工智能 算法
"拥抱AI规模化浪潮:从数据到算法,解锁未来无限可能,你准备好迎接这场技术革命了吗?"
【10月更文挑战第14天】本文探讨了AI规模化的重要性和挑战,涵盖数据、算法、算力和应用场景等方面。通过使用Python和TensorFlow的示例代码,展示了如何训练并应用一个基本的AI模型进行图像分类,强调了AI规模化在各行业的广泛应用前景。
14 5
|
5天前
|
人工智能 算法 前端开发
无界批发零售定义及无界AI算法,打破传统壁垒,累积数据流量
“无界批发与零售”是一种结合了批发与零售的商业模式,通过后端逻辑、数据库设计和前端用户界面实现。该模式支持用户注册、登录、商品管理、订单处理、批发与零售功能,并根据用户行为计算信用等级,确保交易安全与高效。
|
5天前
|
前端开发 算法 JavaScript
无界SaaS模式深度解析:算力算法、链接力、数据确权制度
私域电商的无界SaaS模式涉及后端开发、前端开发、数据库设计、API接口、区块链技术、支付和身份验证系统等多个技术领域。本文通过简化框架和示例代码,指导如何将核心功能转化为技术实现,涵盖用户管理、企业店铺管理、数据流量管理等关键环节。
|
9天前
|
机器学习/深度学习 算法 数据处理
EM算法对人脸数据降维(机器学习作业06)
本文介绍了使用EM算法对人脸数据进行降维的机器学习作业。首先通过加载ORL人脸数据库,然后分别应用SVD_PCA、MLE_PCA及EM_PCA三种方法实现数据降维,并输出降维后的数据形状。此作业展示了不同PCA变种在人脸数据处理中的应用效果。
13 0
|
17天前
|
机器学习/深度学习 算法 数据安全/隐私保护
基于MSER和HOG特征提取的SVM交通标志检测和识别算法matlab仿真
### 算法简介 1. **算法运行效果图预览**:展示算法效果,完整程序运行后无水印。 2. **算法运行软件版本**:Matlab 2017b。 3. **部分核心程序**:完整版代码包含中文注释及操作步骤视频。 4. **算法理论概述**: - **MSER**:用于检测显著区域,提取图像中稳定区域,适用于光照变化下的交通标志检测。 - **HOG特征提取**:通过计算图像小区域的梯度直方图捕捉局部纹理信息,用于物体检测。 - **SVM**:寻找最大化间隔的超平面以分类样本。 整个算法流程图见下图。
|
2天前
|
存储
基于遗传算法的智能天线最佳阵列因子计算matlab仿真
本课题探讨基于遗传算法优化智能天线阵列因子,以提升无线通信系统性能,包括信号质量、干扰抑制及定位精度。通过MATLAB2022a实现的核心程序,展示了遗传算法在寻找最优阵列因子上的应用,显著改善了天线接收功率。
|
4天前
|
监控 算法 数据安全/隐私保护
基于三帧差算法的运动目标检测系统FPGA实现,包含testbench和MATLAB辅助验证程序
本项目展示了基于FPGA与MATLAB实现的三帧差算法运动目标检测。使用Vivado 2019.2和MATLAB 2022a开发环境,通过对比连续三帧图像的像素值变化,有效识别运动区域。项目包括完整无水印的运行效果预览、详细中文注释的代码及操作步骤视频,适合学习和研究。
|
12天前
|
算法
基于粒子群算法的分布式电源配电网重构优化matlab仿真
本研究利用粒子群算法(PSO)优化分布式电源配电网重构,通过Matlab仿真验证优化效果,对比重构前后的节点电压、网损、负荷均衡度、电压偏离及线路传输功率,并记录开关状态变化。PSO算法通过迭代更新粒子位置寻找最优解,旨在最小化网络损耗并提升供电可靠性。仿真结果显示优化后各项指标均有显著改善。
|
7天前
|
机器学习/深度学习 算法 数据挖掘
基于GWO灰狼优化的GroupCNN分组卷积网络时间序列预测算法matlab仿真
本项目展示了基于分组卷积神经网络(GroupCNN)和灰狼优化(GWO)的时间序列回归预测算法。算法运行效果良好,无水印展示。使用Matlab2022a开发,提供完整代码及详细中文注释。GroupCNN通过分组卷积减少计算成本,GWO则优化超参数,提高预测性能。项目包含操作步骤视频,方便用户快速上手。
|
8天前
|
机器学习/深度学习 算法 数据安全/隐私保护
基于WOA鲸鱼优化的GroupCNN分组卷积网络时间序列预测算法matlab仿真
本项目展示了一种基于WOA优化的GroupCNN分组卷积网络时间序列预测算法。使用Matlab2022a开发,提供无水印运行效果预览及核心代码(含中文注释)。算法通过WOA优化网络结构与超参数,结合分组卷积技术,有效提升预测精度与效率。分组卷积减少了计算成本,而WOA则模拟鲸鱼捕食行为进行优化,适用于多种连续优化问题。