多维因素与学生辍学风险预测

简介: 多维因素与学生辍学风险预测

绪论

背景描述

数据集收录了一个高等教育机构提供的各种本科学位就读的学生的全面情况。

包括:人口统计学数据、社会经济因素和学术数据,以及学生入学时的相关信息,如申请方式、婚姻状况、所选课程等。通过评估课程单位的学分/注册/评估/批准以及他们各自的成绩,可以预测估计每个学期末学生的整体表现。

此外,还有该地区的失业率、通货膨胀率和国内生产总值,这可以帮助我们进一步了解经济因素如何影响学生的辍学率或学业成功率。

数据说明

字段 说明
婚姻状况 学生的婚姻状况(分类)
申请方式 学生使用的申请方法(分类)
申请顺序 学生申请的顺序(数字)
课程 学生所选的课程(分类)
日间/晚间出勤 学生是在白天还是在晚上听课(分类)
以前的学历 学生在接受高等教育之前获得的资格(分类)
国籍 学生的国籍(分类)
母亲的学历 学生母亲的资格(分类)
父亲的学历 学生父亲的资格(分类)
母亲的职业 学生母亲的职业(分类)
父亲的职业 学生父亲的职业(分类)
是否流离失所 该学生是否为流离失所者(分类)
教育方面的特殊需要 学生是否有任何特殊教育需要(分类)
是否为债务人 该学生是否为债务人(分类)
学费是否过期 学生的学费是否已经过期(分类)
性别 学生的性别(分类)
是否为奖学金持有者 该学生是否为奖学金获得者(分类)
入学时的年龄 学生入学时的年龄(数字)
国际学生 该学生是否为国际学生(分类)
已记入的第1学期课程数 学生在第一学期所学的课程数量(数字)
已注册的第1学期的课程数 学生在第一学期注册的课程数量(数字)
第1学期的课程数(评价) 学生在第一学期评价的课程数量(数字)
第1学期的课程数(批准) 学生在第一学期批准的课程数量(数字)
第1学期课程单位(等级) 第1学期课程等级
第1学期的课程数(无评价) 第1学期课程无评价课程数
第2学期的课程数(学分制) 第2学期已记入课程数
第2学期的课程数(已注册) 第2学期已注册课程数
第2学期的课程数(评估) 第2学期评估课程数
第2学期的课程数(批准) 第2学期批准课程数
第2学期的课程数(成绩) 第2学期课程等级
第2学期的课程数(无评价) 第2学期无评价课程数
该地区失业率 失业率
该地区通货膨胀率 通货膨胀率
该地区国内生产总值 国内生产总值(GDP)
学业状态 学业状态

显示详细信息

在考虑到数据特征的相对丰富性,为了更有效地组织和分析这些信息,我们采取了一种分类策略,以便于对数据进行系统化处理。

这里我将它分为:个人基本信息、学业基本信息、课程信息、家庭背景信息、地区经济信息,具体分类方法如下

个人基本信息:这一类别涵盖了个体的基本识别信息,如婚姻状况、国籍、是否流离失所、是否为债务人等信息。此类信息是构建其他数据关联的基础,并用于确立数据主体的身份。

学业基本信息:此部分包括了与个体教育背景相关的信息,如所学历水平、入学年龄、学业状态等。这些信息有助于评估个体的学术成就和教育轨迹。

课程信息:这一类别详细记录了个体参与的课程。

家庭背景信息:此部分收集了与个体家庭环境有关的数据,如家庭成员、父母职业、父母学历等。这些信息对于理解个体的社会经济地位和家庭支持系统至关重要。

地区经济信息:最后,我们考虑了个体所在地区的经济状况,这可能包括失业率、通货膨胀率、国内生产总值(GDP)等宏观数据。这类信息为分析个体教育机会提供了重要的社会经济背景。

通过上述分类方法,我们能够确保数据的组织性和可访问性,从而为进一步的数据分析和研究提供了坚实的基础。

整理

在构建数据模型时,我们可以引入以下标签进行相关性分析和预测:

(将学业状态,是否为奖学金,学业成绩获得者作为标签,进行相关性分析与预测。)

  1. 学业状态:这一标签反映了学生的当前教育阶段,如是否在校、休学、毕业等。通过分析这一标签与其他变量的关系,我们可以识别可能导致学生辍学的风险因素,从而提前采取干预措施,如提供辅导和心理支持,以降低辍学率。
  2. 奖学金获得者:这一标签指示学生是否获得奖学金。通过分析这一标签与其他变量的关系,我们可以发掘影响学生获得奖学金的因素,如学业成绩、家庭经济状况等,从而为优化奖学金分配政策提供依据。
  3. 学业成绩:这一标签反映了学生的学术表现。通过分析这一标签与其他变量的关系,我们可以发掘影响学生学业成绩的因素,如学习习惯、教育资源等,从而制定针对性的教育策略,提高学生的学习成绩。

同时,我们还可以引入地区社会因素作为标签进行分析:

(同一地区失业率、通货膨胀率、国内生产总值(GDP)相同,从而得到学生所处地区与情况)

  1. 地区失业率:这一标签反映了学生所在地区的就业市场状况。通过分析这一标签与学生学业状态、成绩等的关系,我们可以评估不同地区社会因素对居民的影响,从而帮助社会机构制定有针对性的教育、就业支持政策。
  2. 通货膨胀率:这一标签反映了学生所在地区的经济稳定性。通过分析这一标签与学生学业状态、成绩等的关系,我们可以评估经济因素对学生学业和生活的影响,从而为政府和社会机构提供决策依据。
  3. 国内生产总值(GDP):这一标签反映了学生所在地区的经济发展水平。通过分析这一标签与学生学业状态、成绩等的关系,我们可以评估经济发展水平对学生学业和生活的影响,从而为政府和社会机构提供决策依据。

总结:

  • 识别学生辍学的风险因素:提前去进行指导教育,降低辍学率
  • 发掘影响成绩的因素:对症下药,提高学习成绩
  • 不同地区社会因素对居民的影响:帮助为政府、教育机构和社会组织提供有针对性的政策建议和支持措施。

一. 准备工作与数据预处理

1.1 数据查看

导入所需要的包和数据

import pandas as pd  # 导入pandas库,用于数据处理和分析
import matplotlib.pyplot as plt  # 导入matplotlib.pyplot库,用于绘制图表
import numpy as np  # 导入numpy库,用于进行数值计算
import seaborn as sns  # 导入seaborn库,用于数据可视化
import warnings  # 导入warnings库,用于处理警告信息
warnings.filterwarnings('ignore')  # 忽略警告信息
from pyecharts.charts import *  # 从pyecharts.charts模块中导入所有图表类
from pyecharts import options as opts  # 从pyecharts模块中导入options子模块,并命名为opts
df = pd.read_csv('dataset.csv')  # 使用pandas的read_csv函数读取名为'dataset.csv'的文件,并将数据存储在DataFrame对象df中

去重前后数据量对比

使用df.drop_duplicates()方法对数据进行去重操作,可以发现去重前后数据量保持一致,说明不存在重复的数据记录,无需进行去重可直接使用。

简单看看前五行,了解一下数据集的基本构成。

查看数据集的信息,包括列名、非空值数量和数据类型等

在数据预处理阶段,空值处理是一个重要的步骤。根据信息我们可以知道:

  1. 特征数量:34个。
  2. 数据行数:4,424条记录。
  3. 空值情况:'Non-Null Count’均为4,424,意味着每个特征都有相同数量的非空值,并且这些非空值的数量等同于数据的总行数。
  4. 数据类型:int float object

根据上述信息,我们可以得出以下结论:

  • 由于每个特征的’Non-Null Count’与数据行数相等,我们可以推断数据集没有缺失值(空值),因此不需要进行空值填充操作。
  • 下一步,我们应该观察各个特征的数据类型,这有助于我们了解数据的性质,例如数值型、分类型、文本型等,以便选择合适的数据处理和分析方法。

既然没有空值,我们可以直接跳过空值填充步骤,继续进行其他数据预处理工作。

1.2 特征处理

1.2.1 学业状态映射

为了实现特征映射和特征提取,我们需要对数据进行以下处理:

  1. 学业状态的数字转换
  • 将学业状态由文字描述转换为数字形式,以便机器学习算法能够处理。将“辍学”、“已入学”、“毕业”等状态分别映射为数字0、1、2等。
  1. 获取学生所属地区
  • 如果数据中已经包含了学生所属地区的信息,我们可以直接提取这一特征进行分析。
  • 如果地区信息以文字形式给出,我们需要将其转换为数字形式。

按照学业完成度从低到高,我们将学业完成度从低到高进行如下映射:

  • 0表示“辍学”
  • 1表示“已入学”
  • 2表示“毕业”

将学业状态由文字描述转换为数字形式,使得机器学习算法能够更好地处理和分析数据。通过这样的映射,后续可以将学业完成度作为特征之一,用于相关性分析和预测任务。

# 将'学业状态'列中的值映射为对应的数字,并将结果存储在新的'学业状态_num'列中
df['学业状态_num'] = df['学业状态'].map({'辍学':0,'已入学':1,'毕业':2})

可以看到处理前后数量保持一致。

1.2.2 所在地区提取

下面开始获取区域并进行映射,先获取所有地区不重复的信息。

可以看到一共有10个地方,并且每个地方的国内生产总值(GDP)是唯一的。为了进行地区编号的映射,我们可以按照国内生产总值从低到高的顺序将这些地方编号为0到9。

具体的映射步骤如下:

  1. 首先,我们需要对这10个地区的国内生产总值进行排序。
  2. 然后,将排序后的地区按照顺序分配一个唯一的编号,范围从0到9。
  3. 最后,我们将这些编号替换数据集中对应地区的原始名称。
df['该地区国内生产总值'].value_counts()

df['local'].value_counts()

经过数据处理,我们成功地为不同地区分配了唯一的编码,并且这些编码的数量与原始数据集中的地区数量保持一致。这一结果验证了我们的处理工作是正确的,确保了数据的一致性和完整性。

二. 探索性数据分析

通过画像掌握信息

2.1 目标学生基本信息调研(国籍+性别+婚姻+流浪+债务)

df['国际学生'].value_counts()

4314/4424

学生国籍的数据表明了学生的分布情况,其中:

  • 数字“0”代表本国学生。
  • 数字“1”代表国际学生。

根据结果,我们可以得出以下结论:

  • 超过97%的学生为本国学生,这表明学校或教育机构主要服务于本国学生。
  • 同时也有一定比例的国际学生,这说明学校或机构具有一定的国际吸引力,能够吸引国外学生前来学习。

这种学生构成的理解对于学校或教育机构的战略规划非常重要,因为它可以帮助机构评估其国际化程度,并根据这些信息制定招生、教育资源配置和市场营销策略。例如,学校可能会考虑如何平衡本国学生和国际学生的比例,以及如何提供适合国际学生的课程和服务,以继续吸引和满足国际学生的需求。


df['性别'].value_counts()

df['婚姻状况'].value_counts()

可以看到

  • 性别占比并不是很均匀,性别“0”的学生较多。
  • 一共有6种婚姻状况,其中“1”占比最高,接近90%,推测为“未婚”。其余几类没有推测依据,不进行进一步分析。

学生的生活状况对其学业表现有着直接的影响。从结果来看,有两个关键问题需要关注:

  1. 接近一半的学生流离失所
  • 这表明有显著比例的学生可能面临着住房不稳定或无家可归的情况。流离失所的学生可能会经历更多的压力和不确定性,这些因素会对他们的精神健康、身体健康以及学业表现产生负面影响。他们可能需要额外的支持,如心理咨询服务、稳定的住宿环境、经济援助或其他形式的帮助。
  1. 超过10%的学生背负债务
  • 负债的学生可能会因为财务压力而分心,这会影响他们的学习效率和整体的教育体验。债务可能来自于学费、生活费或其他相关费用,而财务负担可能导致学生不得不兼职工作,从而减少了他们投入到学业上的时间和精力。

为了帮助这些学生,社会层面的干预措施可能包括:

  • 提供紧急资金援助,以帮助学生解决问题
  • 创建辅导和支持项目,帮助学生管理债务并提供财务规划教育。
  • 增加奖学金和助学金的机会,减轻学生的经济负担。
  • 提供心理健康支持服务,帮助学生应对与流离失所相关的压力和情绪困扰。
  • 与社区组织合作,为流离失所的学生提供临时或长期的住宿解决方案。
  • 推动政策变革,以确保教育资源的公平分配,并提供更多支持给那些处于不利地位的学生。

通过这些措施,可以帮助学生克服生活困境,确保他们能够继续他们的教育,并为他们的未来打下坚实的基础。

2.2 学业相关信息调研(申请+入学年龄+出勤+学历+奖学金+学费有效期+特殊教育)

  • 学生申请方式中“1”最多,8、12次之。
  • 学生申请顺序优先“1”


学生入学时的年龄分布

学生年龄的分布和学历水平可以为我们提供关于教育机构服务对象和教育体系结构的重要信息:

  1. 学生年龄集中在18-21岁之间,这表明该教育机构主要服务于传统的大学年龄段的学生群体。这个年龄段通常是学生完成高中教育并开始接受高等教育的时期。
  2. 学生年龄的最小值为17岁,这可能意味着有些学生提前入学或者该教育机构允许早期入学。最大年龄为70岁,表明该机构对学习者的年龄没有严格限制,提供了终身学习的机会,这对于那些希望继续教育或改变职业道路的成年人来说是一个宝贵的机会。
  3. 结合学历分布,我们可以推测编码“1”代表的是高中学历。这意味着数据集中可能存在一个特征,用于标识学生的教育背景,其中“1”可能是指那些持有或正在追求高中学历的学生。这个假设需要通过查看数据集的具体文档或编码说明来验证。

  1. 晚上上课的学生占比为10.92%,这可能表明这部分学生需要在工作和学习之间进行平衡。晚上上课的安排可能是为了适应在职人员的时间表,使他们能够在工作之余接受高等教育。这种模式对于希望提升学历或技能的在职人员来说是一个重要的机会。
  2. 超过10%的学生学费过期,与债务人占比11.7%相对应,这可能表明财务状况是导致学费过期的主要原因。这部分学生可能因为经济困难而无法按时支付学费,这可能会影响他们的学业进度和毕业情况。
  3. 有51人有特殊教学需要,这意味着教育机构需要提供相应的支持和资源来满足这些学生的特殊需求。这可能包括特殊的教育设备、个性化的学习计划、辅导服务或其他形式的支持,以确保这些学生能够平等地参与学习并实现他们的学术目标。

针对这些情况,教育机构可以考虑采取以下措施:

  • 提供灵活的课程时间安排,包括夜间和周末课程,以适应在职学生的需求。
  • 建立财务援助和奖学金项目,帮助经济困难的学生解决学费问题,确保他们能够继续接受教育。
  • 为有特殊教学需要的学生提供个性化的支持和服务,确保他们能够获得必要的教育资源和帮助。

通过这些措施,教育机构可以更好地服务于不同背景和需求的学生,促进他们的学业成功,并提高教育的整体可及性和包容性。


奖学金覆盖率达到25%!

2.3 课程信息调研

第1学期的课程数(评价)

可以看到每学期课程都有6种相关变量,我们需要挖掘一下其中的关系。为了挖掘每学期课程的6种相关变量之间的关系,我们需要先观察和理解这些变量。

先简单提取十行数据看看。

可以进行如下假设:

  1. 第一个假设:学生对第一学期的课程进行评价的数量至少与他们已注册的课程数量相等。这意味着学生评价的课程包括了所有他们已注册的课程,没有遗漏。
    用数学符号表示为:
    第1学期的课程数(评价) ≥ 已注册的第1学期的课程数 \text{第1学期的课程数(评价)} \geq \text{已注册的第1学期的课程数} 1学期的课程数(评价)已注册的第1学期的课程数
  2. 第二个假设:学生已注册的第一学期课程数量至少与他们被批准的课程数量相等。这表明所有被批准的课程都已被学生注册,没有多余未注册的批准课程。
    用数学符号表示为:
    已注册的第1学期的课程数 ≥ 第1学期的课程数(批准) \text{已注册的第1学期的课程数} \geq \text{第1学期的课程数(批准)} 已注册的第1学期的课程数1学期的课程数(批准)
  3. 第三个假设是前两个假设的直接结果:学生对第一学期课程进行评价的数量至少与他们被批准的课程数量相等。这意味着所有被批准的课程都得到了评价,没有评价少于批准的情况。
    用数学符号表示为:
    第1学期的课程数(评价) ≥ 第1学期的课程数(批准) \text{第1学期的课程数(评价)} \geq \text{第1学期的课程数(批准)} 1学期的课程数(评价)1学期的课程数(批准)

综合这三个假设,我们可以得出结论,学生对第一学期课程的评价涵盖了所有他们已注册且被批准的课程。这为分析学生的学习行为、课程注册和审批流程提供了基础。

接下来用数据说话

np.sum(df['第1学期的课程数(评价)']>= df['已注册的第1学期的课程数'])

np.sum(df['已注册的第1学期的课程数']>=df['第1学期的课程数(批准)'])

np.sum(df['第1学期的课程数(评价)']>=df['第1学期的课程数(批准)'])

2、3假设满足,我们联系实际进行合理推测

  • 学生在系统中注册的课程数量代表了他们抢到的课程数。
  • 评价课程的数量可能包括了旁听课程,因此评价的课程数量大于批准的课程数量。
  • 只有被批准的课程才会记录成绩。

基于这些信息,我们选择“第1学期的课程数(批准)”和“第1学期课程单位(等级)”作为进一步分析的对象。这两个变量可以提供关于学生学业表现和课程质量的重要信息。

对于第二学期,我们可以进行类似的分析。首先,我们需要提取第二学期的相关数据,然后对其进行分析,以了解学生的注册情况、评价情况以及课程的批准情况。通过比较第一学期和第二学期的数据,我们可以观察到学生在不同学期的学习模式和行为趋势。

为了进行更深入的分析,我们可以考虑以下几个步骤:

  1. 提取第二学期的相关数据。
  2. 比较第一学期和第二学期的“课程数(批准)”和“课程单位(等级)”,观察是否存在差异。
  3. 分析学生在两个学期中的注册、评价和批准情况,以了解学生的学习行为和课程选择的变化。
  4. 根据分析结果,提出改进建议或采取相应措施,以提高教学质量和学生的学习体验。

综上所述,通过对“第1学期的课程数(批准)”和“第1学期课程单位(等级)”的进一步分析,我们可以更好地了解学生的学习情况和课程的质量,为教育决策提供有力的支持。

两学期呈现出较为一致的特点:

  1. 多数学生批准课程数为5-6节课
  • 这表明大多数学生倾向于选择5到6门课程作为他们的学习负担,这可能是因为他们认为这是他们能够有效管理的课程数量。
  • 这种情况可能与学生的学习能力、时间管理能力以及课程的难度和要求有关。
  1. 因为辍学,很多学生批准课数为0
  • 这可能表明有一部分学生在学期中途退出了学习,这可能是由于个人原因、经济困难、学业挑战或其他外部因素。
  • 这个现象值得关注,因为它可能影响到学生的学习成果和教育机构的保留率。
  1. 批准选3-4,7-8节课的学生也不少
  • 这表明有一部分学生选择了较少的课程(3到4门),可能是因为他们兼职工作或有其他课外活动,或者是部分时间制学生。
  • 同时,也有学生选择了较多的课程(7到8门),这可能表明这些学生有较强的学习能力或者他们正在努力在较短的时间内完成更多课程。

综合这些观察结果,我们可以得出以下结论:

  • 学生的选课行为呈现出多样性,有的学生选择承担较重的学习负担,而有的学生则选择较轻的学习负担。
  • 辍学现象是一个重要的问题,需要进一步研究其原因,并探索可能的解决方案,以提高学生的留存率。
  • 教育机构可能需要提供更多的支持和资源,以满足不同学生的需求,包括学术支持、心理健康服务和经济援助。

最后,这些分析结果可以为教育机构提供有价值的洞察,帮助他们改进课程设计、学生支持服务和招生策略。


下面查看一下成绩分布

np.min(df['第1学期课程单位(等级)']),np.max(df['第1学期课程单位(等级)'])

第1学期课程单位(等级)

第2学期的课程数(成绩)

可以看到成绩集中在11-14分之间,整体右偏分布。

2.4 家庭背景信息调研

结合学生入学学历来看:“1”代表高中,因此母亲的学历中高中学历最多,这可能反映了几个社会和教育方面的现象:

  1. 教育普及程度:这表明在学生所在的地区或群体中,高中教育已经相对普及。母亲的教育水平往往与子女的教育机会相关联,因为受过更高教育的母亲更有可能重视并支持子女的教育。
  2. 社会经济状况:母亲的教育水平可能受到社会经济状况的影响。高中学历在某个社会中可能是最常见的教育水平,这表明了该社会经济结构的特点,比如中等教育的可及性和普及性。
  3. 代际教育差异:如果大多数母亲的学历是高中,这可能意味着这一代母亲的教育机会比他们的子女要少。随着教育的普及和重视程度的提高,子女可能会获得更多的高等教育机会。
  4. 文化和社会价值观:在某些文化或社会中,女性可能更倾向于早婚和生育,而不是继续追求更高的教育。这可能导致母亲群体中高中学历的比例较高。
  5. 数据的时间背景:这些数据可能反映了特定历史时期的教育状况。随着时间的推移,教育政策和社会态度的变化可能会影响到后续年龄段人群的教育水平。

结合这些因素,教育机构和政策制定者可以更好地理解学生的背景,从而设计更加贴合学生需求的教育项目和支持措施。例如,如果大多数学生来自高中学历背景的家庭,学校可能需要提供更多的信息和资源来帮助这些学生适应大学学习的要求,同时也可能需要为家庭提供参与子女教育的鼓励和支持。


男性从事的职业更多元化一些,其中家长们的职业主要集中在“10”

我们不知道“10”这个职业代码代表什么具体的职业或行业,我们就无法进行具体的分析。职业编码通常由统计机构或研究机构制定,用于分类和记录不同职业的数据。在没有具体映射标准的情况下,我们只能做出一些一般性的假设。

如果男性从事的职业更多元化,这可能意味着:

  1. 男性在职业选择上可能面临较少的社会和文化限制,因此能够在更广泛的领域内寻找工作。
  2. 男性可能在STEM(科学、技术、工程和数学)领域、建筑、重工业、管理等领域有更多就业机会,这些领域往往包含多种不同的职业。
  3. 男性可能在传统上被认为是“男性职业”的行业中占有更多比例,如体力劳动密集型工作或需要特定技能的工作。

至于家长们的职业主要集中在“10”,这可能表明:

  1. “10”可能代表了一个广泛的职业类别,涵盖了许多不同的工作,这些工作可能是家长群体中最常见的。
  2. 这个职业类别可能提供了相对稳定的工作机会,吸引了大量求职者,包括家长。
  3. 如果“10”代表的是某种特定的行业或职业类型,那么这可能反映了该行业在当地经济中的重要性,或者是家长群体中普遍具备的技能和教育背景。

三. 相关性分析

查找数据背后的联系

由于一张特征较多,整体做相关性表呈现效果可能不够直观,因此我们选择感兴趣的几个方面,进行“逐个击破”。我们也能删除一些较高实际意义的变量,删除一些类似“父母的职业”,这种不了解映射规则的变量,提高效率。

在处理包含众多特征的数据集时,需要采取策略来提高分析的效率和可解释性。选择感兴趣的几个方面进行深入分析,而不是试图一次性解释所有特征,是一种有效的方法。以下是一些步骤和考虑事项,帮助大家更好地进行数据分析:

  1. 确定研究目标
  • 在开始之前,明确你们想要解答的问题或假设。这将帮助你们确定哪些变量是最有意义的。
  1. 选择相关特征
  • 根据研究目标,选择那些最有可能对目标变量产生影响的特征。例如,如果你们关注的是学生的学业成绩,可能会选择与学业表现直接相关的变量,如学习时间、课程难度等。
  1. 删除不必要的变量
  • 删除那些对研究目标不太重要的变量,或者那些难以理解的变量,如“父母的职业”如果不了解映射规则。这样可以减少数据的复杂性,提高分析的效率。
  1. 数据清洗
  • 确保所选特征的数据质量高,没有缺失值或异常值。必要时进行数据清洗,如填补缺失值、移除或修正异常值。
  1. 探索性数据分析
  • 对所选特征进行描述性统计分析,如计算均值、中位数、标准差等,以及绘制图表(如直方图、箱线图)来可视化数据分布。
  1. 相关性分析
  • 使用统计方法(如皮尔逊相关系数)来评估所选特征之间的相关性。这有助于识别哪些变量可能对目标变量有显著影响。
  1. 建立模型
  • 根据相关性分析的结果,建立预测模型或分类模型来进一步探究变量间的关系。
  1. 结果解释
  • 对模型的输出进行解释,确保结论与研究目标一致,并且能够回答最初的问题或假设。
  1. 报告撰写
  • 将分析过程和结果整理成报告,清晰地展示你们的发现,并提出可能的建议或后续研究方向。

通过这种“逐个击破”的方法,可以更专注地分析感兴趣的特定方面,而不是被大量特征所淹没。这种方法有助于提高分析的准确性和效率,并且使得结果更容易被理解和解释。

3.1 影响学生辍学的因素分析

我们关注到基本信息因素、学业背景因素对是否辍学产生的影响。

3.1.1 基本信息因素对辍学影响

从基本信息因素来看

根据您提供的信息,我们可以对基本信息因素与学生辍学之间的关系进行一些分析。以下是对这些因素的分析:

  1. 婚姻状况
  • 婚姻状况非未婚与辍学有较大的负相关。这可能意味着已婚或有伴侣的学生更有可能因为家庭责任、经济压力或时间管理问题而辍学。
  1. 性别
  • 性别为“1”的人与辍学有较大的负相关。这可能与性别角色、教育机会不均等或社会经济因素有关。
  1. 是否为债务人
  • 债务为“3”的人与辍学有较大的负相关。财务压力可能是导致这部分学生辍学的一个重要因素。
  1. 流离失所状态
  • 流离失所状态为“1”的人似乎不容易辍学。

这些分析结果可以帮助教育机构和社会服务组织更好地理解哪些学生群体可能面临更高的辍学风险,并为他们提供针对性的支持和资源。例如,可以为已婚或有家庭责任的学生提供灵活的学习计划,为经济困难的学生提供财务援助,以及为流离失所的学生提供住宿和其他基本支持。

为了深入了解这些因素的影响,可能需要进一步的统计分析,包括控制其他变量的影响,以及考虑不同因素之间的交互作用。此外,了解每个变量的具体含义和背后的社会背景对于提出有效的干预措施至关重要。

3.1.2 学业背景因素对辍学影响

从学业背景信息来看

  1. 学费过期与奖学金
  • 学费过期与学生是否获得奖学金之间存在较大的正相关。这意味着没有获得奖学金的学生更有可能让学费过期,这可能是因为经济困难导致他们无法按时支付学费。
  • 同时,学费过期的学生更容易辍学。这可能是由于财务压力导致学生无法继续注册课程或维持学业。
  1. 入学年龄
  • 入学年龄与辍学率有较大的负相关,即年龄较大的学生相对更容易辍学。这可能与多种因素有关,如生活责任、学习动机、健康问题或者与年轻学生相比,他们的学习方式和需求不同。

这些发现对于教育机构来说具有重要意义,因为它们可以帮助学校识别可能面临辍学风险的学生群体,并为他们提供相应的支持。例如:

  • 提供更多的奖学金机会或财务援助,以帮助经济困难的学生减轻财务负担,确保他们能够继续学业。
  • 为年龄较大的学生设计特定的支持计划,如灵活的学习时间表、职业规划服务或者成人学习资源,以满足他们的特定需求。
  • 加强对学费管理政策的宣传教育,确保学生了解支付学费的期限和方式,以及未能按时支付学费可能导致的后果。

3.2 影响学生选课、成绩的因素分析

结合多张表的分析结果,我们可以得出以下结论:

  1. 学期课程数量与成绩的关系
  • 1学期课程数量与2学期课程数量、成绩之间存在高度正相关。这意味着学生在不同学期的表现具有一致性,即学生的成绩水平相对稳定。这与现实情况相符,表明学生的学习能力和成绩通常在一定时间内保持稳定。
  1. 课程数量与成绩的关系
  • 课程数量与学生成绩也呈高度正相关。这表明成绩优秀的学生倾向于选修更多的课程。这可能是因为成绩好的学生更有自信和能力处理更多的学习任务,或者他们更有机会获得奖学金等激励措施,从而选择更多课程。
  1. 债务状况、性别与成绩的关系
  • 是否为债务人以及性别与成绩呈负相关,具体来说,性别为“1”,债务为“2”的学生成绩相对较差。这可能反映了经济压力和社会性别角色对学业表现的影响。
  1. 年龄与出勤时间的关系
  • 年龄较大的学生倾向于晚间出勤。这可能是因为成年学生由于工作或其他责任,需要在晚上或周末时间参加课程,以便更好地平衡学习和其他生活需求。
  1. 奖学金拥有情况与课程数量、成绩的关系
  • 持有奖学金的学生与课程数量、成绩之间存在高度正相关。这表明获得奖学金的学生往往选修更多的课程,且成绩较好。这可能是因为奖学金减轻了学生的经济负担,使他们能够更专注于学习,或者是奖学金对学生的学业表现有激励作用。

这些分析结果对于教育机构在制定教育政策和支持措施时非常有用。例如,学校可以:

  • 提供更多的奖学金和财务援助,尤其是给那些表现优秀但经济条件不佳的学生,以鼓励他们继续取得好成绩并选修更多课程。
  • 为成年学生提供更多的晚间和周末课程,以便他们能够在工作和家庭责任之外进行学习。
  • 针对可能存在经济困难的学生群体,提供额外的学术支持和咨询服务,帮助他们提高学业成绩。
  • 加强对性别平等的教育和社会意识,以确保所有性别的学生都有平等的机会取得学业成功。

通过这些策略,教育机构可以帮助学生克服学业上的障碍,提高整体的教育质量和学生的学业成就。

3.3 社会区域信息分析

此时我们可以根据分出的不同地区计算出辍学率、流离失所率、债务人率,我们将从区域层面进行相关性探究。

这里我们重点关注一个问题:预测学生未来是否可能辍学。我们将“已入学”和“在读”合并为一类记为0,值得关注的辍学样本记为1,进行重新编码,此时我们后续可以构建二分类模型,并进行预测。

从不同地区的经济指标分析中,我们可以得出以下结论:

  1. 生产总值与失业率、辍学率的关系
  • 生产总值的降低与失业率的提升和辍学率的提升存在强相关。这意味着当地区经济状况不佳时,不仅工作机会减少导致失业率上升,而且家庭经济压力增加可能导致学生辍学率提高。
  1. 生产总值与通货膨胀率的关系
  • 生产总值的降低也与高通货膨胀率相关。这表明经济衰退可能导致货币价值下降和生活成本上升,进一步加剧经济困难。
  1. 失业率与流离失所的关系
  • 失业率的提升与流离失所的情况紧密相关。失业通常会导致个人和家庭的收入减少,进而可能无法支付住房费用,增加了无家可归的风险。

这些分析结果表明,地区经济状况对社会稳定和居民福祉有深远的影响。因此,政府和决策者需要采取积极的财政措施来干预和支持地区经济,以防止负面连锁反应的发生。可能的财政干预措施包括:

  • 刺激经济增长:通过公共支出、税收减免或投资基础设施项目来刺激经济活动和创造就业机会。
  • 提供社会保障:增加失业救济金、食品补助和其他社会福利项目,以支持那些失去工作或面临经济困难的个人和家庭。
  • 教育支持:为学生提供奖学金、助学金和其他教育资助,以减轻家庭负担并鼓励学生继续接受教育。
  • 稳定货币:采取适当的货币政策来控制通货膨胀,保持货币价值的稳定。

通过这些措施,政府可以帮助缓解经济衰退的影响,保护最脆弱的社会群体,并促进长期的经济稳定和增长。这些政策不仅有助于提高当前居民的生活水平,还有助于为未来的经济发展打下坚实的基础。

四. 模型预测

希望能让每个孩子都能远离辍学

排除掉意义不明确变量以及相关性较低的变量后,我们建立模型。

X = df[['婚姻状况','国际学生','性别','是否为债务人','是否流离失所',
        '该地区失业率','该地区通货膨胀率','该地区国内生产总值' ,
        '日间/晚间出勤','教育方面的特殊需要','学费是否过期',
        '是否为奖学金持有者','入学时的年龄','第1学期的课程数(批准)',
        '第1学期课程单位(等级)','第2学期的课程数(批准)','第2学期的课程数(成绩)']]
y = df['是否辍学']
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.3)
print(X_train.shape)
print(y_train.shape)
print(X_test.shape)
print(y_test.shape)

4.1 模型探索

模型score

交叉验证下模型

4.2 对选择出的模型调节参数

4.2.1 logistics 回归参数调节

在逻辑回归模型中,solver 参数指定了用于优化问题的算法,而 C 参数是正则化强度的倒数。通过调整这两个参数,可以影响模型的训练过程和最终结果。

  • solver: 这个参数决定了求解优化问题的算法。不同的求解器适用于不同规模和特性的问题。例如:
  • 'liblinear': 使用线性支持向量机(SVM)的库,适合处理较小的数据集或特征数量较少的情况。
  • 'saga': 使用随机平均梯度下降法(SAGA),适用于大规模问题。
  • 'lbfgs': 使用拟牛顿法,适用于小规模到中等规模的稀疏系统。
  • 'newton-cg': 使用牛顿共轭梯度法,适用于小规模问题。
  • C: 正则化系数,控制着模型的复杂度。较大的值表示较小的正则化强度,可能导致过拟合;较小的值表示较大的正则化强度,可能导致欠拟合。

当选择 l1 正则化时,即使用 L1 范数作为正则化项,这通常会导致稀疏解,即某些特征的系数为零。在这种情况下,你观察到当 solver = "liblinear"C = 1 时,召回率和得分都有所提升,这意味着这个特定的参数组合在这个问题上表现良好。

通过调节solver(‘liblinear’,‘saga’,‘lbfgs’,‘newton-cg’)和C的取值,观察最终取 l1 正则化下的 solver = “liblinear” C = 1 ,此时召回率和score均有所提升。

4.2.2 随机森林参数调节

最终我们将模型score提升到0.8475,召回率提高到0.7441

至此我们可以更准确的去发现学生辍学的风险并进行及时的干预!

五. 总结

本项目系统研究了学生学业数据,并研究影响辍学的关键因素、对地区情况进行分析,最终对辍学的发生进行预测。

  • 识别学生辍学的风险因素:提前去进行指导教育,降低辍学率
  • 发掘影响成绩的因素:对症下药,提高学习成绩
  • 不同地区社会因素对居民的影响:帮助社会机构可以制定帮助读书、就业的具体举措

因为时间有限还有诸多可优化之处,还请多多包涵。

六. 附录

附录


相关文章
|
24天前
|
机器学习/深度学习 供应链 TensorFlow
使用Python实现智能供应链风险预测
使用Python实现智能供应链风险预测
29 1
|
2月前
|
机器学习/深度学习 Python
贝叶斯分析与决策理论:用于确定分类问题决策点的应用
在分类问题中,一个常见的难题是决定输出为数字时各类别之间的切分点
49 9
贝叶斯分析与决策理论:用于确定分类问题决策点的应用
|
4月前
R语言生存分析: 时变竞争风险模型分析淋巴瘤患者
R语言生存分析: 时变竞争风险模型分析淋巴瘤患者
R语言生存分析: 时变竞争风险模型分析淋巴瘤患者
|
3月前
|
机器学习/深度学习 数据采集 数据可视化
基于聚类和回归分析方法探究蓝莓产量影响因素与预测模型研究
k均值聚类模型多元线性回归模型随机森林模型在数据分析项目中,选择合适的模型是至关重要的。本项目中,我们采用了三种不同的模型来分析蓝莓的生长条件和产量,以确保从不同角度全面理解数据。一、K均值聚类模型K均值聚类模型是一种无监督学习方法,用于根据数据的相似性将样本分成不同的组。在这个项目中,我们使用K均值聚类模型来识别具有相似特征的蓝莓品种。通过聚类分析,我们将蓝莓分为4个类别,每个类别代表了不同的生长条件和产量特性。这种分类有助于我们理解在不同环境条件下,哪些因素对蓝莓产量有显著影响。
|
4月前
|
数据采集 数据挖掘
多维因素与学生辍学风险预测附录
多维因素与学生辍学风险预测附录
|
4月前
|
机器学习/深度学习 传感器 自然语言处理
时间序列预测的零样本学习是未来还是炒作:TimeGPT和TiDE的综合比较
最近时间序列预测预测领域的最新进展受到了各个领域(包括文本、图像和语音)成功开发基础模型的影响,例如文本(如ChatGPT)、文本到图像(如Midjourney)和文本到语音(如Eleven Labs)。这些模型的广泛采用导致了像TimeGPT[1]这样的模型的出现,这些模型利用了类似于它们在文本、图像和语音方面获得成功的方法和架构。
107 1
|
4月前
|
机器学习/深度学习 数据挖掘
R语言逻辑回归模型的移动通信客户流失预测与分析
R语言逻辑回归模型的移动通信客户流失预测与分析
|
4月前
|
机器学习/深度学习 数据可视化 数据挖掘
SPSS用K均值聚类KMEANS、决策树、逻辑回归和T检验研究通勤出行交通方式选择的影响因素调查数据分析
SPSS用K均值聚类KMEANS、决策树、逻辑回归和T检验研究通勤出行交通方式选择的影响因素调查数据分析
|
4月前
|
机器学习/深度学习 数据可视化 数据挖掘
R语言用CPV模型的房地产信贷信用风险的度量和预测
R语言用CPV模型的房地产信贷信用风险的度量和预测
|
4月前
|
定位技术 计算机视觉 Windows
生态学建模:增强回归树(BRT)预测短鳍鳗生存分布和影响因素
生态学建模:增强回归树(BRT)预测短鳍鳗生存分布和影响因素