R语言分类回归分析考研热现象分析与考研意愿价值变现

简介: R语言分类回归分析考研热现象分析与考研意愿价值变现

首先,在考研中,受到新冠疫情影响,考研增长人数增长与大部分考研机构预测有一定差距(今年人数只有370多万,并没有突破400万大关),本次研究需要通过问卷调查进行内部影响机制探究点击文末“阅读原文”了解更多



其次,因为考研意愿程度会受到各种因素影响,因此本次研究帮助客户通过机器学习的方法,搭建考研意愿拟合模型,让各大考研机构可以有针对向考研学生推广考研培训套餐,实现服务与意愿相匹配以及考研意愿的价值变现。

解决方案

任务/ 目标

查阅相关文献,将考研意愿作为因变量,将自变量分为六大特征(疫情、家庭、个人、学校、社会、个人基本信息)

数据源准备

数据来源是通过网络问卷获取,为了控制问卷质量,在问卷中设置一部分检验变量,最后获取问卷610份,412份有效,198份无效问卷。

特征转换

61c3469285d73dcb30a12193461154a7.png



对于第一个问题,因为因变量为有序变量,意愿程度1—5,对考研意愿程度评价绘制分布图发现,考研意愿分布为正偏态分布,且是有序多分类变量,因此不能进行最小二乘法。对于这种情况一种处理方法是对因变量进行 Box-Cox 变换。



但是缺点是有学者表示变换较大时容易扭曲原本内涵。另外一种是非参数方法分析,例如:秩变化分析,推广的 Cox 回归模型、Logistic 回归分析等等。当然还有机器学习的一些方法,如决策树模型、贝叶斯网络等等




Xin Hu

拓端分析师




由于变量众多,在做回归时,对变量进行降维处理,对五个成分进行命名。

c15b98a94160d48c445bf39ee5525b57.png

其次学校因素是设置多选题,因此通过多重响应分析整合新变量。

42a377bbba9f0a9a0085549b19ef0e0d.png

建模一:解决第一个问题

根据前面变量表构造回归模型。

1.1 秩变化分析

秩变化分析是一种非参数方法,因为因变量不是正态分布,因此对因变量y进行秩变化然后再进行回归分析。

1.2 CATREG 分类回归分析

因为自变量有分类变量,因变量为有序变量,为了体现各类别差异,使用最优尺度变化,因此最优尺度是专门用于解决在统计建模时,如何对分类变量进行量化的方法。可将其作为一种预分析手段,通过快速发现各类别间的差异和联系,然后回到其他更易于理解和使用的分析结果。

建模二:解决第二个问题

对于提供考研服务的商家而言,学生的考研意愿如何变现是一个值得研究的问题。

本次根据收集的问卷数据,六大特征20个自变量通过构建分类模型,让商家有针对提供考研服务,减少过度服务带来考研学生反感以及较少服务带来考研学生不满足等问题,这样有利于考研服务商家减少资源浪费,实现考研意愿变现。

2.1 构造

以上说明了如何抽取相关特征,我们大致有如下样本(只列举部分特征)。

6e83fe8e3a5d5df9af55984825ee29b3.png 2.2 划分训练集和测试集

d8926c9a2aea5f491bc00b94c0742e28.png


2.3 模型

经典决策树

上面数据可以看到不同类别之间分布不平衡,数据集中再4和5这两类。这对我们的分类精度会带来多大影响?我们先建立一个简单的决策树模型。

2.4 模型优化

由于因变量是多分类不平衡数据,因此我们对于多分类数据可以采取上下取样的方法调节不同类别的比例。对于二分类处理不平衡数据方法有很多,最常用的是SMOTE算法。



对于多分类数据不平衡的处理有拆解法(把多分类变成多个二分类,进而生成多个分类器)、caret包里面的createdatapartition函数进行等比抽样、caret包提供的多种ML算法(downSample(),upSample()应用下采样和上采样方法)等等,考虑到模型复杂性以及抽样后样本包含的信息量等因素,采取upSample()进行抽样。



Xin Hu

拓端分析师



d6b7201c9196782fa949db6ae58b3806.png


抽样后,每个类别比例为1:1:1:1:1,类别均衡。前三个类别数量明显增加。

利用新抽样的样本进一步进行决策树分类。

建模一的模型结果:

秩变化分析:

808feed38bbfbe499013111f63a519b4.png

CATREG 分类回归分析

b6261d219328ee66ca0b88a1dcab021f.png

在此案例中,问题一的建模得到结果一样,因此结果具有一定稳健性。根据结果可以发现外部因素对个体(家人和自己)的影响是不显著的。造成上面现象原因,我认为是在长期考研热下,影响人们的外部因素 已经潜移默化的转化为个人因素,导致考研思维固化,具有内部稳定性,所以在疫情影响下,个体考研的意愿程度并没有受到影响,这也有 2021 考研人数增长远小于预测。至于外部因素转化为内部因素,可能是个体对外部因素 无法改变而迫不得已接受。所以我认为在此背景下,考研已经步入新的阶段,即“考研内卷时代”。


建模 二的模型结果:

优化前模型效果:

绘制多分类ROC曲线

7019aa433dea3aac8f189f63a454ddb5.png

Auc等于0.54

4d87ca12fe009b6d0a2a1988d44a5266.png

从roc曲线和auc的值看出模型效果差。

优化后的结果:

c021979214f8a07933dd347b380774a8.png


6f0d694909bd561822692c91ac059a54.png

从ROC曲线和AUC值看出优化后模型效果得到了明显提高。但是AUC在0-1的范围内靠近1,说明模型效果很好。一般大于0.8表明模型效果好。因此模型还有继续优化的空间。

比如:第一,采取其他分类模型(神经网络、knn、逻辑回归、C5.0等等)

第二,继续优化决策树相关参数

第三,增加惩罚矩阵

第四,抽样过程增加类别权重

第五,采取其他的方法处理多分类不平衡样本

第六,其他未知方法


相关文章
|
3月前
|
数据采集 机器学习/深度学习 数据可视化
R语言从数据到决策:R语言在商业分析中的实践
【9月更文挑战第1天】R语言在商业分析中的应用广泛而深入,从数据收集、预处理、分析到预测模型构建和决策支持,R语言都提供了强大的工具和功能。通过学习和掌握R语言在商业分析中的实践应用,我们可以更好地利用数据驱动企业决策,提升企业的竞争力和盈利能力。未来,随着大数据和人工智能技术的不断发展,R语言在商业分析领域的应用将更加广泛和深入,为企业带来更多的机遇和挑战。
|
2月前
|
数据挖掘 C语言 C++
R语言是一种强大的统计分析工具,提供了丰富的函数和包用于时间序列分析。
【10月更文挑战第21天】时间序列分析是一种重要的数据分析方法,广泛应用于经济学、金融学、气象学、生态学等领域。R语言是一种强大的统计分析工具,提供了丰富的函数和包用于时间序列分析。本文将介绍使用R语言进行时间序列分析的基本概念、方法和实例,帮助读者掌握R语言在时间序列分析中的应用。
52 3
|
3月前
|
数据采集 数据可视化 数据挖掘
R语言在金融数据分析中的深度应用:探索数据背后的市场智慧
【9月更文挑战第1天】R语言在金融数据分析中展现出了强大的功能和广泛的应用前景。通过丰富的数据处理函数、强大的统计分析功能和优秀的可视化效果,R语言能够帮助金融机构深入挖掘数据价值,洞察市场动态。未来,随着金融数据的不断积累和技术的不断进步,R语言在金融数据分析中的应用将更加广泛和深入。
|
4月前
|
机器学习/深度学习 数据采集 数据可视化
R语言在数据科学中的应用实例:探索与预测分析
【8月更文挑战第31天】通过上述实例,我们展示了R语言在数据科学中的强大应用。从数据准备、探索、预处理到建模与预测,R语言提供了完整的解决方案和丰富的工具集。当然,数据科学远不止于此,随着技术的不断发展和业务需求的不断变化,我们需要不断学习和探索新的方法和工具,以更好地应对挑战,挖掘数据的潜在价值。 未来,随着大数据和人工智能技术的普及,R语言在数据科学领域的应用将更加广泛和深入。我们期待看到更多创新的应用实例,为各行各业的发展注入新的动力。
|
4月前
|
数据采集 存储 数据可视化
R语言时间序列分析:处理与建模时间序列数据的深度探索
【8月更文挑战第31天】R语言作为一款功能强大的数据分析工具,为处理时间序列数据提供了丰富的函数和包。从数据读取、预处理、建模到可视化,R语言都提供了灵活且强大的解决方案。然而,时间序列数据的处理和分析是一个复杂的过程,需要结合具体的应用场景和需求来选择合适的方法和模型。希望本文能为读者在R语言中进行时间序列分析提供一些有益的参考和启示。
|
4月前
|
资源调度 数据挖掘
R语言回归分析:线性回归模型的构建与评估
【8月更文挑战第31天】线性回归模型是统计分析中一种重要且实用的工具,能够帮助我们理解和预测自变量与因变量之间的线性关系。在R语言中,我们可以轻松地构建和评估线性回归模型,从而对数据背后的关系进行深入的探索和分析。
|
4月前
|
机器学习/深度学习 数据采集
R语言逻辑回归、GAM、LDA、KNN、PCA主成分分类分析预测房价及交叉验证
上述介绍仅为简要概述,每个模型在实施时都需要仔细调整与优化。为了实现高度精确的预测,模型选择与调参是至关重要的步骤,并且交叉验证是提升模型稳健性的有效途径。在真实世界的房价预测问题中,可能还需要结合地域经济、市场趋势等宏观因素进行综合分析。
83 3
|
7月前
|
数据可视化 数据挖掘 API
【R语言实战】聚类分析及可视化
【R语言实战】聚类分析及可视化
|
7月前
|
机器学习/深度学习 数据可视化
R语言逻辑回归logistic模型ROC曲线可视化分析2例:麻醉剂用量影响、汽车购买行为2
R语言逻辑回归logistic模型ROC曲线可视化分析2例:麻醉剂用量影响、汽车购买行为
|
7月前
|
数据采集 数据可视化
利用R语言进行因子分析实战(数据+代码+可视化+详细分析)
利用R语言进行因子分析实战(数据+代码+可视化+详细分析)