高考估分太头疼?大数据算法或成预测成绩新方式

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介:

导读:刚刚落幕的高考年复一年的吸引着整个社会的关注,大数据文摘首先预祝每一位考生都发挥出了最好的表现。通过这样的终结考试测试一个学生知识和能力已经成为社会普遍接受的方式。美国高校正在尝试一种新的成绩预测方式,125所学校正悄然采取此项措施,试图利用算法和学生平时表现预测学生成绩。


涵盖数以万计学生上百万个成绩单的数据算法


多年以来,当学生问起诸如我会在这门课上得到A这类问题的时候,Stephanie Dupaul就会开玩笑地说要向她收集的占卜玩具魔法8寻求答案。如今,她可以给她的学生比用占卜玩具更加准确的答案。


Dupaul南方卫理公会大学(Southern MethodistUniversity)招生管理的助理院长,也是日益增长的,正在利用已毕业学生的学业表现数据来预测在学学生的学业表现的大学管理者中的一员。在美国,大约已有125所学校正悄然采取此项措施,通常涉及组合利用累计多年的,涵盖了数以万计毕业生上百万个成绩单的数据。


这项措施和亚马逊,谷歌等技术大鳄利用数据预测消费者的购买行为如出一辙。当许多综合性大学和文理学院开始采取这项措施之后,辍学者的人数明显下降,而随之毕业率稳步上升。这些初期立竿见影的效果已引起了奥巴马政府的关注。在上周举行的白宫高等教育峰会上,奥巴马政府强调学校要更加彻底地利用数据来提高毕业率。


而对于学校来说,回报远远不只是毕业率的提高:学生成绩的数据跟踪还可以让学校从那些表现稳定的学生那里持续收入教学费,从而避免了因学生辍学而提高的招生成本。根据录取咨询公司Noel-Levitz估算,私立大学要花费2433美金,而4年制公立大学则要花费457美金来录取一个本科新生。


Dupaul提到:提高毕业率不仅关乎学校的生源和声望,还得说,它的确影响学校排名


对南方卫理公会大学来说数据分析显示那些提早申请录取的学生往往最终会拿到学位。同样的,那些在招生录取开始之前就来参观学校,加入兄弟会或是姐妹会,或是选修了超过平均数量课程的学生,也能顺利毕业。


通过这样或那样的认知,南方卫理公会大学建立了一个预测算法,用来估计一个学生是否能够顺利完成学业的概率。对可能无法顺利毕业的学生,学校通过学业顾问或是学院院长的介入来帮助他们。


其他大学也利用细化的数据以确保学生一开学就保持稳定的学业水平。比如在乔治亚州立大学,学校分析了250万个已毕业生的成绩信息来了解到底那些因素会影响在校生的毕业率。从2012年开始,学校建立起针对低于全美大学平均毕业率的早期预警系统。去年,这个系统对于那些处于学业困难状态,却对此浑然不觉的学生发出了34000次警报。


这个系统通过识别风险模式来提前警告学生,以免他们在课业上栽跟头。比如乔治亚州立大学的数据显示用学生第一门专业课的成绩可以预测他们是否能够毕业。以政治学专业为例,在第一门专业课中拿到A或者B的学生,他们中有85%将会取得学位。相比之下,只拿到C或是更差成绩的学生,取得学位百分比降到25%


我们以前通常,或者其他大学的情况是,对得成绩C的学生放任自流,等到想要帮助他们的时候为时已晚。乔治亚州立大学招生办负责人Timothy Renick说,现在,一旦我们得到学生在第一门专业课上得C的警报,我们就会立即采取行动。


我们会邀请那个得C的学生与学业顾问面谈,并向他建议其他可以选择的专业,以免他花费过多时间和精力在将要面临的不及格的处境里。


乔治亚州立大学还利用预测算法来引导那些拥有更高风险因素的大一新生。根据往届毕业生数据,针对那些来自于大学预备水平较差的特定高中的学生,学校会要求他们参加一个为期7周的暑期学校。这些学生中90%成功完成了第一个学年的课程,学业完成率高于那些未被这些风险因素标示出来而进入大学的他们的高中同级生。


数据分析不仅仅局限在大一新生。去年,大约2000个乔治亚大学高年级学生被挑选出来并且和学业顾问一对一面谈。因为他们都选上了一门无法满足他们专业要求的课,数据显示他们极有可能最终偏离轨道。然后他们又据此重新选择了能够满足专业要求的课程。


大多数的学生,当他们上一些和专业无关的课程时,并不是因为他们一直都想上希腊哲学课,” Renick说,那是因为他们不懂得乔治亚州立大学这样一个庞大机构制定的迷宫一样的选课法则。一旦他们选错了课,那就是关系能否毕业的问题了。


乔治亚州立大学还运用了12年往届毕业学生的数据来微调在学学生的专业方向,使那些专业可以更契合学生的学术专长,因而提高学生的毕业机会。


这真的是一个很简单的进程,” Renick说,但是也是高等教育机构还没有开始执行的进程“。


虽然已获得初步成功,但大多数高等院校仍对预测性数据持观望态度。据协助佐治亚州立大学及其它院校进行成绩预测项目的美国教育咨询委员会统计,在超过4000多有资格颁发学位的高等教育机构中,仅有125所正在这样使用数据。


专家指出更多的大学会推行成绩预测项目,因为这个项目不仅可以为学生提供支持,还提高教育的底线。Renick 指出,在学生数据跟踪系统里,学生就读率每提高1个百分点,佐治亚州立大学就可以挽回300万美元的学费损失。到目前为止,自从2年前大学开始分析利用此数据,学生就读率已提高5个百分点。亦即这部分相关的学费收入远高于总支出、包括年均10万美元的系统运行费和每年为帮助可能掉进学业的漏缝里的学生而额外聘请的42名学业顾问的170万美元开销。


这不再仅是道义上的,还是财务上的势在必行美国教育咨询委员会资深主管Ed Venit说道,对于校园中已经在学的学生,学校要尽量保持他们在校,直至他们毕业。


仍然,据美国学生资料库统计,自2008年起美国大学毕业率只降无升。因为学生转专业,挣扎于必修课程或选修在毕业时本不需要的课程等各种原因,仅有55%的学生能在6年的学习中获得两年制或四年制大学学位。


Veint 来说,对那些学校已收集信息进行分析倒是可以避免这些错误。数据的准确性致使我们在一英里之外就可以预见这些问题他说道,高等教育在数据分析方面落后于其它产业


这种情况已开始有所转变。因为学生、家长,政策制定者们都在敦促学校提供更好的教育投资回报,大学本身,尤其是那些资金紧张的公立大学,已被迫变得更富成效。


在佐治亚州立大学,80%的学生是来自社会少数族裔、低收入、家庭中第一代上大学的、或者是其他经常大学毕业有困难的群体。在大学开始研究这些数据之前,六年内毕业率仅只有32%,而目前已升至53%


试把上大学当作驾驶的过程,而大学毕业为行车目的地,第一代获得统计学博士学位的佐治亚州立大学校长Mark Becker说道,你的驾驶开始偏离路线时,我们想要纠正你,保证你向前行驶。


当前越来越多的与佐治亚州立大学学生情况相似, 类似于不太富裕、非白人、或者经常是家庭里第一个上大学的学生进入校园时,这些对学生的辅助就变得日益重要起来


许多学生只是勉强付得起学费,” Renick说道,修错些课程、拿几个不及格、失去奖学金、浪费学时等因素都有可能导致这些学生无法获得学位。


目前,大学正在利用数据研究如何预测由于财政问题导致的学生辍学以及提供在特定条件下的细分补助金来保持这些学生在学。去年,获得补助金的大一学生中,十人里有九人都继续留校完成学业。


普渡大学卡鲁梅,一个仅有31%的学生在6年内毕业的大学,今年秋季有74%的学生返校学习--相较去年上升5%。在学生的增加给学校带来50万美元的学费收入,也让学校为招收学生节省了开支。这笔钱是学校花在学生成绩数据分析的开支的五倍左右。


根据曾在去年学校启动学生成绩预测系统的时候担任教务长的John Nicklow指出,南伊利诺伊大学的返校率则增长了8.3%,至68%学校年收为此增涨200万美元。学校的这些收益是源于学校使用数据识别出了比预想中更大比例的需要帮助对象。此项目耗资约10万美元,部分资金由比尔—美琳达盖茨基金资助。


我无法相信我们用了那么长时间去挖掘这些数据。“ 一个在培训的工程师Nicklow说道。我们需要更多人来做这件事。


南方卫理公会大学的Stephanie Dupaul 坐在她的30个魔法8球之间,宣称预测性数据“是正在兴起的潮流,不过很多学校尚未赶上这股浪潮。“ 不过她也提醒,即便是最优秀的数据算法,有时其预测精确性也可能只和她桌上排列的玩具一样。


她说:即便当迹象指向肯定的时候,我们也要铭记仅靠数据本身总是不能预测一个人的命运的。




原文发布时间为:2015-06-09

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
5月前
|
机器学习/深度学习 算法 搜索推荐
从理论到实践,Python算法复杂度分析一站式教程,助你轻松驾驭大数据挑战!
【10月更文挑战第4天】在大数据时代,算法效率至关重要。本文从理论入手,介绍时间复杂度和空间复杂度两个核心概念,并通过冒泡排序和快速排序的Python实现详细分析其复杂度。冒泡排序的时间复杂度为O(n^2),空间复杂度为O(1);快速排序平均时间复杂度为O(n log n),空间复杂度为O(log n)。文章还介绍了算法选择、分而治之及空间换时间等优化策略,帮助你在大数据挑战中游刃有余。
160 3
|
5月前
|
存储 分布式计算 算法
大数据-106 Spark Graph X 计算学习 案例:1图的基本计算、2连通图算法、3寻找相同的用户
大数据-106 Spark Graph X 计算学习 案例:1图的基本计算、2连通图算法、3寻找相同的用户
108 0
|
7月前
|
机器学习/深度学习 自然语言处理 算法
【数据挖掘】金山办公2020校招大数据和机器学习算法笔试题
金山办公2020校招大数据和机器学习算法笔试题的解析,涵盖了编程、数据结构、正则表达式、机器学习等多个领域的题目和答案。
139 10
|
4月前
|
缓存 算法 大数据
大数据查询优化算法
【10月更文挑战第26天】
223 1
|
4月前
|
机器学习/深度学习 数据采集 算法
大数据中缺失值处理使用算法处理
【10月更文挑战第21天】
213 3
|
4月前
|
分布式计算 Java 开发工具
阿里云MaxCompute-XGBoost on Spark 极限梯度提升算法的分布式训练与模型持久化oss的实现与代码浅析
本文介绍了XGBoost在MaxCompute+OSS架构下模型持久化遇到的问题及其解决方案。首先简要介绍了XGBoost的特点和应用场景,随后详细描述了客户在将XGBoost on Spark任务从HDFS迁移到OSS时遇到的异常情况。通过分析异常堆栈和源代码,发现使用的`nativeBooster.saveModel`方法不支持OSS路径,而使用`write.overwrite().save`方法则能成功保存模型。最后提供了完整的Scala代码示例、Maven配置和提交命令,帮助用户顺利迁移模型存储路径。
|
8月前
|
机器学习/深度学习 算法 搜索推荐
从理论到实践,Python算法复杂度分析一站式教程,助你轻松驾驭大数据挑战!
【7月更文挑战第22天】在大数据领域,Python算法效率至关重要。本文深入解析时间与空间复杂度,用大O表示法衡量执行时间和存储需求。通过冒泡排序(O(n^2)时间,O(1)空间)与快速排序(平均O(n log n)时间,O(log n)空间)实例,展示Python代码实现与复杂度分析。策略包括算法适配、分治法应用及空间换取时间优化。掌握这些,可提升大数据处理能力,持续学习实践是关键。
186 1
|
8月前
|
存储 监控 算法
「AIGC算法」大数据架构Lambda和Kappa
**Lambda与Kappa架构对比:** Lambda提供批处理和实时处理,保证数据最终一致性,但维护复杂。Kappa简化为单一流处理,易于维护,适合实时场景,但可能增加实时处理压力,影响稳定性。选择时考虑数据一致性、系统维护、成本和实时性需求。
214 0
「AIGC算法」大数据架构Lambda和Kappa
|
9月前
|
分布式计算 算法 Java
阿里云ODPS PySpark任务使用mmlspark/synapseml运行LightGBM进行Boosting算法的高效训练与推理
阿里云ODPS PySpark任务使用mmlspark/synapseml运行LightGBM进行Boosting算法的高效训练与推理
|
8月前
|
机器学习/深度学习 数据采集 算法
【机器学习】CART决策树算法的核心思想及其大数据时代银行贷款参考案例——机器认知外界的重要算法
【机器学习】CART决策树算法的核心思想及其大数据时代银行贷款参考案例——机器认知外界的重要算法