如何通过一场考试来衡量学生的能力呢?

简介: 本期开始之前,小编想问大家一个问题:对于一场数学考试,分数高的应试者一定比分数低的应试者能力高吗?答案显然是否定的。那如何通过一场测试来衡量一个人在某方面的能力呢?当然是项目反应理论(item response theory, IRT)![1]

前言


本期开始之前,小编想问大家一个问题:对于一场数学考试,分数高的应试者一定比分数低的应试者能力高吗?答案显然是否定的。那如何通过一场测试来衡量一个人在某方面的能力呢?当然是项目反应理论(item response theory, IRT)![1]


IRT 简介

IRT 理论引入了试题 (item) 的难度、区分度、猜测参数等来对应试者的实际能力进行参数估计,并建立相关的概率模型求解。

通俗来说,传统的测试理论表明正确率就是知识点掌握程度,而 IRT 是通过正确率来推测知识点掌握程度。例如,有两个应试者 A 与 B 考试,假如在没有猜题的情况下,A 和 B 得到了相同的分数,那么传统测验理论就会认为二者能力相同,但事实上, A 比 B 做出的题目要难很多,故在 IRT 下, A 比 B 的能力要高。


模型简介

项目特征曲线

IRT 理论的其它构建都依赖于项目特征曲线 (item characteristic curve, ICC), 该曲线反映了答对题目的概率与应试者能力大小的关系,曲线通常会由于所引用 item 参数不同而不同。一个 itemICC 曲线图如 fig1 所示。

]TDEF4$TI7`41IPPW~9MEYW.png

fig1: Item Characteristic Curve

上图所示是一个近乎理想的例子,当  值为 0 时,答对题目的概率为 0.5,当  值为 -5 时,答对概率几乎为 0,当  值为 +5 时,答对概率几乎为 1。


1P model

一参数模型中只引入了难度参数,又称 B 参数或阈值参数,该参数值衡量了一个 item 的难度。


fig2 是该模型下的项目特征曲线,图中一个明显特征就是任意两条 ICC 曲线互不相交。

OZBB8$U}Q7`O]948K]}U79Q.png

fig2: 1P model的项目特征曲线


2P model

二参数模型是在一参数模型的基础上,加入了区分度参数,又称 A 参数,该参数衡量了 item 区分高低能力应试者的程度。

@SB7_%N3Z]%E[_)EUCHP2ST.png

fig3:2P model的项目特征曲线

fig3 是二参数模型的项目特征曲线,图中曲线有明显的交叉,实际上,区分度参数影响了 ICC 的斜率。


3P model

三参数模型是在二参数模型上又加入了猜测参数,又称 C 参数,该参数值告诉我们应试者仅通过猜测答对题目的概率有多大。

S5JVQ9QS}%KNC_24Y0Z@[(4.png

fig4:3P model的项目特征曲线

fig4 中,大多数 ICC 在 y 轴上有较高的起点,数学上称之为截距,这表示应试者在毫不知情的情况下仍有一定的概率答对该题目。


应用过程简介

IRT 的一个特点就是利用模型去拟合数据,其中问卷所得的答案数据通常为 binary 或者 ordinal 形式。实际操作过程中,我们应根据所得数据形式和 item 特点建立合适的模型,设定合理的先验,最后进行参数估计,所得结果可用于评价 item 本身是否合理、学生个人能力大小的衡量等。随着 IRT 的发展,可应用于其参数估计的算法和 R 包越来越多,例如有 EM 算法、 MH-RM 算法、mirt 包等。

目录
相关文章
|
6月前
|
监控 数据可视化 数据挖掘
【软件设计师备考 专题 】软件过程评估与能力成熟度评估的基本方法
【软件设计师备考 专题 】软件过程评估与能力成熟度评估的基本方法
219 0
|
29天前
|
存储 编解码 算法
微帧科技:综合多项指标评价视频质量,才能更接近主观感受
视频质量评价指标如PSNR、SSIM和VMAF是衡量画面质量的重要工具,但不应成为视频工作者的唯一目标。微帧致力于优化画质,提升观看体验,强调综合评估指标,以实现最接近人眼主观感受的效果。本文探讨了PSNR avg.MSE与PSNR avg.log的区别,以及VMAF的优势与不足。
|
6月前
|
机器学习/深度学习 算法 数据可视化
数据报告分享|WEKA贝叶斯网络挖掘学校在校人数影响因素数据分类模型
数据报告分享|WEKA贝叶斯网络挖掘学校在校人数影响因素数据分类模型
|
程序员 开发工具
衡量程序员能力最好的方式
衡量程序员能力最好的方式
118 1
|
6月前
|
NoSQL 测试技术 应用服务中间件
考试查分场景重保背后,我们如何进行可用性测试
考试查分场景重保背后,我们如何进行可用性测试
|
6月前
【高效写作技巧】文章质量分有什么用?如何提高质量分
【高效写作技巧】文章质量分有什么用?如何提高质量分
89 0
|
移动开发 Python
综合评价法之秩和比法RSR
介绍秩和比法的应用,及其代码实现
1303 0
综合评价法之秩和比法RSR
|
机器学习/深度学习 数据采集 搜索推荐
机器学习评估指标的十个常见面试问题
评估指标是用于评估机器学习模型性能的定量指标。本文整理了10个常见的问题。
197 1
机器学习评估指标的十个常见面试问题
|
存储 自然语言处理 数据可视化
Elastic认证考试大纲(7.13版本)全方位分析(难度、考试频率、得分指数、综合分析等)
Elastic认证考试大纲(7.13版本)全方位分析(难度、考试频率、得分指数、综合分析等)
|
安全 索引
Elastic认证考试大纲(8.1版本)全方位分析(难度、考试频率、得分指数、综合分析等)
Elastic认证考试大纲(8.1版本)全方位分析(难度、考试频率、得分指数、综合分析等)
Elastic认证考试大纲(8.1版本)全方位分析(难度、考试频率、得分指数、综合分析等)
下一篇
无影云桌面