前言
本期开始之前,小编想问大家一个问题:对于一场数学考试,分数高的应试者一定比分数低的应试者能力高吗?答案显然是否定的。那如何通过一场测试来衡量一个人在某方面的能力呢?当然是项目反应理论(item response theory, IRT)![1]
IRT 简介
IRT
理论引入了试题 (item)
的难度、区分度、猜测参数等来对应试者的实际能力进行参数估计,并建立相关的概率模型求解。
通俗来说,传统的测试理论表明正确率就是知识点掌握程度,而 IRT
是通过正确率来推测知识点掌握程度。例如,有两个应试者 A 与 B 考试,假如在没有猜题的情况下,A 和 B 得到了相同的分数,那么传统测验理论就会认为二者能力相同,但事实上, A 比 B 做出的题目要难很多,故在 IRT
下, A 比 B 的能力要高。
模型简介
项目特征曲线
IRT
理论的其它构建都依赖于项目特征曲线 (item characteristic curve, ICC), 该曲线反映了答对题目的概率与应试者能力大小的关系,曲线通常会由于所引用 item
参数不同而不同。一个 item
的 ICC
曲线图如 fig1
所示。
fig1: Item Characteristic Curve
上图所示是一个近乎理想的例子,当 值为 0 时,答对题目的概率为 0.5,当 值为 -5 时,答对概率几乎为 0,当 值为 +5 时,答对概率几乎为 1。
1P model
一参数模型中只引入了难度参数,又称 B 参数或阈值参数,该参数值衡量了一个 item
的难度。
fig2
是该模型下的项目特征曲线,图中一个明显特征就是任意两条 ICC
曲线互不相交。
fig2: 1P model的项目特征曲线
2P model
二参数模型是在一参数模型的基础上,加入了区分度参数,又称 A 参数,该参数衡量了 item
区分高低能力应试者的程度。
fig3:2P model的项目特征曲线
fig3
是二参数模型的项目特征曲线,图中曲线有明显的交叉,实际上,区分度参数影响了 ICC
的斜率。
3P model
三参数模型是在二参数模型上又加入了猜测参数,又称 C 参数,该参数值告诉我们应试者仅通过猜测答对题目的概率有多大。
fig4:3P model的项目特征曲线
在 fig4
中,大多数 ICC
在 y 轴上有较高的起点,数学上称之为截距,这表示应试者在毫不知情的情况下仍有一定的概率答对该题目。
应用过程简介
IRT
的一个特点就是利用模型去拟合数据,其中问卷所得的答案数据通常为 binary 或者 ordinal 形式。实际操作过程中,我们应根据所得数据形式和 item
特点建立合适的模型,设定合理的先验,最后进行参数估计,所得结果可用于评价 item
本身是否合理、学生个人能力大小的衡量等。随着 IRT
的发展,可应用于其参数估计的算法和 R
包越来越多,例如有 EM
算法、 MH-RM
算法、mirt
包等。