项目反应理论(item response theory)也称潜在特质理论或潜在特质模型,是一种现代
心理测量理论,其意义在于可以指导项目筛选和
测验编制。项目反应理论假设
被试有一种“潜在特质”,
潜在特质是在观察分析测验反应基础上提出的一种统计构想,在测验中,潜在特质一般是指潜在的能力,并经常用测验总分作为这种潜力的估算。项目反应理论认为被试在
测验项目上的反应和成绩与他们的潜在特质有特殊的关系。通过项目反应理论建立的
项目参数具有恒久性的特点,意味着不同
测量量表的分数可以统一。
概念
项目反应理论(Item Response Theory, IRT)是一系列心理统计学模型的总称,是针对
经典测量理论(Classical Test Theory,简称CTT) 的局限性提出来的。IRT是用来分析
考试成绩或者
问卷调查数据的
数学模型,这些模型的目标是来确定潜在
心理特征(latent trait)是否可以通过测试题被反应出来,以及测试题和被测试者之间的互动关系。
广泛应用在心理和
教育测量领域,基于
IRT理论的
计算机自适应测试(CAT)是CAA常用的
测试方法。潜在特质模型(latent trait model)认为,在被试样本可观察到的测试成绩和基于该成绩不可观察的特质或能力之间存在着联系。
理论体系
– 假设一:能力单维性假设——指组成某个测验的所有项目都是测量同一
潜在特质;
– 假设二:局部独立性假设——指对某个被试而言,项目间无相关存在;
– 假设三:项目特征曲线假设——指对被试某项目的正确反应概率与其能力之间的
函数关系所作的模型。
IRT最大的优点是
题目参数的不变性,即题目参数的估计独立于被试组。它假定,被试在某一试题上的成绩不受他在测验中其他试题上的成绩影响;同时,在试题上各个被试的作答也是彼此独立的,仅由各被试的潜在特质水平所决定,一个
被试的成绩不影响另一被试的成绩,这就叫做局部独立性假设。
IRT理论所做出的一切推论都必须以局部独立性假设为前提。
常用模型
IRT根据受测者回答问题的情况,通过对题目
特征函数的运算,来推测受测者的能力。IRT的题目参数有:难度(difficulty index)---b、
区分度(discriminative power index)---a、和猜测系数(guessing index)---c。根据参数的不同,特征函数可分为
单参数模型(难度)、双
参数模型(难度、区分度)和三参数模型(难度、区分度、猜测参数)等。
IRT 的模型有
Logistic模型,Rasch模型,Lord的
正态卵形曲线模型等二十余种。下面以
Logistic模型为例进行简要介绍:
其中:
D=1.702;
a:题目的
区分度,它的值越大说明题目对受测者的区分程度越高;
b:题目的难度;
c:题目的猜测系数,它的值越大,说明不论受测者能力高低,都容易猜对;
P(θ):能力为θ的人答对此题目的概率。
如何选择恰当的模型进行
参数估计是题库选题的关键。不同的模型具有不同的特点,适合于不同条件下的使用。就上面所列的三种模型而言:
单参数模型比较简单,使用较为方便,但它对项目参数性质的要求较为苛刻;
双参数模型要求项目的猜测系数较小;
三参数模型虽然具有涵盖较多
项目信息的优点,但亦给参数估计带来更为复杂的工作。
因此,虽然关于模型选择标准尚无定论,不过,可以从命题方式、
记分方式、参数性质、样本人数、模型的强健性、假设的满足与否等方面得到一些选题的依据。
参数估计
参数估计是应用IRT的前提。常用
极大似然法、
贝叶斯等方法进行参数估计,使得所估计出的试题参数不受考生能力分布的影响,即具有参数不变性的优点。
在项目反应理论中,难度被定义为试题本身固有的特性,不随考生样本的变化而变化。该理论认为,如果考生足够多的话,每道题都会有部分人不能答对,部分人容易答对,部分人费些力气刚好能够回答对。试题的难易程度,决定于刚好能够答对的那部分人的水平高低,水平高的刚好能够答对该题就难,水平低的也能答上来题就易。这种难度与考生的能力建立在同一个量表上。
在教育与
心理测量中应用项目反应理论时,必须进行
项目参数与
被试能力的估计。有时是已知项目参数,估计
能力参数;有时是已知能力参数,估计项目参数;更多的是能力和项目参数都未知,需要
同时估计项目参数和能力参数。
项目特征曲线
项目
特征函数亦称
项目特征曲线(Item Characteristic Curve,简称ICC),是一种根据测试所获得的考生能力参数和项目
特征参数来表示考生可能答对率(成功率) 的IRT 模式的数学表示方法,同一条ICC所对应的项目参数是唯一的。
IRT研究的一项重要工作,就是确定
题目特征曲线的形态,项目反应模型除了要拟合所选定的题目特征曲线形态,还应该包括其他一些重要的特征,否则就不是一个好的模型。
根据
特征函数可画出项目特征曲线,下面以典型的Logistic
三参数模型的项目特征曲线为例:
从上图可以看出:
⑴
特征曲线拐点处的斜率,即斜率的
最大值。表示题目的
区分度,它的值越大说明题目对受测者的区分程度越高。
⑵特征曲线上最陡的那一点所对应的θ值,表示题目的难度。
⑶特征曲线的
截距,表示题目的猜测参数,它的值越大,说明不论受测者能力高低,都容易猜对本道题目。
教育测量学研究表明,未经筛选的大
被试群体的基本
心理素质如智力、能力、人格特点等的分布,服从
正态分布。所以,理论上被试能力
取值范围为(-∞,+∞),但在实际应用中,取值范围多取[-3.00,3.00]。
IRT的
项目特征曲线就明确表示出被试能力θ与项目的关系,横轴θ,纵轴P(θ),它表示具有某种能力θ的被试答对某项目的概率P(θ)。因此,只要已知被试的能力值,就可预测出他们可能答对某个项目的概率。
项目信息
信息函数是项目反应理论中用以刻画一个测试或一道试题
有效性的工具,它是
直接反映测验分数对学生能力
估计精度的指标。
项目信息函数(item information function)是IRT 的核心概念,这个基础性的概念对测验的
应用领域起了诸多影响。信息
函数值越大,这种估计就越精确。
项目信息函数反映了不同特性(参数)的项目在评价不同
被试特质水平时的信息贡献关系。
测验信息函数则是项目信息函数的累加和,测验信息函数反映了整个测验在评价不同被试特质水平时的信息贡献关系,测验提供的
信息量越大,则该测验在评价该被试特质水平时越精确。