区分度,是指一个测验题目能够在多大程度上区分所要测量的心理品质,反映了测验题目对心理品质区分的
有效性。一个具有良好区分度的题目,在区分被测者时应当是有效的。能通过该项目或是在该项目上得分高的被测者,其对应的品质也较突出;反之,区分度较差的项目就不能有效地鉴别水平高或低的被测者。因此,区分度也叫做项目的
效度,并作为评价项目质量、筛选项目的主要依据。
概念
区分度(discrimination)是指测验项目对于所研究的受测者的心理特性的区分程度或
鉴别能力。区分度高的项目,能将不同水平的受测者区分开来,能力强、水平高的受测者得分高,能力弱、水平低的受测者得分低;区分度低的项目,就没有很好的鉴别能力,水平高和水平低的受测者得分差不多。
区分度是指测验题目对所要测量的心理特性的
灵敏度或鉴别能力。凡是区分度较好的题目,则能将不同水平的
被试区别开来。题目的区分度从实质上讲就是题目本身的
效度。题目的区分度是评价题目质量好坏的一个重要指标,也是筛选题目的主要依据。
项目区分度(item discrimination)是指项目对不同水平的被试的区分程度。项目区分度分析可以分为两种类型:一种是“项目效度”的分析,根据外部校标选取题目,适用于
人格测验;另一种是“
内部一致性”分析,根据测验总分选取题目,适用于教育
成就测验和
能力倾向测验。
相对性
1)采用不同的计算方法,区分度的值也有所不同。因此,在分析一份测验题目的区分度时,对同一类型的题目须采用同一种计算题目区分度的方法,结果才好相互比较,进而筛选题目。
2)一个题目区分度的大小受被试团体
异质程度的影响。被试团体越
同质,同一题目的区分度值越小;若被试团体越异质,同一题目区分度则越大。因此,在说明题目区分度时总是针对某个具体的被试团体而言,离开具体的被试团体一般地、抽象地谈题目的区分度是没有任何意义的。
3)用相关法计算题目区分度的可靠性受
样本大小的影响。一般而言,样本越大,区分度值越可靠。但样本太大,反而增加计算量,也毫无实际意义,应适可而止。
4)区分度
指数D值受分组标准的影响。在编制
标准化测验时,通常用370个被试作为预测样本的
容量,以27%作为分组标准,这样高分组和低分组恰好各位100名被试,会给后面的计算带来方便。
由于区分度具有
相对性,很难确定一个绝对水平作为取舍题目的标准。在根据题目区分度来筛选题目时,总要考虑到测验的目的和功能。于学科测验而言,一般要求相关系数达到显著性水准,或区分度指数D值在0.20以上,国际上优秀题目的区分度要求达到0.40以上。若是一个选拔人才的测验,题目的区分度要尽量高一些。美国教育与心理测量学家艾伯(L. Ebel)根据区分度指数提出一个评价题目优劣的标准,见表1-1。
区分度的指标及计算
区分度的常用指标为D,取值在-1~1之间,值越大区分度越好。测量学家伊贝尔认为:试题的区分度在0.4以上表明此题的区分度很好,0.3~0.39表明此题的区分度较好,0.2~0.29表明此题的区分度不太好需修改,0.19以下表明此题的区分度不好应淘汰。
区分度的计算方法有两种:区分度指数和相关系数。
区分度指数
区分度指数(index of discrimination,D)的具体公式如下:
式中,D为区分度指数,PH为高分组的项目难度,PL为低分组的项目难度。
显而易见,高低分两组越是极端,区分度指数就越明显。但个案过少则会减少结果的信度。
凯利(T. L. Kelley)指出,在
正态分布中,兼顾两者的最佳百分数是27%。对于小样本,如一个常规教学班,可取25%-33%之间的任何数字,只要使用方便。
区分度指数D和项目难度P彼此并不独立,项目难度为中等水平时,区分度指数为最大值。不同难度的项目的区分度指数最大值见表1-2。
相关系数法
通过计算某一题目得分与测验总得分或效标分数的相关系数来判定。相关越大,区分度越高。
1)点二列相关
当测验总分为正态连续变量,题目分为二分变量(对、错或通过、未通过)时,可用点二列相关公式计算区分度。其计算公式是:
式中,rqb为二点列相关系数,即题目区分度; 为答对题目被试测验总分平均分, 为答错题目被试测验总分平均分,st为全体被试测验总分
标准差,p为答对题目被试占总被试人数
比率,q=1-p。
用点二列相关公式计算出来的相关系数需要进行
显著性检验,才能确定它的意义。检验的方式是对点二列相关公式中 和 的差异进行
t检验,若差异显著,表明rqb显著;若差异不显著,则rqb不显著。
2)二列相关法
测验总分与题目分两列变量都是正态连续变量,但其中一列变量由于某种原因被分为两个类别,可以用二列相关法计算题目区分度。其计算公式是:
式中,rb为
二列相关系数,即题目区分度; 为答对题目被试测验总分平均分, 为答错题目被试测验总分平均分,st为全体被试测验总分
标准差,p为答对题目被试占总被试人数
比率,q=1-p,y为正态曲线中答对比例所在位置曲线高度。
二列相关系数rb的显著性用下列公式:
式中,rb为二列相关系数,p为答对题目被试占总被试人数比率,q=1-p,y为正态曲线中答对比例所在位置曲线高度。求出Z值后,查正态曲线表,若Z>1.96,则相关显著。
3)四分相关法
四分相关法适用于两列变量都是正态连续变量,但都要人为地一分为二的统计资料。计算这类相关采用皮尔逊余弦π公式,所得相关为四分相关系数,公式如下:
式中,A、B、C、D分别代表四个类别。A和D代表相同符号的次数(++或--),B和C代表相反符号的次数(+-或-+)。
四分相关系数是否显著,可通过下式检验:
式中,p1、q1、p2、q2为每个类别的累积百分比,y1和y2分别是累计百分比为p1、p2时正态曲线的高度,可以通过查正态分布表得到。
运用四分相关计算题目区分度时,
样本容量应在200以上,计算出的结果才能比较好地说明问题。
4) 相关法
相关系数适用于两列变量都是二分变量,或者一列是二分变量,另一列虽是
连续变量但也要人为地变为二分变量的情况,其公式如下:
检验 的显著性水平应用下式:
求得X2值以后,查X2表,看X2值是否达到
显著性水平。若X2值显著,则值也显著。
5)积差相关法
对于
心理测验中的多值评分的题目和学科测验中的主观性试题,可以用
积差相关法计算题目分和测验总分的相关系数,作为题目区分度值。
6)题目与总分相关重叠的校正
计算题目分与测验总分的相关,这是一种局部和总体的相关。在由题目分与总分计算出的相关系数中,必然有相关重叠的成分,使相关系数即题目的区分度偏高,以致各个题目所贡献的变异数比例都很小时,才能把题目与总分相关作为题目区分度的指标。假如不具备这些条件,需要用校正公式对计算出来的相关系数作校正,以去除相关重叠的成分。校正公式如下:
式中,cr为校正后的相关,r为实得的项目与总分相关,n为一份测验中的题目数,st为测验总分
标准差,pi为某个题目的
通过率,qi=1-pi
一般而言,当测验题目数量较少,且题目与总分相关不高时,需要用上式对计算出的题目区分度作校正;若一份测验有20个以上的题目时,则不需作校正。
项目特征曲线
即便是某个项目具有适当的
难度和区分度,也不能保证对于各个水平的被测者来说都能很有效地发挥作用。对于一个好的测验项目,随着被测者测验总分的增加,其在该项目上的通过率也应该稳步增加。可以通过
项目特征曲线来描述项目的这种特征。
一个好题目的曲线
走向应该是通过率随着总分的升高而增加;反之,说明该题目出得不好或是定错了答案。曲线上通过率为50%的那个点能反映该题目的难度,该点对应的总分越高,说明这个题目的
难度值越小,即难度越大;该点的
斜率能反应该项目的区分度,越陡峭,区分度就越好。这里的难度和区分度都是通过曲线直接看出来的,具体数值的计算比较复杂,往往要借助于计算机。
区分度和难度
难度和区分度都是相对的,是针对一定
团体而言的(绝对的难度和区分度是不存在的)。一般说来,较难的项目对高水平的被试区分度高,较易的项目对水平低的被试区分度高,中等难度的项目对中等水平的被试区分度高。这与中等难度的项目区分度最高的说法并不矛盾,因为对被试总体是较难或较易的项目,对水平高或水平低的被试便成了中等难度。由于人的多数
心理特征呈
正态分布,所以当需要把人作最大程度区分时,项目难度的分布也以正态为好,即特别难与特别容易的题目较少,接近中等难度的题目较多,而所有题目的平均难度为0.50。
什么情况下区分度高呢?或者说什么样的题目才能最大限度地区分不同水平的人群?这就引出了试题项目评价的第二个指标:难度。题目的难度过高,很少人能答对,大部分得分都很低;难度过低,很少人会答错,分数分布在高分端。因而过难或过易的题目都不能很好地区分不同水平的个体。因而当题目的难度为中等时,区分度最高。
一个好的测验中是不是要求所有题目都是中等难度?那高考、
研究生入学考试这样的高水平测试为何还有难度很大或很小的题目?这是因为在一个测验中如果都是中等难度的题目,就又走向另一个极端,即对中等程度的人有最佳鉴别力,而对水平高和水平低的那部分人不能做很好的区分。简言之,不同难度的题目对于不同水平的人来说区分度是不同的。鉴于全体受测者的能力分布往往是呈正态的,测验中题目难度的分布也基本为正态分布,即难、中、易都有分布,中等难度题目最多。只有这样才能保证整个测验有较高的鉴别力。