标准参照测验(Criterion-Referenced Test)又称准则参照测验。一种精心编制的,在一定的行为领域上按照具体的行为标准水平对被试的测验结果作出直接解释的
测验。
测验回顾
标准参照测验思想的渊源可以追溯得较远,但是标准参照测验理论的产生与发展则是20世纪50年代以后的事情。
弗拉纳根在1951年和
埃贝尔格拉泽和克劳斯(1962),而对该术语的明确解释则是格拉泽的贡献。
格拉泽于1963年在《美国心理学家》杂志上撰文论述了这两种信息的定义,并进行了比较。然而由于格拉泽论述的晦涩和深奥,以及这种新思想的陌生,因而这种思想未能立即转化为实践,正如波帕姆和
赫塞克
1969年波帕姆和赫塞克在《教育测量杂志》上发表了《标准参照测验的应用》一文,此文不仅评述了以前的发展状况,而且进一步阐述了格拉泽的思想,并且列举了在教学决策中常模参照和标准参照两种方法和利和弊。这篇论文引起了教育和心理测量专家们的广泛注意,从而使得70年代成为标准参照测验赢得测量待业关注的10年。这可从两个统计数据中得到印证:格拉泽1963年发表的论文至1986年8月止,已被124篇文章引用,其中只有10篇是1971年以前发表的;从1967~1978年20年间,美国教育资料情报中心(ERIC)收集到了1913篇有关标准参照测验研究课题的论文。
70年代期间,教育与心理测量专家对标准参照测验的概念进行了进一步探讨,而且对该测验的编制原理及方法、标准水平的确立方法、信度估计及效度验证等方面进行了研究,并提出了一系列数学化模型。1980年,标准参照测验领域已变得十分复杂,乃至尼特克撰写了长达24页的评述性论文,以帮助我们区分标准参照测验不同类型的差异。
自1968年以后,标准参照测验的实践也得到了发展。波帕姆及其同事们构建和散发了许多标准参照测验,每一套都与一套可测量的(或详述的)目标相联系。这些测验在许多课堂中得到了使用,并使课堂使用者成为标准参照测验的狂热支持者。
1982年有调查表明,美国全国教育学会发言人明确表示,他们宁可要标准参照测验而不要
常模参照测验,许多州立教育部门也编制了与州所设立的课程相关联的标准参照测验。
基本思想
1.编制的基本原则。标准参照测验的主要目的在于确定被试对某一知识或技能的掌握的真实状况,因而其编制的基本原则为:(1)测量目标必须明确和具体,并且在一测验中不能包含过多的测量目标。测量目标模糊或过多,都不利于测验结果精确描述被试的知识或能力的真实状况。(2)测题必须与测量目标之间具有较高的一致性。每一测验题目的反应必须能体现出所要测量的测量目标上的得为表现。同时,测量同一目标的测题数量既要足够,又要具有较高的同质性。但在测量不同目标的测验题目之间不要求有同质性。
2.项目分析参数。标准参照测验同样需要难度、区分度等参数进行项目分析,但是这些参数的含义已区别于
常模参照测验中难度、区分度的含义。
难度已不能简单地解释成题目的难易程度或题目的通过率,而必须理解为测验者对测验内容要求的高低,它通过测量目标反映出来。测验者对测验内容要求越高,测题的难度相应地也越大,反之则越低。在题目分析的过程中常采用掌握组中的通过率及未掌握组中的通过率来表示,因而难度系数值大小的选择既可遵循统一的标准,又可反映被试对测量目标掌握的程度。
3.及格的标准水平。标准参照测验的分数解释不依赖于测验组的常模,而是根据测验者编制通常在测验实施之前就制订的及格的标准水平,显然,被试是否及格不依赖于同伴的测验结果,完全依赖于其自身的行为表现结果。
及格的标准水平是测验分数量表上的某个点,可以根据这一点在量表上的位置,将被试划分成对测量内容具有不同熟练掌握水平的不同类型。及格的标准水平是测验结果解释的直接依据,如何制订出合理的及格标准水平,是一个需要测验编制者深思熟虑的问题。因为这种标准水平的确立包含了较多的人的主观性成分。人们已纷纷提出了许多种确立及格的标准水平的方法。
4.效度验证。效度是衡量测验有效性的重要指标,通常它指测验对于它所欲测量的属性能够测到的程度。同样,对于标准参照测验而言,需要评定其内容效度、效标关联效度以及结构效度。但强调的侧重点不同于以往。标准参照测验更侧重于对其内容效度的要求。
内容效度指测验内容对所欲测量内容的代表性程度,因而考察标准参照测验的内容效度主要从以下两方面入手:测验题目的正确性和测验题目的代表性。测题的正确性是指测题正确地反映测量目标所欲测量的知识、技能的程度,对它的检查主要包括:测题的技术质量和测题与测量目标之间的一致性程度。对前者的要求相一致,人们较易掌握。而对测题与测量目标之间一致性程度的评定则较困难,通常只能采用一些经验方法加以评判,有专家评判法和学生评判法两大类方法。测题的代表性要求组成标准参照测验的测题必须对测验领域总体有一定的代表性,从而使测验具有较高的内容效度。为了保证测题的代表性,标准参照测验编制中往往需要制订
双向细目表除了确保标准参照测验的内容效度之外,还必须对标准参照测验的效标关联效度和结构效度加以验证。因为内容效并尽管非常重要,但它只是关心测验内容而不是测验分数,它并不随着被试组的不同或时间的变化而变化,而测验分数解释的正确性却随着测验情形的变化而变化,因而仅靠测验的内容效度并不能确保测验的有效性。效标关联效度的验证方法仍可沿用以往的常用方法,关键问题仍在于效标的选择及其效标的正确性上。
标准参照测验中的结构效度验证是指从理论上证明测验分数解释的合理性。由于标准参照测验的内容效度看上支似乎提供了足够的效度证据,同质性的标准参照测验分数分布限制了用相关性进行结构效度验证的途径,因而标准参照测验理论中的结构效度验证的途径,因而标准参照测验理论中的结构效度验证的研究至今仍是一个较薄弱的领域,还未出现一种令大多数人能接受的有效的结构效度验证方法。汉布尔顿曾提出使用格特曼量图分析和
因素分析法进行结构效度验证的可能。作为结构效度的一种具体类别,决策效度是指根据标准参照测验分数对被试所作出的掌握分类决策的正确性。其检查过程就是收集掌握与未掌握分类决策正确性的证据,可用正确分类或不正确分类的概率表示,但关键的问题在玩弄:其一,如何才能证明确立的分类标准是正确的;其二,怎样才能知道被试的真实状态,即掌握还是未掌握。
总体上说来,标准测验的效度验证理论还未发展成熟和完善,有待于进一步的研究和拓广、深化。
5.信度估计。研究文献中已提供了较多的标准测验信度估计方法,这些方法与常模参照测验中的信度估计方法完全不同。通常将标准参照测验信度估计方法分为三大类:
第一,决策一致性信度。标准参照测验的目的之一在于票据标准水平,将被试划分成不同的类型,如掌握与未掌握,这时可以用掌握分类决策的一致性指数表示标准参照测验的信度。计算决策一致性信度的方法很多,既可以利用两个平等形式的复本测验或再测验来估计,也可以不需要复测或再测,直接利用一次测验结果估计决策一致性信度。通常采用PO及u表示决策一致性信度系数,但对PO及u的估计有许多不同的方法,这一方面取决于测验的条件,另一方面取决于对一致性信度精确性的要求。其中哈伊恩方法和萨伯考维克方法等尤为有用。
第二、领域分数估计的信度。标准参照测验的另一重要目的在于测量学生对测验内容掌握的多少。一般说来,测题是从测量该内容的所有题目中抽样出来的,所以根据被试的测验分数推测其在整个内容领域上的领域分数(即真分数)的过程中,必然会涉及测验分数估计的可靠性程度,因而必须估计领域分数估计的信度。这种信度的估计既可以采用测量的标准误估计,如米尔曼和汉布尔顿、克龙巴赫等提出的估计方法,同时也可以采用概化系数ρX来表示。前者反映的是各个体领域分数估计的可靠性,后者体现了总体上反映所有被试的领域分数估计的可靠性。
第三,误差平方损失一致性系数。当运用及格的标准水平对被试进行掌握分类时,处理分类误差有两种情况:第一种情况是,在作出分类决策时,不论被试的观察分数与标准水平的远近情况如何,一律将误差视为具有同等严重性。在计算决策一致性信度时,就以这种方式处理误差。第二种情况是,认为对远离标准水平的被试作出错误分类的严重性比对靠近标准水平的被试作出错误分类的严重性要大。人们通常将这种描述分数与标准水平的离差平方的信度系数称作为误差平方损失一致性系数。常见的估计方法有
利文斯顿提出的K2(X,T)系数和
布伦纳与
凯恩提出的M(C)系数。这两种系数的估计均采用方差分析来实现。
6.标准参照测验的标准化。测验的标准化是经典测验理论中方法体系的一个重要方面。对于标准参照测验而言,同样需要对它实现标准化,从而提高测验分数解释的正确性。标准参照测验的标准化同样包括以下几个方面:(1)测验编制过程的标准化,即为测验编制者提供统一的、精确界定的测量目标,测验题目都是测量内容的典型代表物,测题具有较高的技术质量等等;(2)测验实施的标准化,即为被试提供相同的指导语,测验的外在物理条件相一致等等;(3)测验评分的标准化,即评分应有统一的评分标准,排除评分者的主观偏见;(4)测验分数解释的标准化,即评判各被试成绩水平的及格标准水平必须始终如一。
研究展望
在过去的20多年间,标准参照测验研究虽然取得了较大的发展,并较多在转化为实践,但是由于研究点主要集中在常模参照测验和标准参照测验之间比较和标准参照测验理论上,因而其方法还处于一个相对薄弱的境地。从整个心理和教育测量领域的发展来看,标准参照测验的研究将呈现出以下几个趋势:
1.
项目反应理论及方法将越多地应用到研究标准参照测验领域中。例如,项目反应模型运用于测题的选择,项目反应信息函数运用于项目分析,项目反应理论中能力参数的估计用于标准参照测验分数的估计等等。项目反应理论在标准参照测验领域中的应用,很可能为标准参照测验理论及方法的成熟和完善作出杰出的贡献。
2.标准参照测验的研究将会越来越多地引进数理方法。事实也已表明,数理方法(如因素分析、方差分析等)的引入丰富和充实了标准参照测验的理论。将来诸如贝叶斯估计等方法也将进入标准参照测验研究领域。标准参照测验中效度验证等问题必须借助于更多的数理方法才能趋于成熟。
3.与整个测量领域相一致的是,计算机技术也将在标准参照测验领域大展宏衅。这涉及标准参照测验题目的编制、选择,测验的组合,测验的实施及其评分等。
4.标准参照测验与常模参照测验之间的关系不可能出现谁战胜谁的局面,它们只是两种不同类型的测验而已,在研究者之间、实践者之间将达成一致的共识。即它们各自具有自身的优、缺点,在不同的情形中发挥各自的优点。在教育测量领域中可能越来越多地采用标准参照测验形式,但在心理测量领域中,常模参照测验形式可能仍占极大多数。