标准化考试也称
标准化测验(Standardized Test),是指根据统一、规范的标准,对考试的各个环节包括测试目的、命题、施测、评分、计分、分数解释等都按照系统的科学程序组织,从而严格控制了误差的考试。
概念介绍
考试是对人的心理特质的测量,是通过对受考者
行为样本的观察来推测其行为总体。既然是测量就肯定会有误差。物理测量尚且如此,作为一种
心理测量的考试就更容易受到无关因素的干扰。相关理论告诉我们,只有将这些无关因素的影响降到最低,才能保证考试的科学性与
公平性。所以,考试的标准化是实现考试科学性与公平性,保证考试质量的重要途径。
所谓“标准化”,是指将测验误差降至最小的过程,包括统一内容、统一
指导语、统一时限、统一评分、确立
常模、收集信度和效度资料等。 原
国家教育委员会考试管理中心主编的《标准化考试》一书,将
标准化测验的各个环节大致分为“试题编制标准化、考试实施标准化、阅卷评分标准化及分数转化与解释的标准化”。也有学者认为,需要进行标准化的不止上述环节,除了“在命题、施测、评分和分数解释四个环节上都严格控制了误差”以外,还必须“实现试题预测、DIF分析和分数等值、合理地确定
测验长度和及格线”等。 总之,标准化考试是要控制考试的每一个环节,使其按照一定的标准来进行,从而将与考试目的无关的
误差因素尽量剔除,使测验者之间的
个体差异在考试分数差异中的比例达到最大。
由于对标准化考试的认识尚不明确,很多人对其产生了误解。作为考试研究人员,需要更多地向大众介绍所谓标准化问题。
1. 标准化考试不等于
选择题。提起标准化考试,可能许多人就会想到四选一的
多项选择题,同时有标准的唯一的答案。许多批评者认为这种“标准”的形式扼杀了考生的创造力,也无法考查出考生的真实能力。是一种“机械化、公式化、概念化”的考查方式。其实,标准化考试并不是因为有标准答案而得名,其题型也不仅限于选择题。
多项选择题是
第一次世界大战时期奥提斯(Otis, A.S.)发明的,被广泛地运用于各类标准化测试。选择题在很大程度上降低了阅卷的成本和评分误差,而且扩大了试题覆盖的范围,减少了取样误差,提高了考试的效度。很多人觉得选择题具体如四选一的形式比较僵化,难能考查考生的真实能力。但其实选择题“既可以测量一般层次的学习结果,亦可以测量理解、运用、分析、综合和评价这些高层次能力”, 如果说这种题型一定有某些不足的话,那就主要在于题目本身的编制问题。质量低下的选择题可考查考生死记硬背的学业水平;而质量好的选择题则可以考查考生较高层次的能力。现在有许多高质量的标准化考试(如
托福、
SAT等)都还在继续使用选择题,说明这种题型具有一定的优势。
当然,选择题有其自身的缺点:
(1)编制良好的选择题较花费时间,特别是干扰项的设立。
(2)这种题型较难测量以发散为思维特征的重要能力,如表达、
创造能力等。
(4)这种题型有被试者猜测正确作答之嫌疑。(张敏强,1998)
因此,标准化考试中需要添加其他客观题型,也需要添加问答、写作等主观题型,以全面考查
被试人的各方面能力。
2.
主观题也可以实现标准化。一般来说,相对于
客观题,
主观性试题较难实现标准化。这是因为第一,从命题环节看,主观题所需要的答题时间较长,题目数量较少,命题时容易出现取样误差,从而影响
考试效度。例如,一篇题为“互联网时代”的作文就可能对没有接触过电脑和互联网的考生造成歧视。
第二,从阅卷环节看,容易产生评分误差。因为主观性试题一般不存在标准答案,而只有评分标准。不同评分者对评分标准的理解会有所差别,对于同一份答卷给出的分数甚至相差较远。这就一方面要求考试机构对评分员其中主要成员应进行严格的培训,通过试评使他们对评分标准的理解尽量保持一致;另一方面,必然要求对评分者的阅卷质量进行监控,通过控制,以降低主观性试题误差,使其真正实现“标准化”。
3. 标准化考试的目的在于提高效率。标准化考试和
现代教育一样,是
大规模生产的必然结果。此前有一错误观念,认为
学校教育就是要把所有学生放在同一条生产线上,这种想法实际上夸大了学生的共性而忽略了学生的个性。但是在现代社会,学校教育可以提高教育的效率,使得几乎所有
社会成员都能享受以前少部分人能够享受的特权。为此,一定的牺牲是值得的。实际上,标准化考试在某种意义上就是一个牺牲一定效果而获得效率的行为。因为有了标准化考试,就可以大大提高评价的效率,降低评价的成本。为此,一定的牺牲在所难免。考试可能对部分人无效,或者不公平,但是从社会整体来说,考试却是有效的,也是公平的。如果将来
社会资源极度丰富,不用考虑时间、成本等因素,标准化考试或许会被更为准确的面试或长期观察所取代,但近期实际情况证实,在社会和
自然资源相对发达的美国,也难实现。因此在目前情况下,尤其在我国,还不能对标准化考试抱有过高的期望,认为考试就是一个完美的选拔制度。就是说,应该也只能把考试作为提高
人才选拔效率的一种手段,而且只能是一种辅助手段。
测试误用
众所皆知,考试的目的是通过对考试分数的解释,为考试使用者提供
决策参考。此中,如果对考试误用,那么就是对考试的分数做出了不恰当的解释。由此,这种不恰当解释就会给决策产生影响,以致损害考试的效度。所以,我们敢说,世上没有低效度的考试,只有低效度的分数解释。
目前,我国不恰当的分数解释主要有如下几种:
1. 缺乏分数参照体系
目前,我国关于考试的认知和执行过程中,一般在对
测验分数做出常模参照解释的时候,只是孤立地给出分数,而不给出常模的相关信息,这样做的结果是无法对分数做出恰当的解释,从而影响决策。例如一位考生在一次考试中取得了80分的成绩,严格说来,仅凭这个分数是无法对这一考生的表现做出任何判断的。因为就这一成绩而言,他可能是考得最好的一位,也可能是考得最差的一位。但如果知道了平均分和
标准差这些对常模做出描述的参数,那么,就可以对他的成绩做出判断。如韦氏智商分数就是以100为平均分,15为标准差。如果一个人的智商分数是115,就说明这个人比平均分数高出了一个标准差,即他的智商比84%左右的人要高。这样的信息显然更有利于决策者做出决定。
2. 缺乏对分数必要的描述
在对测验分数作出标准参照解释的时候,倘若只报告分数,而不对考生所达到的水平作出必要的描述,那么,决策者就无法获取足够的信息。何况在通常情况下,人们对测验作出标准参照解释的时候,平均分和标准差并不重要,因而考试使用者也不怎么关心。重要的是关于其标准或及格线的设定,以及对达到这一标准的被试能力的描述。这样,决策者关于其了解考生能力具备的基础上,知道考生能从事哪些方面的工作。美国ETS开发的
TOEIC考试在报告成绩时对考生的“能做”(can do)就作了非常详尽的描述,这样考试决策者就可以对考生的能力有更加清晰的了解。
3. 过分夸大标准化考试的功能
任何考试的功能都是有限的,所测查的都是考生某一个或者某几个方面的能力。考试只有被用来评价它能够测查的方面时,才能够发挥其作用,否则就是无效的。
数学考试只能被用来评价考生的
数学能力,如果被用来评价考生的
语文能力,不但无效,且也是荒唐的。此前,我国不少高等院校将英语四六级
考试成绩与毕业证书挂钩,这种做法实际上默认了一个合格的
大学毕业生必须具备良好的英语水平。虽然中国现在与世界的联系越来越紧密,国际交流也日益频繁,但是也并不是所有的大学毕业生都需要参与国际交流。对于有些毕业生来说,或许在他的工作中很少会用到英语。对于这些人,有必要一定要让他们具备良好的英语水平吗?试想一名专业成绩优秀的大学毕业生因为没有通过英语四六级考试而不能获得毕业证书,从而与能够发挥自己专业技能的岗位失之交臂,难道说不是一件令人遗憾的事么。因此,这些院校将毕业证书与英语四六级挂钩的做法,其实是对英语四六级考试的误用。为此,也有人批评英语四六级考试,认为应该将其取消。这种观点虽然太过极端,但也从一定程度上说明,在决定一个人命运的相关考试中,我们需要对英语四六级考试进行适当的分数解释,使其在对学生的英语能力进行评价时发挥这类考试的应有功效。
有待完善
所谓标准化考试,顾名思义,就是按照标准进行的考试。那么按什么标准呢?美国教育研究会、心理学会和
教育测量委员会联合制定了美国《教育与心理测验标准》,美国的标准化考试从编制、施测到评分、
质量分析都需要按照这个《标准》。而中国现在没有自己的“标准”,因此,严格地说,中国现阶段没有自己的标准化考试。在许多方面只能参考借鉴别国的经验。
中国是考试的故乡,但在现代考试技术上却大大落后于西方。在19世纪末20世纪初这一段时期,西方的
实验心理学和心理测验的发展推动了考试的发展。从1909年到1915年,
教育测验逐渐增多,测验研究进入了兴盛时期。1922年斯坦福
成就测试问世并逐渐风行。当时,不仅学科测验有了发展,而且
诊断测试和练习
测验编制也陆续问世,形成了利用教育测量来进行
教育调查研究的风气。相比较,我国关于考试的研究起步较晚,教育和心理测量领域真正得到重视还是在改革开放以后。而在上个世纪后期,由于科学技术的发展,特别是计算机的普及,使得西方考试技术领域有了迅速的发展。除了传统的
经典测量理论以外,
项目反应理论和
概化理论也得到了广泛的应用。与此同时,出现了计算机
自适应性测试(CAT)、电子评分员(E-rater)及真实性测试(authentic
test)等许多新的测验方式。考试技术的发展日新月异,这一切,无不说明,我国的考试研究还必需进行大量的拓宽性工作。
在我国,每年都在举办着成千上万的各种类型的考试。这些考试的规模不可谓不大,其利害也不可谓不高。但这些考试真正实现标准化却可谓少之又少。究其原因,可以归结为观念和体制两个方面:
首先,从观念方面分析,中国的广大民众对考试有一种“膜拜”的心理,普遍认为考试一定是神圣的、公平的。如果因为考试结果比其他人差而失去某些机会,必然是心服口服。这种心理或许源于对权威的服从,或许是被考试的形式所“蒙蔽”。但不管怎么说,考试的形式不仅保证了考试的信度,而且保证了考试的效度,即一个考试是否真的能够考查出试卷编制者想要考查的能力。这种心理使得人们几乎从不对考试的科学性和
有效性进行质疑。考试的形式使人们看到的只是形式上的平等和公平,却忽视了实际上可能存在的不平等和不公平。 其次,从体制方面来分析,中国的考试大多数都是由政府部门或隶属于政府部门的机构来组织的,因此,这些部门或机构可以通过行政力量来“培育”或“分割”市场。在这种情况下,不同的考试能否生存或壮大不取决于考试本身的质量高低,而是从很大程度上取决于
行政命令。即便是对考试的质量,也缺乏有效的监督,往往只有通过考试研发人员的
责任心来实现。到头来,在我国社会主义市场经济的大趋势下,是否也应该把考试行业放在市场中,让考试经受实践的检验,让不同的考试在相互竞争中得到提高,观念和体制成为影响我国考试行业发展的重要原因。而这两方面本身也相互影响。政府部门组织的考试会因其“官方”身份而增加考试的“权威性”,于是民众更加不会怀疑其科学性和有效性。与此相伴,民众的笃信不疑必然从另一方面削减了对考试质量的监督,使得考试的组织机构在不经意间放松对考试质量的追求。如此恶性循环,必然影响标准化考试的发展。为此,我们必须首先大力宣传有关标准化考试的观念,提高广大民众对考试的认知,进而推动考试体制的逐步变革。这样,才能不断提高标准化考试的推行,真正实现利用考试达到
人才评估的目的。
标准化考试作为一种人才评估手段,在中国正发挥着越来越大的作用,然而标准化考试也只不过是人才评估的手段之一。因此,我们既不能低估标准化考试的作用,也不能高估其作用。那种对考试“膜拜”的心理和将考试“一棒子打死”的态度,都不可取。标准化考试的推行和真正落实,还有一个漫长的形成和发展过程。