RAE(Research Assessment Exercise)开始于1986年,是“撒切尔计划中公共开支问责制的一部分”,分别于1986年、1989年、1992年、1996年、2001年、2008年开展了六次科研评价活动。每次科研评价都会在上一次的基础上对评价方法、程序和标准等进行一定的调整。2008年科研评价之后的改革幅度较大。
评估简介
研究评估考核(the Research Assessment Exercise, 简称RAE),是英国高等教育基金委员会对英国高等教育机构的研究质量进行的一次系统全面的测评,大约每五年进行一次。前几次的RAE排名分别发布于1986、1989、1992、1996和2001年。前两次由大学基金委员会(Universities Grants Committee)实施,从1992 年开始由其替代者—四个
英国高等教育拨款机构(
英格兰高等教育拨款委员会(HEFCE)、威尔士高等教育拨款委员会(HEFCW)、苏格兰高等教育拨款委员会(SFC)、北爱尔兰就业与学习部(DEL))分别在四个地区负责实施。前两次评估项目相对“良性”一点,科研拨款几乎不受影响。从 1992 年的第三次评估开始,即英国的职业技术学院(Polytechnics)变为“新”大学开始,科研评估才真正开始“动真格了”。评估结果使得研究资金的分配产生了重大差别,科研评估从此成为学术界以及教育界关心的重要问题。
演变历史
1986年以前:无评估状态
英国大学的科研评估有很长的历史,至少开始于1965年,大学基金委员会(UGC)一直试图以一种“低干涉”的柔性方式来管理科研。但英国学界普遍认为1986年以前,英国大学实际上并没有真正的科研评估活动。当时,所有英国大学都从UGC 接受整体拨款配额(Block Grant Formula),科研资金就包含在内。整体拨款额由大学的学生数决定,因此科研资金“与科研的体积或质量没有关系”。大学越大,其整体资金额度就越大,这与其科研质量无关。
这种模式到了20世纪80年代发生了变化,在经济形势紧张的情况下,公共部门整体上都面临很大的资金问责压力,UGC也不能幸免。在撒切尔政府确保公共开支最好价值的政策下,UGC选择了顺从政府,开展科研评估尝试—英国科研评估体系(Research Assessment Exercise,RAE),即一种周期性、国家性的由评估单元(Units of Acsessment, UoAs)来组织的同行评议,很大程度上与学科或科目领域相关,主要由英国学界成员、小部分非英国的学术咨询委员及一些科研“使用者”代表组成的同行评议专家团来进行评估。其结果是同行评议后的质量等级(Quality Ratings),用来计算分配给大学的科研整体拨款额。拨款委员会给大学的科研资金中超过90%是由RAE结果决定的。
1986年:第一次科研评估实践
1986年,RAE首次开展,最初由UGC实施,叫做科研选择活动(Research Selectivity Exercise,RSE)。“RAE 的首要功能是提醒科研基金分配实体和政府政策,这些资源应该按照科研质量来分配。此活动也在为公众提供信息、为高等教育科研活动的公共开销进行质量监控上发挥重要功能。”然而,当时它在为部门分配更多科研资金上,似乎只是一个交换条件、一项非常柔性的活动,实际上只是使大学通过科研表现指标(发表量)“解释它收到的公共资金的使用方向”。
随后 UGC 被大学拨款委员会(Universities Funding Council, UFC)取代。在 UFC 开展了1989 年的科研评估活动之后,评估责任由四个英国高等教育拨款实体分担。
一些英国学者认为1986 年的活动是一次以具体表现指标(PI)来取代泛化指标的尝试。而科研拨款的分配参考RSE 结果,所以高等教育机构发现 RSE 决定着而非简单测量大学科研的运行,但这个过程很不清晰。
1986年,RSE 未与高等教育部门进行任何谘商,仅仅要求完成一份问卷,问卷里只要求每个院系或投入中心举出五个研究产出的例子。尽管RSE 要求提交一些大学层面的数据,但重点似乎远离“大学”,而是聚焦在大学的“院系或投入中心”。数据样本过小使得根本没有人意识到或抱怨评估覆盖面不够。大学提交的数据由UGC的学科小组来评估,并以一系列量表、标准来排名。
1989年:第二次科研评估实践
1989年,对UFC发起的活动进行了广泛的咨询,并作出了一系列重大改变。50个投入中心被152 个评估单元取代,并引入了五点计分法,要求大学学术成员提交其在1984年1月—1988年12月期间最优秀的两个成果(出版物),并辅以研究生的信息和科研收入的信息;之前UGC的学科委员会被70 个同行评议专家组取代。
UFC 对此次活动的评估结果是“出版物数据很不可靠,且可靠的数据也说明不了任何产出的质量”。评估单元(多数时候完全等同于学科、院系)仍被采用,学校高管不得不在学校总体情况之外判断其每个单元的表现。因此,英国的科研评估一直持续在凸显某些单个学科领域的优秀表现或不良表现。
1992年:第三次科研评估实践
1992年英国出台《继续及高等教育法案》,按照此法,职业技术学院升级为“新”大学,RAE1992评估就发生在此背景下。与1992年前的“旧”大学同时接受科研与教学拨款不同,“新”大学的拨款几乎全部投入在教学上,因此所有员工的研究预设相应改变了,“科研活跃”的概念由此引入,即72个评估单元的每个科研活跃员工都要提交两个出版物及产出信息。专家团使用5分制来打分,1代表很少或没有科研“卓越”,5代表最卓越。
预料之中“旧”大学获得了大部分的科研拨款(91%),评分低的大多来自“新”大学。教育出版界使用RAE数据的一部分制作了排行榜并发布,引起巨大反响,从此排行榜成为另一项大学必须适应的事物。
HEFCE 随后回顾了RAE1992 评估对
高等教育机构的影响及存在的问题,最主要的担忧是它扭曲了专业相关的学科(教育、商业管理、经济),以及更重视理论工作而不关注实践研究;它也担心由于选择性的科研拨款,1992 年前的“旧”大学中可能会出现科研与教学活动的分离。
1996年:第四次科研评估实践
1996年,RAE也进行了咨询和调整,“研究活跃”员工必须经过认定,需提供四个产出以及“同行声望”指标。
先前的5分等级量表扩展到了7分等级(1,2,3b,3a,4,5,5*),等级1和2得不到拨款,拨款额度分配也不是线性的。这意味着RAE的高选择性在不断加强,而随着越来越多的“新”大学加入到了科研拨款的“大饼”中,HEFCE也警告“除非政府额外加大投入,否则科研拨款必须更具选择性”。此次评估有69个评估单元,1992年后的“新”大学提交的案例数量首次超出了1992年前的“旧”大学。所有1992年前的“旧”大学的院系以及58个“新”大学中的21个(打分在 3 以上)收到了拨款。1996年的评估结果显示:英国高等教育部门的科研文化在逐步加强。但对于教育研究的质量有很大争论,特别是在教育研究与学校和教育产出提高的关系上。HEFCE也对1996年RAE评估数据进行了系统的后续分析[9],以辅助高等教育拨款委员会规划科研战略方案。
2001年:第五次科研评估实践
RAE2001与RAF1996的评估方式大致相同,但有一些重大改变,特别是在科研拨款上。原计划仍采用7分等级计分,最低的三个等级得不到拨款(1,2,3b),但最终 HEFCE 的首席长官Howard Newby 宣布:3a 等级(定义为“全国优秀”“展示了国际卓越的证据”)将得不到拨款,导致大学爆发愤怒。之后创造出一个6*等级,它与1996 年的5* 等级达到的科研等级相同,但同时报告的员工数更少。7 个“新兴学科领域”(Emerging Subject Areas),如戏剧、表演艺术,以及那些获得了3a及以下等级的机构可以竞争“科研能力拨款”(Research Capability Funding)。[10]此次评估涉及大概 173 个高等教育机构,提交了2,598个评估案例,50,000名研究者。
1992年—2001年 RAE 评估结果的发展趋势。
此次评估中,英国最老的教育学院—利物浦大学教育学院获得了3b 的评分等级,被标记为“关停”,因为RAE 判断它的科研基础太弱。从此,RAE 被视为一项对评估单元(即大学院系)进行管理的工具,那些科研表现很差的机构被认为有被关闭的合法性,不管它对大学其他使命(如教学)的贡献有多大。
RAE2001要求每个机构的每个评估单元展示7套数据,核心是要求在规定时间内每个成员(或员工)生产的四项科研产出的表现,包括所有学术员工及支持员工(“科研活跃”员工)数、研究学生数、外部科研资金数、奖学金数、科研环境及“额外信息”包括声望指标及科研影响力证据。将哪些员工归类为“科研活跃”是机构需要作出的重要决定,这需要根据员工科研产出的质量来判断。有时候提交的员工群组可能本身并不在一个团队进行科研工作,但分配到相关学科领域中能够最大限度地提高评估分数。在2001年的评估中,大学在材料措辞方面花费了巨大精力。
RAE2001结果显示:98% 拨款委员会的科研预算以整体资金额被分配到大学中。计算方式依据产出容积(人头数)、学科量额(区分不同类型的科研成本)及科研打分等级因素,这个框架平等应用在所有大学中。RAE 结果在拨款中的权重,随打分等级的提高权重在增加。
RAE2001之后,政府出台了一份文件,坚称拨款没有充分地将资金集中在表现最优者上,因而给予在1996及2001评估中都获得5* 的院系6* 等级,并拨给额外的资金,而这一举动也招来很多批评。另外,在1996年后大学的普遍驱动力是尽可能获得更高的科研等级打分,而非囊括尽可能多的学术领域,因为这个框架赋予科研等(相比容积)更高的重要性,将“较弱”的员工囊括进来拉低等级可能带来严重后果。此次评估后,4等级的科研相比5* 等级获得的拨款大幅减少,后者是前者的2.5倍还多。
2008年:第六次科研评估实践
2007年前后,英国政府可能不满于无法插手“学术评价学术”的系统,在RAE评估案例提交前不到18个月时,当时的财政部长宣布以一项基于计量的新系统来取代RAE2008。已经为RAE2008作了大量准备的高等教育机构对此强烈反对,最终提议被部分撤销,仅在科学、技术、工程、数学(STEM)学科领域进行计量的评估实践。但拨款分配的原则是“资助最高质量的研究”“保护科学学科的地位”,因此等级标准有所提高。RAE2008进一步发展了RAE2001的评估方法,专家团囊括了国际成员,意在“为质量表现带来国际化的视角”。核心不同是质量表现不再由单一要素决定,而包含了三个要素:科研产出、科研环境、声望指标,都以5分等级(未标记、1*、2*、3*、4*)来打分。三要素的权重不同,科研产出可能在50%~70%之间,科研环境大概在5%~20%之间,此次评估产生了新一轮的排行榜。
从研究的综合实力排名来看,传统名校依然占得头筹,
剑桥大学(University of Cambridge)击败
牛津大学(University of Oxford)取得最高研究水平的位置,
伦敦政治经济学院(London School of Economics)、
帝国理工学院(Imperial College)和
伦敦大学学院(University College, London)分列3至5位。
2014年:第七次科研评估实践
2014年,英国高等教育机构的科研质量评估由RAE变为一个全新的体系—研究卓越框架(Research Excellence Framework,
REF),由英格兰、苏格兰、威尔士高等教育拨款委员会及北爱尔兰就业与学习部主导,由代表四个拨款实体的 REF 小组及监管团队管理,REF2014相比RAE2008最大的变化是引入了“科研影响力”的评价。“科研影响力”概念主要指对外部社会的广泛功能,排除对高等教育部门内的科研、学术知识的进步的影响力(这种影响力放在“产出”或“环境”来评估);排除对学生、教学或其他局限在提交案例高校内的活动影响力;如果是对提交案例高校之外的学生、教学的影响,则包括在内。
REF2014评估大学研究的外部功能及影响的尝试在英国学界引起了巨大争议。2009年针对REF开展的公众咨询的数据显示,围绕“影响力”指标至少有三大争议:一是其对同行评估专家团的界定,威胁学术自治;二是影响力话语的建构会削弱科学的“边界”特征;三是对影响力建立在科研之上的预设限制了知识的转译。
英国大学联合会(University and College Union)甚至发起了一项称为“站出来力挺科研”(Stand Up for Research)的请愿活动,反对将影响力因素引入
REF,认为科学与其社会或经济应用之间存在清晰界限,应该“抵制粗糙的应用概念”。但也有研究者认为REF实际上可以帮助大学反思日常行为,加强而不是限制学术自主权,同时提高研究的效率与水平。
业内影响
经过多年的发展,RAE/REF成为了英国大学不得不面对的、控制力极强的外部力量,大学投入巨大的资源来发展应对与管理它的策略,并投入学术及行政人员的大量时间精力来服务评估专家团。RAE的形式与演变反映出围绕大学产生的各种张力,不仅有政治和政策的,也有针对科研本质的—大学科研应是传统的、学科的、自治的,还是应用的、受操纵的、多学科的。总体上看,从1986年以后,英国高校科研评估的实施一直是由高等教育拨款委员会进行,因此与拨款数额紧密相关;评估的单元一直以学科领域为基本单位,不同学科领域的评分权重、评分方式都有一定的差别;随着七次评估活动的演变,科研评估越来越具有选择性,相应的评估活动越来越透明化、综合化、系统化。整个过程中咨询的作用非常大,每次咨询既是一次从错误中学习的过程,也是确保评估重新具有更大合法性的过程。评估的设计及运行也逐渐从单纯回应政府压力变为更有效地抵制来自政府的压力。此外,国家科研评估RAE/REF活动对各高校的影响力也越来越大,英国并没有在国家层面对高校教职员工直接评估与干预,特别是针对高校教师个体的具体活动,如教学或科研等直接评估。但在拨款委员会牵头的RAE/REF中,由于评估对象是某一学科中高校学术成员的直接成果,故对高校教师的工作有很大要求,间接促进了高校以它为参照,调整其教师员工队伍。
促进高校内部员工分化,加强大学管理主义行为
从1996年起,RAE开始引入“科研活跃”概念,允许高校选择被评估的学术成员,将其标记为“科研活跃员工”,并只将此部分员工提交RAE评估;活跃的研究者需要提交特定数量的科研产出(2001年和 2008 年要求四项),缺乏科研产出或未达到相应质量标准的员工则不被评估。
RAE对大学及其院系带来的最重要后果是对科研管理主义的、组织层面的更强关注。不少高校在院系中“广泛引入了量化工作规划模型,在员工间选择性分配科研时间”。对科研产出的监控在不断传播,研究者提供指导的科研政策广受欢迎。另外,大学还发展出操控游戏的策略,以使自己在评估中的表现最大化,禁止能力不足的科研者提交产出,选择更易被接受的评估子小组。因此,RAE使得大学从联合治理转向了管理主义和更加等级化的内部组织结构。
对于大学的学术员工而言,他们的职业生涯和发展全部指向满足评估的需求:“有科研声望野心的大学任命学者时,就预期他们在
REF中将作出贡献”。最具生产力的研究者被猎头看中,甚至提供财政刺激;而生产力低的研究者则被鼓励提前退休。
影响学术工作者个体的职业期许与发展
在个体层面,RAE/REF 标准与职业发展的关系对个体的专业认同有重要影响。RAE/REF鼓励更具策略性对个体生涯的评估,调整研究者的发表行为,因此高度限制了研究者的自主性。
RAE/REF是焦虑和不确定性的主要来源。被证实排除在活跃研究者群体之外的学者们不得不认可学校赋予自己的“半公众状态”,增加教学量与行政职务,以减少活跃研究者的工作负担。“科研活跃”者也面临同样严峻的要求,周期性地重复满足达到高质量研究产出的期待。