本词条简单阐述了数据驱动学习的涵义、特征和主要研究方向,并着重介绍了较为流行的三个免费在线检索系统——
FLAX语言学习系统、美国当代英语语料库(COCA)和The Compleat Lexical Tutor(CLT)。
涵义
数据驱动学习(Data-driven learning或者DDL)是一种基于语料库数据的外语学习方法。该方法由Tim Johns(1991)提出,它的主要思想是学习者作为研究者,基于大量的语料库数据观察、归纳语言使用现象,自我发现词语搭配、语法规则及语用特征;教师作为引导者,为学习者提供学习资源,指引学习者探索、发现的学习过程,培养学习者自主学习的能力。
特征
同传统外语教学相比,数据驱动学习主要具有如下特征:
第一,通过语料库索引,以真实的语料为语言输入。
第二,以学习者为中心,以自主学习为主。
第三,从大量语料中总结语言现象,以归纳式学习为核心。
第四,借助自下而上的学习过程,培养探索和发现的能力。
发展
作为一种新型的外语学习方法,数据驱动学习受到了国内外教育和研究者的广泛关注(e.g. Boulton, 2009, 2010; Franken, 2012; 屈典宁、邓军, 2010; 俞燕明, 2009),研究主要集中在检索行为、学习效果和学习者态度三个方面。研究表明,相对传统教学方法,数据驱动学习能够发挥学习者的主观能动性,有效地引导学生注意词语的搭配和语境,得到了大多数不同层次学习者的认可。
系统
数据驱动学习的有效开展离不开语料库及其检索系统,其中,FLAX语言学习系统、美国当代英语语料库(COCA)和The Compleat Lexical Tutor(CLT)是三种比较常用的基于大型语料库的免费在线检索系统。
FLAX语言学习系统(Flexible Language Learning System或FLAX)是新兴的数据驱动语言学习系统,由新西兰Waikato University开发,主要用于词语搭配学习、语言练习编辑和语料分析(详见系统主页左上角Book of FLAX)。其中,Learning Collocations Collection是辅助词语搭配学习的有效工具,以三大语料库——英国学术英语语料库(The British AcademicWritten English或者BAWE)、英国国家语料库(British National Corpus或者BNC)和维基百科语料库(Wikipedia)——为支撑,以词语搭配的语法结构(例如,动词+名词、形容词+名词、名词+名词、副词+形容词、副词+动词)和在语料库中出现的频率为分组显示依据,克服了传统索引方式“语境中的关键词(Key Word in Context或者KWIC)”检索费时耗力的局限性,同时降低了对学习者英语水平以及语料库语言学知识的要求。
美国当代英语语料库(The Corpus of Contemporary American English或COCA)是迄今规模最大的平衡语料库,由美国Brigham Young University开发,现有库容4.5亿词,涵盖美国1990-2012年口语、小说、流行杂志、报纸和学术期刊五大类型的语料,并且每一年中这五方面的语料都是按比例均衡分布的。COCA常用于查询字词在不同文体或不同时段中的分布。
The Compleat Lexical Tutor(CLT),由加拿大University of Quebec开发,以多个语料库为基础(如,Brown语料库、英国国家语料库即British National Corpus或者BNC),提供多种语言(英语、法语、西班牙语和德语)的词汇测试、研究和学习功能。其中比较常用的是语篇词汇描述工具Vocabprofile和中心词索引工具Concordance。Vocabprofile可以分析学习者输入文本的类符、形符数目及比率,功能词、实词数目及比率,特别是根据1000、2000常用词和学术英语词族表测量语篇的用词量。Concordance是中心词索引工具,可以用来学习词语的常见用法和搭配。