语料库指经科学取样和加工的大规模电子文本库,其中存放的是在语言的实际使用中真实出现过的
语言材料。
信息简介
语料库
名词(corpus,复数corpora)
指经科学取样和加工的大规模电子文本库。借助计算机分析工具,研究者可开展相关的语言理论及应用研究。
corpus
refers to a large collection of well-sampled and processed electronic texts, on which language studies, theoretical or applied, can be conducted with the aid of computer tools.
语料库是
语料库语言学研究的基础资源,也是
经验主义语言
研究方法的主要资源。应用于词典编纂,语言教学,传统语言研究,
自然语言处理中基于统计或实例的研究等方面。
分类
语料库有多种类型,确定类型的主要依据是它的研究目的和用途,这一点往往能够在语料采集的原则和方式上有所体现。有人曾经把语料库分成四种类型:⑴异质的(Heterogeneous):没有特定的语料收集原则,广泛收集并原样存储各种语料;⑵同质的(Homogeneous):只收集同一类内容的语料;⑶系统的(Systematic):根据预先确定的原则和比例收集语料,使语料具有
平衡性和系统性,能够代表某一范围内的语言事实;⑷专用的(
Specialized):只收集用于某一特定用途的语料。
除此之外,按照语料的语种,语料库也可以分成
单语的(
Monolingual)、双语的(Bilingual)和
多语的(Multilingual)。按照语料的采集单位,语料库又可以分为
语篇的、语句的、短语的。双语和多语语料库按照语料的组织形式,还可以分为平行(对齐)语料库和比较语料库,前者的语料构成译文关系,多用于
机器翻译、
双语词典编撰等
应用领域,后者将表述同样内容的不同语言文本收集到一起,多用于语言对比研究。已经累积了大量各种类型的语料库,如:葡萄牙语料库、面向
文本分类研究的中英文新闻分类语料库、
路透社文本分类训练语料库、中文文本分类语料库、大开放字幕库OpenSubtitles的多语言平行语料数据(OpenSubtitles Corpus)、《圣经》
双语语料库bilingual corpus)、Short messages service(
SMS) corpus(
短消息服务(SMS)语料)等。
特征
语料库有三点特征
⒈语料库中存放的是在语言的实际使用中真实出现过的
语言材料,因此例句库通常不应算作语料库;
⒉语料库是承载语言
知识的基础资源,但并不等于语言知识;
⒊真实语料需要经过加工(分析和处理),才能成为有用的资源。
语料库的发展经历了前期(计算机发明以前),第一代语料库,第二代语料库,到第三代语料库
第三代
定义
【动态流通语料库】
第三代语料库是历时语料库.是基于大规模真实文本的语料库,是对
语言文字的使用进行动态追踪的语料库,是对
语言的发展苑春法,
黄昌宁计算语言学学会倡议的数据采取计划ACL/DCI.认为这一代语料库首先对所有可以得到的语料以
文本形式存储起来,它的容量一般为一亿词次以上,21世纪可望达到万亿词次的量级[1].该文实际上已经将下一代语料库的建设提上议事日程.
两大特色
第三代语料库有两大特色:
特点
【第三代语料库的特点】
时代:六,七十年代到八十年代及九十年代以来.
语料:从单语种到多语种.
数量:从百万级到千万级再到亿级和万亿级.
加工:从词法级到句法级再到语义和语用级.
文本:从抽样到全文.
特点一:动态性
不确定一个固定的
库容量(例如:把库容量目标确定为数百万字,上千万字,数千万字,数亿字等);
不确定一个固定的选择文本的时间段(例如:确定为49年-82年,80年-90年,90年-95年语料等)
不确定一个固定的文本选择范围或应用领域(例如:确定为只收
现代汉语文学语料,或新闻语料,或科技语料或中小学生语料等,从而建立一些专门的语料库);
不确定一些固定的文本抽样对象(例如:《人民日报》,《
光明日报》,《
人民文学》,《
小说选刊》,或者
老舍著作,巴金著作,毛泽东著作,邓小平著作等).
是即期抽取的语料库:根据大众媒体的传播情况,依据一定的原则来动态抽取.
是历时的语料库:可以观察和测量到流通度的变化情况,可以追踪到语言成分的产生,成长和消亡.
是动态变化的语料库:
大众传播媒体的情况是在不断变化的,语料库也要相应变化.(例如:1978年,中国报纸只有186种,基本上是单一的党委
机关报,到1995年底,已经增加到2202种,平均期印数增加4倍,总印张增加3·5倍,报纸的品种,功能,发行都有了相当
大的变化如果要科学地反应语言的流通应用情况,语料库的容量,选材,抽样等怎么可能一成不变呢)
特点二:流通性
1997年全世界期刊发行量最大的前50名的中国期刊(略)
双语或多语
大致可分为三类:
一是研究双语语料的对齐技术(Alignment),国内外学者就此提出多种策略和方法,已经出现了许多对齐双语或多语语料的程序或工具[Gale 1993];
二是研究双语语料的各种应用,如在基于统计的
机器翻译技术[Brown 1990]、
基于实例的机器翻译技术[Nagao 1984],
双语词典编纂[Klavans and Tzoukermann 1990]技术中,双语语料库都发挥着十分重要的作用;
三是双语语料库的设计、采集、编码和管理问题。比较著名的语料库
编码方案有TEI 文本编码标准以及CES标准,两者均基于
SGML标记语言研究
指不只有一种语言的语料库。分为平行语料库和对照语料库两种。平行语料库指库中的两种或多种文本互相是对方的译文,因此可以用于翻译或者
机器翻译研究;对照语料库中两种或多种语言的文本不构成对译关系,只是领域相同,主题相近。通常只能用于两种或多种语言的对比。
就前两类研究来说,中国国内做了较多的跟踪研究工作,而对于第三类研究,即双语语料库尤其是涉及汉语的双语语料库的建设、编码和管理研究,探索工作似乎做的相对较少。
国内最大的语料交换平台是Tmxmall语料商城。